Torna alla Home page di Google
 Google - Informazioni per webmaster
Cerca nel sito:

 

Googlebot: crawler Web di Google

Googlebot è il robot di Google che esegue la scansione del Web. Raccoglie i documenti dal Web e crea un indice in cui è possibile eseguire una ricerca con il motore di ricerca di Google. In questa pagina troverete la risposta alle domande più comuni sul funzionamento del nostro crawler Web.

Per ulteriori informazioni su come impedire a Googlebot di eseguire la scansione parziale o totale del vostro sito, consultate la pagina Rimozione di contenuti.

 Domande frequenti
  1. Con quale frequenza Googlebot accede alle mie pagine Web?
  2. Posso chiedere che Google non esegua la scansione totale o parziale del mio sito?
  3. Googlebot sta eseguendo la scansione del mio sito troppo velocemente. Che cosa posso fare?
  4. Perché Googlebot richiede un file robots.txt non presente sul mio server?
  5. Perché Googlebot sta cercando di scaricare i collegamenti errati dal mio server o da un server inesistente?
  6. Perché Googlebot sta cercando di scaricare informazioni dal mio server Web "segreto"?
  7. Perché Googlebot non segue le istruzioni del file robots.txt?
  8. Perché esistono più sistemi che utilizzano l'agente Googlebot su Google.it?
  9. Potreste indicarmi quali sono gli indirizzi IP da cui Googlebot esegue la scansione in modo da filtrare i miei log?
  10. Perché Googlebot scarica più volte la stessa pagina sul mio sito?
  11. Perché le pagine del mio sito indicizzate da Googlebot non risultano nel vostro indice?
  12. Quali sono i tipi di collegamenti seguiti da Googlebot?
  13. Come faccio per impedire che Googlebot segua i collegamenti delle mie pagine?
  14. In che modo posso indicare a Googlebot di non includere un singolo collegamento in uscita di una pagina?
  15. Non ho trovato la risposta che cercavo. Dove posso inviare la mia domanda su Googlebot?
 Risposte

1. Con quale frequenza Googlebot accede alle mie pagine Web?

Googlebot non dovrebbe accedere al vostro sito in media più di una volta ogni pochi secondi. Tuttavia, per possibili ritardi di rete, tale frequenza potrebbe risultare leggermente superiore in brevi intervalli di tempo.

2. Posso chiedere che Google non esegua la scansione totale o parziale del mio sito?

robots.txt è un documento standard che indica a Googlebot di non scaricare parte o tutte le informazioni dal vostro server Web. Il formato del file robots.txt è specificato nella pagina relativa allo standard di esclusione robot (informazioni in lingua inglese). Per ulteriori informazioni su come impedire a Googlebot di eseguire la scansione parziale o totale del vostro sito, consultate la pagina Rimozione di contenuti. È utile ricordare che le modifiche apportate al file robots.txt sul server non saranno immediatamente visibili; verranno rilevate e diventeranno effettive nel corso della successiva scansione del sito.

3. Googlebot sta eseguendo la scansione del mio sito troppo velocemente. Che cosa posso fare?

Vi invitiamo a contattarci specificando l'URL del sito e fornendo una descrizione dettagliata del problema. Vi consigliamo anche di includere una parte del log in cui sono riportati gli accessi Google, in modo da consentirci di individuare e risolvere il problema rapidamente.

4. Perché Googlebot richiede un file robots.txt non presente sul mio server?

robots.txt è un documento standard che indica a Googlebot di non scaricare parte o tutte le informazioni dal vostro server Web. Per informazioni sulla creazione di un file robots.txt, vi rimandiamo alla pagina relativa allo standard di esclusione robot (informazioni in lingua inglese) Se volete soltanto impedire che vengano generati messaggi di errore "file non trovato" nel log del server Web, potete creare un file robots.txt vuoto.

5. Perché Googlebot sta cercando di scaricare i collegamenti errati dal mio server o da un server inesistente?

I collegamenti possono interrompersi o diventare inaccessibili a causa delle caratteristiche stesse del Web. Se il collegamento pubblicato contiene un errore di digitazione o di ortografia o se non viene eseguito l'aggiornamento delle pagine dopo la modifica dei dati sul vostro server, Googlebot tenta di scaricare dal vostro sito un collegamento errato. Questo è anche uno dei motivi per cui i risultati possono comprendere riferimenti a sistemi che non sono server Web.

6. Perché Googlebot sta cercando di scaricare informazioni dal mio server Web "segreto"?

Anche se non si pubblicano i collegamenti che rimandano a un server Web, è praticamente impossibile mantenerlo segreto. Nel momento stesso in cui un utente, autorizzato ad accedere ad un sito "segreto", seleziona il collegamento ad un altro server Web, trasmette probabilmente il tag di riferimento del vostro URL "segreto", consentendone la memorizzazione ed anche la pubblicazione nel log di riferimento degli altri server Web. Pertanto, se esiste un collegamento al server Web "segreto" o ad una sua pagina, è probabile che Googlebot e gli altri crawler Web lo individuino.

7. Perché Googlebot non segue le istruzioni del file robots.txt?

Per limitare l'uso di larghezza di banda, Googlebot scarica il file robots.txt solo una volta al giorno o nel caso in cui siano state acquisite molte pagine dal server. Per questo motivo, la rilevazione delle modifiche apportate al file robots.txt può non essere immediata. Inoltre, occorre tenere presente che Googlebot è distribuito su più sistemi che tengono traccia del file robots.txt singolarmente.

Vi consigliamo di verificare sempre che la sintassi sia corretta, consultando il sito Web all'indirizzo http://www.robotstxt.org/wc/exclusion.html#robotstxt. In genere il problema è dovuto al fatto che il file robots.txt viene collocato in una sottodirectory invece che nella directory principale del server (ad esempio www.ilmiohost.it/robots.txt).

È importante inoltre notare la sottile differenza tra il modo in cui Googlebot gestisce il file robots.txt e il modo previsto dallo standard robots.txt. In base allo standard, dovrebbe essere seguita la prima regola valida, mentre Googlebot segue la regola valida più lunga, ossia la più specifica. Si tratta di un comportamento intuitivo simile a quello seguito da un normale utente e sicuramente quello più corretto. Prendendo in considerazione il seguente file robots.txt:

User-Agent: *
Allow: /
Disallow: /cgi-bin

risulta ovvio che l'intento del webmaster sia quello di consentire ai robot di effettuare la scansione di tutte le directory ad eccezione di quella /cgi-bin. Googlebot esegue quindi proprio tale istruzione.

Per ulteriori informazioni, vi consigliamo la sezione relativa alle domande frequenti sui robot (informazioni in lingua inglese). Se il problema persiste, vi preghiamo di comunicarcelo.

8. Perché esistono più sistemi che utilizzano l'agente Googlebot su Google.it?

Googlebot è stato progettato per essere distribuito su più sistemi per offrire prestazioni e scalabilità migliori e tali da soddisfare la continua crescita delle risorse Web. Per ridurre la larghezza di banda utilizzata, ci proponiamo di utilizzare più crawler installati su computer situati vicino ai siti indicizzati sulla rete.

9. Potreste indicarmi quali sono gli indirizzi IP da cui Googlebot esegue la scansione in modo da filtrare i miei log?

Gli indirizzi IP utilizzati da Googlebot cambiano continuamente. Il modo migliore per identificare gli accessi effettuati da Googlebot consiste nell'utilizzare l'agente utente Googlebot.

10. Perché Googlebot scarica più volte la stessa pagina sul mio sito?

In genere durante una scansione Googlebot dovrebbe scaricare dal sito solo una copia di ciascun file. Raramente si verifica che il crawler venga interrotto e riavviato, con la conseguente ripetizione della scansione delle pagine appena recuperate.

11. Perché le pagine del mio sito indicizzate da Googlebot non risultano nel vostro indice?

Non vi allarmate se non trovate immediatamente nel motore di ricerca di Google i documenti indicizzati da Googlebot. I documenti vengono inseriti nell'indice subito dopo la scansione. Occasionalmente i documenti recuperati da Googlebot non vengono inclusi per vari motivi, ad esempio se risultano essere duplicati di altre pagine sul Web.

12. Quali sono i tipi di collegamenti seguiti da Googlebot?

Googlebot segue i collegamenti HREF e i collegamenti SRC.

13. Come faccio per impedire che Googlebot segua i collegamenti delle mie pagine?

Per impedire che Googlebot segua i collegamenti delle vostre pagine in altre pagine o documenti, inserite il seguente meta tag nell'intestazione del documento HTML:

<META NAME="Googlebot" CONTENT="nofollow">

Per ulteriori informazioni sui meta tag, consultate la relativa sezione all'indirizzo http://www.robotstxt.org/wc/exclusion.html#meta (informazioni in lingua inglese); vi invitiamo anche a leggere le informazioni su questi tag riportate nello standard HTML. È utile ricordare che le modifiche apportate al sito non saranno immediatamente visibili; verranno rilevate e diventeranno effettive nel corso della successiva scansione del sito.

14. In che modo posso indicare a Googlebot di non includere un singolo collegamento in uscita di una pagina?

Con i meta tag è possibile non solo escludere tutti i collegamenti in uscita di una pagina ma anche specificare che Googlebot non esegua la scansione di singoli collegamenti aggiungendo rel="nofollow" al collegamento ipertestuale. Se Google vede l'attributo rel="nofollow" nei collegamenti ipertestuali, non li prende in considerazione quando definisce la posizione dei siti Web nei risultati della ricerca. Ad esempio, il link

<a href=http://www.esempio.it/>Questo è un collegamento fantastico.</a>

potrebbe essere sostituito da

<a href=http://www.esempio.it/ rel="nofollow"> Non garantisco per questo collegamento</a>.

15. Non ho trovato la risposta che cercavo. Dove posso inviare la mia domanda su Googlebot?

Vi invitiamo a contattarci per qualsiasi domanda.