Torna alla Home page di Google
 Google - Informazioni per webmaster
Home

Tutto su Google

Informazioni per webmaster
  Domande frequenti (FAQ)
  Istruzioni
  Vero e falso
  Ottimizzatori per motori di ricerca
  Googlebot
  Rimozione di contenuti
Cerca nel sito:

 

Volete rimuovere contenuti dall'indice di Google?

Google ritiene estremamente importante la completezza dei risultati delle ricerche. Il nostro impegno è fornire agli utenti risultati della ricerche completi e imparziali, senza applicare nessun tipo di censura. Interrompiamo l'indicizzazione di un sito solo su richiesta del webmaster responsabile delle pagine, quando un sito simula in modo illecito il nostro indice o qualora richiesto per legge. Tale norma è necessaria per garantire che le pagine non vengano rimosse dal nostro indice in modo inappropriato.

 Opzioni di rimozione

Per ulteriori informazioni, selezionare una delle opzioni seguenti. La rimozione di contenuti ha effetto la volta successiva che Google esegue la scansione del sito.

 Rimozione completa del sito Web

Se desiderate escludere completamente il vostro sito Web dall'indice di Google, potete inserire nella directory principale del server il file robots.txt. Questo file è il protocollo standard adottato dalla maggior parte dei crawler Web per escludere da un indice un server Web o una directory. Ulteriori informazioni su robots.txt sono disponibili all'indirizzo http://www.robotstxt.org/wc/norobots.html. Googlebot non interpreta una risposta 401/403 ("Unauthorized"/"Forbidden") a un comando di robots.txt come richiesta di esclusione di tutte le pagine del sito dall'operazione di scansione.

Per rimuovere il sito dai motori di ricerca e impedire che tutti i robot ne eseguano la scansione in futuro, inserite il seguente file robots.txt nella directory principale del server.

User-agent: *
Disallow: /

Per rimuovere il sito solo da Google e impedire che solo Googlebot ne esegua la scansione in futuro, inserite il seguente file robots.txt nella directory principale del server:

User-agent: Googlebot
Disallow: /

Ciascuna porta deve disporre di un proprio file robots.txt. In particolare, se i contenuti vengono forniti tramite http e https, sarà necessario un file robots.txt diverso per ciascun protocollo. Ad esempio, per consentire a Googlebot di indicizzare tutte le pagine http ma non le pagine https, utilizzate i seguenti file robots.txt:

Per il protocollo http (http://iltuoserver.it/robots.txt):

User-agent: *
Allow: /

Per il protocollo https (https://iltuoserver.it/robots.txt):

User-agent: *
Disallow: /


Nota: se ritenete che la vostra richiesta sia urgente e non potete aspettare la scansione successiva del vostro sito, utilizzate il nostro sistema automatico di rimozione URL. Per far funzionare questo processo automatizzato, il webmaster deve innanzitutto creare un file robots.txt e inserirlo nel sito in questione.

Se nella directory principale del server Web è presente il file robots.txt, Google continuerà a escludere il sito o le directory dalle scansioni successive. Se non avete accesso al livello della directory principale del server, potete collocare il file robots.txt nello stesso livello dei file che desiderate rimuovere. In questo modo inviando una segnalazione al sistema automatico di rimozione URL, il sito verrà rimosso temporaneamente per 180 giorni dall'indice di Google, anche senza aver rimosso il file robots.txt una volta elaborata la richiesta. Se il file robots.txt viene lasciato nello stesso livello, ogni 180 giorni sarà necessario accedere al sistema di rimozione URL per inviare di nuovo la richiesta di rimozione.


 Rimozione parziale del sito Web

Opzione 1: Robots.txt

Per rimuovere directory o singole pagine del vostro sito Web, potete inserire un file robots.txt nella directory principale del vostro server. Per informazioni sulla creazione di un file robots.txt, vi rimandiamo alla pagina relativa allo standard di esclusione robot (informazioni in lingua inglese) Quando create il file robots.txt, tenete presente che quando Googlebot esegue la scansione delle pagine in un determinato host, segue le istruzioni contenute nel primo record del file robots.txt in cui l'agente utente inizia con "Googlebot." Qualora non sia presente, segue le istruzioni contenute nel primo record in cui l'agente utente è "*". Inoltre Google grazie all'uso degli asterischi ha reso ancora più flessibile lo standard del file robots.txt. Le istruzioni Disallow possono ad esempio includere l'asterisco "*" in riferimento a una qualsiasi sequenza di caratteri; inoltre possono terminare con il simbolo di dollaro "$" per indicare la parte finale di un nome.

Per rimuovere tutte le pagine contenute in una particolare directory (ad esempio, lemurs), utilizzate il seguente file robots.txt:

User-agent: Googlebot
Disallow: /lemurs

Per rimuovere tutti i file di un tipo specifico (ad esempio, .gif), utilizzate il seguente file robots.txt:

User-agent: Googlebot
Disallow: /*.gif$

Per rimuovere le pagine generate dinamicamente, utilizzate questo file robots.txt:

User-agent: Googlebot
Disallow: /*?

Opzione 2: meta tag

Un altro standard, che può essere più comodo in caso di utilizzo per singole pagine, implica l'aggiunta di un tag <META> in una pagina HTML per indicare ai robot di non indicizzare la pagina. Per una descrizione di questo standard, vi rimandiamo alla pagina http://www.robotstxt.org/wc/exclusion.html#meta (informazioni in lingua inglese).

Per impedire a tutti i robot di indicizzare una pagina del vostro sito, inserite il seguente meta tag nella sezione <HEAD> della pagina:

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

Per consentire a tutti i robot ad eccezione dei robot di Google di indicizzare la pagina del vostro sito, utilizzate il seguente tag:

<META NAME="GOOGLEBOT" CONTENT="NOINDEX, NOFOLLOW">

Per consentire a tutti i robot di indicizzare la pagina del vostro sito senza seguire i collegamenti in uscita, utilizzate il seguente tag:

<META NAME="ROBOTS" CONTENT="NOFOLLOW">

Nota: se ritenete che la vostra richiesta sia urgente e non potete aspettare la scansione successiva del vostro sito, utilizzate il nostro sistema automatico di rimozione URL. Per far funzionare questo processo automatizzato, il webmaster deve innanzitutto inserire i meta tag appropriati nel codice HTML della pagina. In questo modo inviando una segnalazione al sistema automatico di rimozione URL, le pagine verranno rimosse temporaneamente per 180 giorni dall'indice di Google, anche senza rimuovere il file robots.txt o i meta tag una volta elaborata la richiesta.

 Rimozione degli snippet

Uno snippet è un breve riassunto, visualizzato sotto il titolo della pagina nei risultati della ricerca, che descrive il contenuto della pagina.

Per impedire a Google di visualizzare gli snippet della vostra pagina, inserite questo tag nella sezione <HEAD> della vostra pagina:

<META NAME="GOOGLEBOT" CONTENT="NOSNIPPET">

Nota: quando si rimuovono gli snippet, vengono rimosse anche le pagine cache.

Nota: se ritenete che la vostra richiesta sia urgente e non potete aspettare la scansione successiva del vostro sito, utilizzate il nostro sistema automatico di rimozione URL. Per far funzionare questo processo automatizzato, il webmaster deve innanzitutto inserire i meta tag appropriati nel codice HTML della pagina.

 Rimozione delle pagine cache

Google scatta automaticamente un'"istantanea" di ciascuna pagina individuata durante la scansione e la memorizza. La versione cache consente di recuperare la pagina Web quando la pagina originale non è disponibile, a causa di un guasto temporaneo del server Web della pagina. La versione cache della pagina Web si presenta esattamente come risultava al momento dell’ultima scansione da parte di Google e contiene un messaggio in alto che segnala che si tratta di una versione cache del documento. Gli utenti possono accedere alla versione cache facendo clic sul collegamento "Copia cache" nella pagina dei risultati della ricerca.

Per impedire a tutti i motori di ricerca di visualizzare il collegamento alla copia cache del vostro sito, inserite questo tag nella sezione <HEAD> della pagina:

<META NAME="ROBOTS" CONTENT="NOARCHIVE">

Per impedire a tutti i motori di ricerca ad eccezione di Google di visualizzare il collegamento alla copia cache del vostro sito, utilizzate il seguente tag:

<META NAME="GOOGLEBOT" CONTENT="NOARCHIVE">

Nota: questo tag rimuove solo il collegamento alla copia cache della pagina. Google continuerà a indicizzare la pagina e visualizzare uno snippet.

Nota: se ritenete che la vostra richiesta sia urgente e non potete aspettare la scansione successiva del vostro sito, utilizzate il nostro sistema automatico di rimozione URL. Per far funzionare questo processo automatizzato, il webmaster deve innanzitutto inserire i meta tag appropriati nel codice HTML della pagina.

 Rimozione di un collegamento obsoleto

Google aggiorna automaticamente e regolarmente l'intero indice. Nel corso di ogni scansione, il crawler individua le nuove pagine Web, aggiorna automaticamente i collegamenti e scarta quelli non validi. Pertanto, i collegamenti non validi verranno probabilmente "rimossi" dall'indice alla successiva scansione.

Nota: se ritenete che la vostra richiesta sia urgente e non potete aspettare la scansione successiva del vostro sito, utilizzate il nostro sistema automatico di rimozione URL. Accetteremo la vostra richiesta di rimozione solo se la pagina restituisce un vero errore 404 tramite le intestazioni http. Verificate che venga restituito un vero errore 404 anche se scegliete di visualizzare per i visitatori un corpo della pagina HTML più semplice. Non è di aiuto restituire una pagina "File non trovato" se le intestazioni http restituiscono comunque un codice di stato 200 o normale.

 Rimozione di un'immagine da Ricerca immagini di Google

Per rimuovere un'immagine dall'indice delle immagini di Google, aggiungete un file robots.txt nella directory principale del server. Se non potete accedere alla directory principale del server, inseritelo a livello della directory.

Esempio: se desiderate che Google escluda l'immagine cani.jpg che appare nel vostro sito all'indirizzo www.iltuosito.it/immagini/cani.jpg, create una pagina all'indirizzo www.iltuosito.it/robots.txt e aggiungete il testo seguente:

User-agent: Googlebot-Image
Disallow: /images/cani.jpg

Per rimuovere tutte le immagini del vostro sito dal nostro indice, inserite il seguente file robots.txt nella directory principale del server:

User-agent: Googlebot-Image
Disallow: /

Questo file è il protocollo standard adottato dalla maggior parte dei crawler Web per escludere da un indice un server Web o una directory. Ulteriori informazioni su robots.txt sono disponibili all'indirizzo http://www.robotstxt.org/wc/norobots.html (informazioni in lingua inglese).

Inoltre Google grazie all'uso degli asterischi ha reso ancora più flessibile lo standard del file robots.txt. Le istruzioni Disallow possono ad esempio includere "*" in riferimento a una qualsiasi sequenza di caratteri; inoltre possono terminare con il simbolo di dollaro "$" per indicare la parte finale di un nome. Per rimuovere tutti i file di un tipo specifico, ad esempio per includere le immagini .jpg ma non le immagini .gif), utilizzate il seguente file robots.txt:

User-agent: Googlebot-Image
Disallow: /*.gif$


Nota: se ritenete che la vostra richiesta sia urgente e non potete aspettare la scansione successiva del vostro sito, utilizzate il nostro sistema automatico di rimozione URL. Per far funzionare questo processo automatizzato, il webmaster deve innanzitutto creare un file robots.txt e inserirlo nel sito in questione.

Se nella directory principale del server Web è presente il file robots.txt, Google continuerà a escludere il sito o le directory dalle scansioni successive. Se non avete accesso al livello della directory principale del server, potete collocare il file robots.txt nello stesso livello dei file che desiderate rimuovere. In questo modo inviando una segnalazione al sistema automatico di rimozione URL, le directory specificate nel file robots.txt verranno rimosse temporaneamente per 180 giorni dall'indice di Google, anche senza aver rimosso il file robots.txt una volta elaborata la richiesta. Se il file robots.txt viene lasciato nello stesso livello, ogni 180 giorni sarà necessario accedere al sistema di rimozione URL per inviare di nuovo la richiesta di rimozione.


 Rimozione delle pagine transcodificate

Ricerca Web di Google per i telefoni cellulari consente agli utenti di eseguire ricerche all'interno di tutti i contenuti dell'indice Google per i browser Web da desktop. Poiché tali contenuti non sono creati in modo specifico per i telefoni cellulari e i dispositivi mobili e quindi potrebbero non essere visualizzati correttamente, Google trasforma automaticamente queste pagine, ossia le transcodifica, analizzando il codice HTML originale e convertendolo in un formato leggibile per un dispositivo mobile. Per garantire il massimo della qualità e la visualizzazione di tutto il contenuto possibile di una pagina Web sul tuo dispositivo mobile o sul tuo cellulare, Google può ridimensionare o convertire immagini e formattazioni di testo e/o determinati aspetti delle funzionalità delle pagine Web.

Per impedire la transcodifica delle vostre pagine web, vi preghiamo di inviare un'email al seguente indirizzo: mobile-it@google.com.