Um arquivo robots.txt restringe o acesso ao site por mecanismos de pesquisa robôs que rastreiam a web. Esses bots são automáticos e, antes de acessarem as páginas de um site, verificam se existe um arquivo robots.txt que impede que eles acessem certas páginas. (Todos os robôs honrados respeitam as instruções de um arquivo robots.txt, embora alguns possam interpretá-las de modo diferente. No entanto, um arquivo robots.txt não é executável e alguns criadores de spam e outros usuários mal-intencionados podem ignorá-lo. Por isso, recomendamos que as informações confidenciais sejam protegidas por senha.)
O arquivo robots.txt é necessário apenas para o caso de o seu site incluir algum conteúdo que você não queira que os mecanismos de pesquisa indexem. Se você desejar que os mecanismos de pesquisa indexem tudo o que há no seu site, o arquivo robots.txt não será necessário (nem mesmo um arquivo em branco).
Embora o Google não rastreie ou indexe o conteúdo de páginas bloqueadas pelo robots.txt, ele ainda pode rastrear e indexar os URLs se os encontrar em outras páginas web. Dessa forma, o URL da página e, potencialmente, outras informações disponíveis, como o texto âncora em links para o site ou o título do Open Directory Project (www.dmoz.org), poderão aparecer nos resultados de pesquisa do Google.
Para usar um arquivo robots.txt, é necessário ter acesso à raiz do domínio (se não tiver certeza disso, entre em contato com o hoster da web). Se não tiver acesso à raiz do domínio, você pode restringir o acesso usando uma meta tag de robôs.
O que você deseja fazer?
Gerar um arquivo robots.txt usando a ferramenta Gerar robots.txt
- Na página inicial das Ferramentas do Google para webmasters, clique no site que deseja.
- Em Configuração do site clique em Acesso do rastreador.
- Clique na guia Gerar robots.txt.
- Escolha o acesso de robô padrão. Recomendamos que você permita todos os robôs e use a próxima etapa para excluir os robôs específicos que não devem acessar o seu site. Isso ajuda a evitar problemas devido ao bloqueio acidental de rastreadores fundamentais no seu site.
- Especifique regras adicionais. Por exemplo, para bloquear o Googlebot em todos os arquivos e diretórios no seu site:
- Na lista Ação, selecione Disallow.
- Na lista Robô, clique em Googlebot.
- Na caixa Arquivos ou diretórios, digite /.
- Clique em Adicionar. O código do arquivo robots.txt será gerado automaticamente.
- Para salvar o arquivo robots.txt, faça download do arquivo ou copie o conteúdo em um arquivo de texto e salve como robots.txt. Salve o arquivo no diretório de nível superior do seu site. O arquivo robots.txt deve ficar na raiz do domínio e deve ter o nome "robots.txt". Um arquivo robots.txt localizado em um subdiretório não é válido, já que os robôs apenas procuram por esse arquivo na raiz do domínio. Por exemplo, http://www.example.com/robots.txt é um local válido, mas http://www.example.com/meusite/robots.txt não.
As regras especificadas no arquivo robots.txt são solicitações, e não ordens. O Googlebot e todos os robôs honrados respeitarão as instruções em um arquivo robots.txt. No entanto, alguns falsos robôs—como criadores de spam, scrapers e outros impostores—podem não respeitar o arquivo. Desse modo, é recomendável manter as informações em sigilo em um diretório protegido por senha no seu servidor. Além disso, robôs diferentes podem interpretar os arquivos robots.txt de modo diferente e nem todos os robôs suportam todas as instruções incluídas no arquivo. Embora façamos o melhor possível para criar arquivos robots.txt que funcionem em todos os robôs, não podemos garantir como esses arquivos serão interpretados.
Para verificar se o seu arquivo robots.txt está apresentando o desempenho esperado, use a ferramenta Testar robots.txt das Ferramentas do Google para webmasters.
Criar manualmente um arquivo robots.txt
O arquivo robots.txt mais simples usa duas regras:
- User-agent: o robô para o qual se aplica a regra seguinte
- Disallow: o URL que deseja bloquear
Essas duas linhas são consideradas uma única entrada no arquivo. Inclua quantas entradas desejar. É possível incluir várias linhas "Disallow" e diversos user-agents em uma entrada.
Cada seção no arquivo robots.txt é separada e não é criada sobre as seções anteriores. Por exemplo:
User-agent: * Disallow: /pasta1/ User-agent: Googlebot Disallow: /pasta2/
Neste exemplo, apenas os URLs que correspondem a /pasta2/ não serão permitidos para o Googlebot.
User-agents e robôs
Um user-agent é um robô específico dos mecanismos de pesquisa. A página Robots Database na web relaciona muitos robôs comuns. Configure uma entrada para ser aplicada em um robô específico (listando o nome) ou configure-a para ser aplicada em todos os robôs (listando um asterisco). Uma entrada que se aplica a todos os robôs tem esta forma:
User-agent: *
O Google usa diversos robôs (user-agents). O robô que usamos para a nossa pesquisa na web é o Googlebot. Nossos outros robôs, como o Googlebot-Mobile e o Googlebot-Image, seguirão as regras que você configurar para o Googlebot, mas é possível configurar algumas regras específicas para esses robôs.
Como bloquear user-agents
A linha "Disallow" lista as páginas que você deseja bloquear. Relacione um URL específico ou um padrão. A entrada deve começar com uma barra (/).
- Para bloquear todo o site, use uma barra.
Disallow: /
- Para bloquear um diretório e tudo o que houver nele, adicione a mesma barra após o nome do diretório.
Disallow: /diretorio-lixo/
- Para bloquear uma página, liste a página.
Disallow: /arquivo_particular.html
- Para remover uma imagem específica da Pesquisa de imagens do Google, adicione o seguinte:
User-agent: Googlebot-Image Disallow: /imagens/cachorros.jpg
- Para remover todas as imagens do seu site da Pesquisa de imagens do Google:
User-agent: Googlebot-Image Disallow: /
- Para bloquear os arquivos de um tipo específico (por exemplo, .gif), use o seguinte:
User-agent: Googlebot Disallow: /*.gif$
- Para impedir que as páginas do seu site sejam rastreadas, mas continuem exibindo anúncios do AdSense, bloqueie todos os robôs, exceto o Mediapartners-Google. Isso impede que as páginas apareçam nos resultados de pesquisa, mas permite que o robô Mediapartners-Google analise as páginas para determinar os anúncios que devem ser mostrados. O robô Mediapartners-Google não compartilha páginas com outros user-agents do Google. Por exemplo:
User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /
Observe que as instruções diferenciam caracteres maiúsculos e minúsculos. Por exemplo, Disallow: /arquivo_lixo.asp bloquearia http://www.example.com/arquivo_lixo.asp, mas permitiria http://www.example.com/Arquivo_lixo.asp. O Googlebot ignorará espaços em branco (em linhas vazias específicas) e instruções desconhecidas no robots.txt.
O Googlebot suporta o envio de arquivos do Sitemap por meio do arquivo robots.txt.
Correspondência por padrão
O Googlebot (mas não todos os mecanismos de pesquisa) respeita algumas correspondências por padrão.
- Para fazer com que uma sequência de caracteres gere uma correspondência, use um asterisco (*).Por exemplo, para bloquear o acesso a todos os subdiretórios que começam com "particular":
User-agent: Googlebot Disallow: /particular*/
- Para bloquear o acesso a todos os URLs que incluam um ponto de interrogação (?) (mais especificamente, qualquer URL que comece com o nome do seu domínio, seguido por qualquer string, por um ponto de interrogação ou por qualquer string):
User-agent: Googlebot Disallow: /*?
- Para especificar a correspondência do fim do URL, use $. Por exemplo, para bloquear os URLs que terminam com .xls:
User-agent: Googlebot Disallow: /*.xls$
Use essa correspondência por padrão juntamente com a instrução "Allow". Por exemplo, se um "?" indicar um ID de sessão, convém excluir todos os URLs que contenham o caractere para assegurar que o Googlebot não rastreie páginas duplicadas. Mas os URLs terminados em "?" podem ser a versão da página que você deseja incluir. Nesse caso, você pode configurar o arquivo robots.txt da seguinte maneira:
User-agent: * Allow: /*?$ Disallow: /*?
A instrução Disallow: / *? bloqueará qualquer URL que contenha um "?" (mais especificamente, ela bloqueará qualquer URL que comece com o nome do seu domínio, seguido por qualquer string, por um ponto de interrogação, por qualquer string).
A instrução Allow: /*?$ permitirá qualquer URL que termine com "?" (mais especificamente, ela permitirá qualquer URL que comece com o nome do seu domínio, seguido por uma string, por um "?" e sem qualquer caractere depois do "?").
A ferramenta Testar robots.txt mostrará a você se o arquivo robots.txt está bloqueando acidentalmente o Googlebot de um arquivo ou diretório em seu site ou se está permitindo que o Googlebot rastreie arquivos que não deveriam aparecer na web. Quando você digita o texto de um arquivo robots.txt sugerido, a ferramenta lê o arquivo da mesma maneira que o Googlebot faz e lista os efeitos do arquivo e quaisquer problemas encontrados.
Para testar o arquivo robots.txt de um site:
- Na página inicial das Ferramentas do Google para webmasters, clique no site que deseja.
- Em Configuração do site clique em Acesso do rastreador
- Se ainda não estiver selecionada, clique na guia Testar robots.txt.
- Copie o conteúdo do arquivo robots.txt e cole-o na primeira caixa.
- Na caixa URLs, liste o site a ser testado.
- Na lista User-agents, selecione os user-agents desejados.
Toda alteração feita nessa ferramenta não será salva. Para salvar qualquer alteração, é necessário copiar o conteúdo e colá-lo em seu arquivo robots.txt.
Essa ferramenta fornece resultados apenas para os user-agents do Google (como o Googlebot). Outros robôs talvez não interpretem o arquivo robots.txt da mesma maneira. Por exemplo, o Googlebot suporta uma definição ampliada do protocolo do robots.txt padrão. São entendidas as instruções Allow:, bem como algumas correspondências do padrão. Desse modo, embora a ferramenta mostre linhas que tenham essas extensões como processadas, lembre-se de que isso se aplica apenas ao Googlebot e não necessariamente a outros robôs que possam rastrear seu site.
atualizado 9/2/2009