Los archivos robots.txt restringen el acceso de los robots de motores de búsqueda que rastrean la Web a un sitio. Estos robots están automatizados y, antes de acceder a las páginas de un sitio, verifican si existe un archivo robots.txt que les impida el acceso a determinadas páginas. Aunque todos los robots acreditados respetan las directivas del archivo robots.txt, algunos pueden interpretarlas de forma diferente. Sin embargo, el archivo robots.txt no es obligatorio y algunos emisores de spam y otros malhechores pueden ignorarlo. Por este motivo, es recomendable proteger la información confidencial con contraseñas.
El archivo robots.txt solo es necesario si su sitio incluye contenido que no desea que los motores de búsqueda indexen. Si va a permitir la indexación de su sitio por completo, el archivo robots.txt no es necesario (ni siquiera uno vacío).
Si bien Google no rastreará ni indexará el contenido de las páginas bloqueadas por robots.txt, sí que indexará las URL que encuentre en otras páginas de la Web. En consecuencia, la URL de la página y otros datos que puedan estar disponibles públicamente, como el texto de anclaje de enlaces que dirijan al sitio o el título de Open Directory Project (www.dmoz.org), podrían aparecer en los resultados de búsqueda de Google.
Para usar un archivo robots.txt, necesitará tener acceso al directorio raíz de su dominio (si no está seguro, consúltelo con su proveedor de alojamiento web). Si no tiene acceso al directorio raíz de un dominio, puede restringir el acceso al mismo utilizando la metaetiqueta "robots".
¿Qué desea hacer?
Generar un archivo robots.txt con la herramienta de generación de archivos robots.txt
- En la página principal de Herramientas para webmasters de Google, haga clic en el sitio que desee.
- En Información del sitio, haga clic en Acceso de rastreadores.
- Haga clic en la pestaña Generar robots.txt.
- Seleccione el acceso predeterminado de los robots. Le recomendamos que permita el acceso de todos los robots y que realice el paso siguiente para excluir aquellos robots específicos que no desea que accedan a su sitio. Esto evitará el bloqueo accidental de rastreadores clave en su sitio.
- Especifique cualquier otra regla adicional. Por ejemplo, para evitar que Googlebot acceda a todos los archivos y directorios de su sitio:
- En la lista Acción, seleccione Disallow.
- En la lista Robot, haga clic en Googlebot.
- En el cuadro Archivos o directorios, introduzca /.
- Haga clic en Añadir. El código del archivo robots.txt se generará automáticamente.
- Guarde su archivo robots.txt descargándolo o copiando el contenido en un archivo de texto y guardándolo como robots.txt. Guarde el archivo en el directorio de nivel superior de su sitio. El archivo robots.txt debe ubicarse en la raíz del dominio y denominarse "robots.txt". Si se ubica en subdirectorios, no será válido, ya que los robots sólo lo buscan en la raíz del dominio. Por ejemplo, http://www.example.com/robots.txt es una ubicación válida, pero http://www.example.com/misitio/robots.txt no lo es.
Las normas especificadas en el archivo robots.txt son solicitudes, no órdenes obligatorias. Googlebot y todos los robots acreditados respetarán las instrucciones incluidas en el archivo robots.txt. Sin embargo, es posible que algunos robots malintencionados, como los emisores de spam, recopiladores de datos y otros de similar reputación, no respeten dichas normas. Por lo tanto, le recomendamos que guarde la información confidencial en carpetas protegidas por contraseña en su servidor. Asimismo, varios robots pueden interpretar las normas del archivo robots.txt de forma diferente, y no todos los robots son compatibles con todas las instrucciones del archivo. Si bien hacemos todo lo posible por crear archivos robots.txt que funcionen con todos los robots, no podemos garantizar la interpretación que harán de estos archivos.
Para comprobar si su archivo robots.txt actúa correctamente, utilice la herramienta de prueba de robots.txt de Herramientas para webmasters de Google.
Crear de forma manual un archivo robots.txt
El archivo robots.txt más simple utiliza dos reglas:
- User-Agent - El robot al que se aplica la siguiente regla
- Disallow - La URL que desea bloquear
Estas líneas se consideran una única entrada en el archivo. Puede incluir todas las entradas que desee, así como varias líneas Disallow y varios user-agents en una misma entrada.
Cada sección del archivo robots.txt es independiente y no se genera a partir de secciones anteriores. Por ejemplo:
User-agent: * Disallow: /carpeta1/ User-Agent: Googlebot Disallow: /carpeta2/
En este ejemplo, no se permitirían para Googlebot únicamente las URL coincidentes con /carpeta2/.
User-agents y robots
Un user-agent es un robot específico del motor de búsqueda. La base de datos de robots web incluye numerosos robots comunes. Puede configurar una entrada para que se aplique a un robot específico (mediante su nombre) o para que se aplique a todos los robots (mediante un asterisco). El aspecto de una entrada que se aplica a todos los robots es el siguiente:
User-agent: *
Google utiliza varios robots diferentes (user-agents). El robot que utilizamos para nuestra búsqueda web es Googlebot. El resto de nuestros robots, como Googlebot-Mobile y Googlebot-Image, siguen las reglas configuradas para Googlebot, aunque también pueden definirse reglas específicas para ellos.
Bloqueo de user-agents
La línea Disallow indica las páginas que desea bloquear. Puede insertar una URL específica o un patrón. La entrada debe comenzar con una barra inclinada (/).
- Para bloquear todo el sitio, utilice una barra inclinada.
Disallow: /
- Para bloquear un directorio y todo lo que contiene, inserte una barra inclinada después del nombre del mismo.
Disallow: /directorio-sintitulo/
- Para bloquear una página, insértela después de la línea Disallow.
Disallow: /archivo_privado.html
- Para eliminar una imagen de Google Imágenes, añada lo siguiente:
User-agent: Googlebot-Image Disallow: /imagenes/perros.jpg
- Para eliminar todas las imágenes de su sitio de Google Imágenes, añada lo siguiente:
User-agent: Googlebot-Image Disallow: /
- Para bloquear archivos de un tipo determinado (por ejemplo, .gif), añada lo siguiente:
User-agent: Googlebot Disallow: /*.gif$
- Para evitar que se rastreen las páginas de su sitio, sin impedir que se muestren anuncios de AdSense en esas páginas, inhabilite el acceso de todos los robots que no sean de Mediapartners-Google. Esta opción impide que las páginas aparezcan en los resultados de búsqueda, pero permite que el robot Googlebot-Mediapartners las analice para determinar los anuncios que se publicarán. El robot Googlebot-Mediapartners no comparte páginas con el resto de user-agents de Google. Por ejemplo:
User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /
Tenga en cuenta que en las directivas se distingue entre mayúsculas y minúsculas. Por ejemplo, Disallow: /archivo_privado.asp bloquearía http://www.example.com/archivo_sintitulo.asp, pero permitiría http://www.example.com/archivo_sintitulo.asp. Googlebot ignora los espacios en blanco (en líneas vacías concretas) y las directivas desconocidas del archivo robots.txt.
Googlebot permite el envío de archivos de sitemaps mediante el archivo robots.txt.
Concordancia mediante patrones
Googlebot respeta algunas concordancias mediante patrones, aunque no todos los motores de búsqueda lo hacen.
- Puede utilizar un asterisco (*) para que la concordancia se establezca con una secuencia de caracteres. Por ejemplo, para bloquear el acceso a todos los subdirectorios que comiencen por "privado":
User-agent: Googlebot Disallow: /privado*/
- Para bloquear el acceso a todas las URL que incluyan un signo de interrogación (?) (concretamente, cualquier URL que comience por el nombre de su dominio, seguido de cualquier cadena, signo de interrogación y cualquier cadena):
User-agent: Googlebot Disallow: /*?
- Para especificar la concordancia con el final de la URL, utilice $. Por ejemplo, para bloquear una URL que termine en .xls:
User-agent: Googlebot Disallow: /*.xls$
Puede utilizar esta concordancia mediante patrones en combinación con la directiva Allow. Por ejemplo, si el signo ? indica el ID de una sesión, puede excluir todas las URL que lo contienen para asegurarse de que Googlebot no rastree páginas duplicadas. Sin embargo, las URL que finalizan con dicho símbolo podrían ser la versión de la página que desea incluir. En ese caso, configure su archivo robots.txt del siguiente modo:
User-agent: * Allow: /*?$ Disallow: /*?
La directiva Disallow: / *? bloqueará cualquier URL que incluya el símbolo ?. Concretamente, bloqueará todas las URL que comiencen por el nombre de su dominio, seguido de cualquier cadena, un signo de interrogación y cualquier cadena.
La directiva Allow: /*?$ permitirá cualquier URL que finalice con el símbolo ?. Concretamente, admitirá cualquier URL que comience por el nombre de su dominio, seguido de cualquier cadena y el símbolo ?, sin caracteres después de este último.
La herramienta de prueba de robots.txt le mostrará si el archivo robots.txt está impidiendo de forma accidental que Googlebot rastree un archivo o un directorio de su sitio o si está permitiendo que Googlebot rastree archivos que no deben aparecer en la Web. Al introducir el texto de un archivo robots.txt propuesto, la herramienta lo lee de la misma forma que Googlebot y muestra los efectos del archivo y los posibles problemas que se han detectado.
Para probar el archivo robots.txt de un sitio, siga estos pasos:
- En la página principal de Herramientas para webmasters de Google, haga clic en el sitio del que desee probar el archivo robots.txt.
- En Información del sitio, haga clic en Acceso de rastreadores.
- Si aún no se ha seleccionado, haga clic en la pestaña Probar robots.txt.
- Copie el contenido del archivo robots.txt y péguelo en el primer cuadro.
- En el cuadro URL, indique el sitio en el que quiera probar el archivo.
- En la lista User-agents, seleccione los user-agents que desee.
No se guardará ninguno de los cambios que realice en esta herramienta. Para guardar un cambio, tendrá que copiar el contenido y pegarlo en el archivo robots.txt.
Esta herramienta proporciona resultados únicamente para los user-agents de Google, como Googlebot. Es posible que otros robots no interpreten el archivo robots.txt del mismo modo. Por ejemplo, Googlebot responde a una definición ampliada del protocolo robots.txt estándar. Entiende las directivas Allow:, así como algunas concordancias mediante patrones. De esta forma, aunque la herramienta muestre líneas que incluyen estas extensiones como comprendidas, no olvide que esto afecta únicamente a Googlebot, no necesariamente a todos los robots que rastreen su sitio web.
actualizado 9/2/2009