El Archivo Robots.txt: ¿Cómo Usarlo?

El mundo de WordPress es un mundo fascinante debido a que siempre hay algo nuevo que aprender.

El Archivo robots.txt es un archivo sencillo que se encuentra en la raíz de la instalación de WordPress.

El contenido de ese archivo es visible desde el navegador agregando la palabra robots.txt al final de tu nombre de dominio.

ejemplo.com/robots.txt

¿Para que Sirve el Archivo robots.txt?

El archivo Robots.txt es un archivo que es creado por los administradores de sitios web para darle instrucciones los robots de la web.

Esas instrucciones incluyen la prohibición de acceso a ciertos bots, pautas de indexación de contenido y la exclusión de ciertas partes de tu sitio.

Consideraciones sobre el archivo robots.txt

Estas son unas de las consideraciones a tener con la modificación del robots.txt

  • Para poder ser encontrado el robots.txt debe estar en la raiz de la instalación
  • El nombre del archivo debe ser robots.txt, no incluye mayusculas
  • Los bots maliciosos no siguen las instrucciones dadas en el robots.txt
  • El robots.txt es visible desde la web, no incluyas información sencible.
  • Incluye el enlace al mapa del sitio en tu robots.txt

¿Ejemplos de robots.txt?

Como les mencione anteriormente, el archivo robots.txt es visible desde la web.

Estos son algunas ejemplos de las indicaciones que puedes dar por medio del archivo robots.txt.

El asterisco a la par de un User Agent se refiere a todos los user agents:

Regla #1

Este código le indica a todos los robots de la web que no puede rastrear ninguna de las páginas del sitio.

User-agent: * 
Disallow: /

Regla #2

Esta regla indica que todos los robots de la web pueden rastrear el sitio.

User-agent: *
 Disallow: 

Regla #3

Esta regla le dice a Google que puede escanear todo el sitio con excepción de ciertos folders:

Por ejemplo: https://example.com/example-subfolder/

User-agent: Googlebot 
Disallow: /example-subfolder/

Regla #4

Este es un ejemplo del bloqueo de ciertos enlaces que no son de utilidad para los visitantes.

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php

Regla #5

Puedes dar instrucciones a los robots de la web para que no rastreen algunos tipos de archivos que no son de utilidad para los visitantes.

Si usas puras imágenes de stock, no es necesario que estas sean indexadas ya que esas imágenes las vas a encontrar en todos los sitios web, especialmente las gratuitas.

Disallow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.png$
Disallow: /*.css$

Usar Comodines con el Archivo robots.txt

Una manera de simplificar las cosas es por medio de comodines (wildcards)

Veamos los siguientes ejemplos:

Hacer esto:

User-agent: * 
Disallow: /products/t-shirts?
Disallow: /products/hoodies?
Disallow: /products/jackets?

es lo mismo que hacer esto

User-agent: * 
Disallow: /products/*?

Ejemplos Reales de la Web

Estos son algunos ejemplos reales de la web y el manejo que hacen del robots.txt

Open English

Open English permite que los robots de la web rastreen su sitio e indican cual es la página que contiene el Sitemap

# robots.txt for openenglish.com LATAM
User-agent: *
Disallow:

Sitemap: http://www.openenglish.com/sitemap_index.xml

BackLinko

En el caso de BackLinko, el único mensaje especial es no rastrear las etiquetas

User-agent: *
Disallow: /tag/
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Cómo Probar el robots.txt

Google es uno de el motor de búsqueda que más refiere personas a los diferentes sitios web

El Robots.txt tester te puede ayudar a determinar si el bot de Google tiene problema con las direcciones dadas en el robots.txt

robots.txt Tester

Referencias

Estos son algunas de los artículos que motivaron parte de esta publicación: