¿Harto de escuchar hablar del robots.txt y no saber de qué te están hablando? Tranquilo, hoy te traemos la solución a tu problema. En este post trataremos de explicarte de la mejor manera posible qué es el robots.txt, cómo configurarlo (especialmente en WordPress) y qué impacto puede tener en el SEO de nuestro proyecto.
¡Vamos allá!
Índice de Contenidos
¿Qué es el robots.txt y para qué sirve?
El robots.txt no es más que un archivo alojado en tu raíz web que te permite evitar que algunos bots (como puede ser el de Google o el de Bing) visitan tu web o partes de la misma.
OJO: es importante saber que esto es un protocolo y por norma general todos los bots «buenos» lo cumplen (GoogleBot, BingBot, Semrush, …) pero, cualquier bot con malas intenciones puede saltárselo, como por ejemplo con Screaming Frog marcando esta opción:
¿Por qué es importante el archivo robots.txt para el SEO?
Como hemos comentado antes, todos los bots buenos (como GoogleBot) cumplen este protocolo por lo que lo que podemos hacer es usar este archivo para guiar a Google dentro de nuestra web.
¿Qué? ¿Cómo dices? ¿Guiar a Google con el Robots.txt?
Sí, tranquilo, que te lo explicamos con un ejemplo para que quede mucho más claro:
Imagínate que en tu web tienes un área privada a la que solo pueden acceder los usuarios registrados, y como bien sabemos, Google no puede acceder a ningún sitio que necesite login (aún…).
Entonces, ¿no tendría sentido que Google no malgastara nuestro crawl budget en rastrear páginas que para él no tienen valor?
¡Exacto! Uno de los factores más importantes para los que podemos usar el robots.txt es para bloquear caminos de poco valor para Google y, de esta forma, hacer que se centre en las páginas importantes de nuestra web. Por esta razón, el robots.txt debe ser uno de los pilares a tener en cuenta dentro de nuestra estrategia SEO.
Esto es uno ejemplo de las miles de cosas que podemos hacer con este archivo. Otros ejemplos son indicar nuestro sitemap, reducir el intervalo de crawling, bloquear el rastreo de recursos, …
Cómo crear el archivo robots.txt
Bueno… ¡vamos manos a la obra!
Crear este archivo es realmente sencillo puesto que únicamente tienes que coger tu editor de texto (blog de notas en Windows o TextEdit en Mac) o usar uno online y después de redactar tu robots.txt exportarlo como archivo txt.
Una vez lo tengamos, tan solo tendremos que nombrarlo como «robots.txt» y subirlo a tu raíz web a través del panel de tu servidor o por FTP.
Para comprobar si se ha subido correctamente tan solo tienes que añadir a tu dominio «/robots.txt», por ejemplo https://seocrawl.com/robots.txt
OJO: Ten cuidado con la caché, es mejor que lo veas desde incógnito 😉
¿Y si tengo WordPress?
Si tienes WordPress es más sencillo puesto que los mejores plugins de SEO como Rank Math o Yoast traen integrado un complemento para poder editar directamente el robots.txt.
En caso de Rank Math lo podrás encontrar en Rank Math > Ajustes generales > Editar robots.txt
En el caso de Yoast deberemos ir a SEO > Herramientas > Editor de archivos
De esta forma podrás editar o crear fácilmente el archivo sin tener que realizar el ningún paso de lo explicado anteriormente.
Comandos
A continuación echaremos un vistazo a muchos de los comandos que tenemos disponibles con sus correspondientes ejemplos:
Bloquear el rastreo de tu web
User-agent: *
Disallow: /
NOTA: Si estás desarrollando tu web y no quieres que ningún bot entre a leer e indexar tu contenido esta regla te viene de lujo.
Bloquear el rastreo de una página
User-agent: *
Disallow: /url-pagina-que-no-quiero-que-rastreen
Bloquear el rastreo de una carpeta
User-agent: *
Disallow: /carpeta/
Permitir acceso a una página
User-agent: *
Allow: /pagina
Bloquear una carpeta y permitir una página de esa carpeta
User-agent: *
Disallow: /carpeta/
Allow: /carpeta/pagina
Indicar el sitemap
Sitemap: https://dominio.com/sitemap.xml
Dar órdenes a bots en específico
En este caso vamos a entretenernos un poco más. Si te has dado cuenta las mayoría de directrices anteriores empezaban con:
User-agent: *
Ese «*» hace referencia a todos los bots. Es decir, todas las directrices después de esa línea hacen referencia a todos los bots. Si lo que queremos hacer es mandar órdenes específicas a ciertos bots deberemos cambiar eso de la siguiente forma:
User-agent: Googlebot Si queremos hacer referencia al bot de Google
User-agent: Bingbot Si queremos hacer referencia al bot de Bing
User-agent: DuckDuckBot Si queremos hacer referencia al bot de Duck Duck go
Lo único que tienes que hacer es averiguar cómo se llama el bot al que quieres mandar alguna orden y nombrarlo como te acabamos de enseñar.
Revisar y probar el archivo robots.txt
Ahora una vez que has terminado de «tunear» tu robots para dejarlo totalmente optimizado y personalizado para tu web, solo queda probarlo.
¿Probarlo? ¿Para qué?
Pues probarlo para comprobar que no hemos metido la pata en ninguna línea y que realmente está funcionando para bloquear las partes de la web que queremos bloquear.
Para eso te recomendamos usar esta herramienta.
Una vez estés dentro solo tienes que:
- Introducir la URL que quieres comprobar si está permitido el rastreo
- Elegir el User Agent
- Darle a TEST
Justo después se nos cargará todo nuestro archivo robots.txt y abajo nos dirá si se permite el acceso o no.
En este caso como podemos comprobar nos da un resultado positivo, pero, en caso de que pusiéramos una URL no permitida, nos marcaría también la línea que lo está bloqueando:
Además, esta herramienta nos permite editar directamente desde ahí nuestro archivo robots.txt para hacer las modificaciones que necesitemos para que el resultado coincida con nuestro objetivo. Una vez modificado y comprobado, solo tenemos que cambiar esas nuevas modificaciones en nuestro robots.
Bonus tip: haz tu robots.txt inolvidable
Te hemos contado un montón de líneas de código que sirven para los bots, pero, también se pueden insertar comentarios empezando la línea con un «#». Es decir, todo lo que empiece por «#» será ignorado por los bots. Esto abre un mundo de posibilidades y bromas internas. Por ello te animamos a que revises los robots.txt de windupschool, pccomponentes o Minube, seguro que te llevas alguna sorpresa ?
Conclusión
Como has podido comprobar el archivo robots.txt da para mucho y también requiere tener mucho cuidado porque una directriz mal puesta puede bloquear el rastreo de tu web.
Esperamos que esta guía te sea de utilidad y, para cualquier pregunta, te esperamos en los comentarios.