Hay un factor técnico en SEO que puede ‘derrumbar’ tu sitio si está mal configurado: el archivo robots.txt. Evita cometer el siguiente error cuando estés trabajando en páginas web con WordPress como CMS.
Un buen archivo robots.txt para WordPress incluye lo siguiente:
User-agent: *
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-admin/
Sitemap: url-del-sitemap.xml
Con este formato impides que #Google rastree, y potencialmente indexe, la carpeta de wp-admin, donde está tu panel de control. Permites, a su vez, que se rastree que archivo admin-ajax, que agiliza la carga de la página, en términos simples. Rara vez necesitarás incluir otros elementos en este archivo para garantizar el rastreo e indexación del mismo.
Otros ejemplos de archivos robots.txt
En el sitio web Zillow.com encontramos una versión minimalista del archivo:
User-agent: *
Disallow: /r/
En el blog de TED encontramos que bloquean el rastreo a Mediapartners-Google. Esto significa que en ese sitio no quieren que sea posible que aparezcan anuncios de Google. Sin embargo, permiten la indexación a cualquier otro bot. Como se puede ver, manejan un modelo similar al recomendado al comienzo de este artículo:
Sitemap: http://blog.ted.com/sitemap.xml
Sitemap: http://blog.ted.com/news-sitemap.xml
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
El sitio web de JQuery maneja, también, una versión minimalista del robots.txt:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
A veces se puede cometer un error: incluir carpetas esenciales en el robots.txt con disallow, creyendo que así estamos protegiendo archivos sensibles del sitio.
Por ejemplo: Disallow: /wp-content/themes <- Esto está mal.
Al hacerlo estás bloqueando recursos (como archivos CSS, JS, imágenes) y esto impide que Google renderice e indexe correctamente tus páginas. Recuerda que Google, en esencia, guarda copias de tu página y las pone en un listado de resultados.
Esta mala práctica deriva en que ocupes peores posiciones en los resultados de búsqueda. Y, por ende, tu tráfico orgánico bajará.
Recuerda: Si bien Google no rastrea ni indexa el contenido que está bloqueado con un archivo robots.txt, puede que Google encuentre e indexe URLs bloqueadas si hay enlaces a ellas en otros sitios de la web. Para evitar, a toda costa, la indexación debes:
Proteger los archivos con contraseña en tu servidor, usa la etiqueta meta o el encabezado de respuesta noindex o simplemente quita la página por completo.
¿Cómo identificar un error en tu archivo robots.txt?
Varias herramientas de SEO te ayudarán a advertir que has cometido un error al usar disallow en tu archivo robots.txt
Una de ellas es SEMRush. Cuando hayas cometido el error, aparecerá de esta forma:
XXX issues with blocked internal resources in robots.txt
Blocked resources are resources (e.g., CSS, JavaScript, image files, etc.) that are blocked from crawling by a "Disallow" directive in your robots.txt file. By disallowing these files, you're preventing search engines from accessing them and, as a result, properly rendering and indexing your webpages. This, in return, may lead to lower rankings. For more information, please see this article.
Este error aparece asociado, por ejemplo, a haber declarado lo siguiente en tu archivos robots.txt. Lo que está en negrilla no se debe incluir:
User-agent: *
Allow: /wp-content/uploads/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-admin/
Disallow: /assets/cache/
Disallow: /search-results/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /readme.html
Este error puede derivar también en una advertencia por parte de Screaming Frog. La podrás identificar como “Archivos bloqueados por robots.txt”.