fbpx
Close

Login

Close

Register

Close

Lost Password

WordPress: cuál es la configuración ideal del robots.txt

Hay un factor técnico en SEO que puede 'derrumbar' tu sitio si está mal configurado: el archivo robots.txt. Evita cometer el siguiente error.

Hay un factor técnico en SEO que puede ‘derrumbar’ tu sitio si está mal configurado: el archivo robots.txt. Evita cometer el siguiente error cuando estés trabajando en páginas web con WordPress como CMS.

Un buen archivo robots.txt para WordPress incluye lo siguiente:

User-agent: *
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-admin/
Sitemap: url-del-sitemap.xml

Con este formato impides que #Google rastree, y potencialmente indexe, la carpeta de wp-admin, donde está tu panel de control. Permites, a su vez, que se rastree que archivo admin-ajax, que agiliza la carga de la página, en términos simples. Rara vez necesitarás incluir otros elementos en este archivo para garantizar el rastreo e indexación del mismo.

Otros ejemplos de archivos robots.txt

En el sitio web Zillow.com encontramos una versión minimalista del archivo:

User-agent: *
Disallow: /r/

En el blog de TED encontramos que bloquean el rastreo a Mediapartners-Google. Esto significa que en ese sitio no quieren que sea posible que aparezcan anuncios de Google. Sin embargo, permiten la indexación a cualquier otro bot. Como se puede ver, manejan un modelo similar al recomendado al comienzo de este artículo:

Sitemap: http://blog.ted.com/sitemap.xml
Sitemap: http://blog.ted.com/news-sitemap.xml

User-agent: Mediapartners-Google
Disallow: 

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

El sitio web de JQuery maneja, también, una versión minimalista del robots.txt:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

A veces se puede cometer un error: incluir carpetas esenciales en el robots.txt con disallow, creyendo que así estamos protegiendo archivos sensibles del sitio.

Por ejemplo: Disallow: /wp-content/themes <- Esto está mal.

Al hacerlo estás bloqueando recursos (como archivos CSS, JS, imágenes) y esto impide que Google renderice e indexe correctamente tus páginas. Recuerda que Google, en esencia, guarda copias de tu página y las pone en un listado de resultados.

Esta mala práctica deriva en que ocupes peores posiciones en los resultados de búsqueda. Y, por ende, tu tráfico orgánico bajará.

Recuerda: Si bien Google no rastrea ni indexa el contenido que está bloqueado con un archivo robots.txt, puede que Google encuentre e indexe URLs bloqueadas si hay enlaces a ellas en otros sitios de la web. Para evitar, a toda costa, la indexación debes:

Proteger los archivos con contraseña en tu servidor, usa la etiqueta meta o el encabezado de respuesta noindex o simplemente quita la página por completo.

¿Cómo identificar un error en tu archivo robots.txt?

Varias herramientas de SEO te ayudarán a advertir que has cometido un error al usar disallow en tu archivo robots.txt

Una de ellas es SEMRush. Cuando hayas cometido el error, aparecerá de esta forma:

XXX issues with blocked internal resources in robots.txt
Blocked resources are resources (e.g., CSS, JavaScript, image files, etc.) that are blocked from crawling by a "Disallow" directive in your robots.txt file. By disallowing these files, you're preventing search engines from accessing them and, as a result, properly rendering and indexing your webpages. This, in return, may lead to lower rankings. For more information, please see this article.

Este error aparece asociado, por ejemplo, a haber declarado lo siguiente en tu archivos robots.txt. Lo que está en negrilla no se debe incluir:

User-agent: *​
Allow: /wp-content/uploads/​
Allow: /wp-admin/admin-ajax.php​
Disallow: /wp-admin/​
Disallow: /assets/cache/​
Disallow: /search-results/​
Disallow: /wp-content/plugins/​
Disallow: /wp-content/cache​
Disallow: /wp-content/themes​

Disallow: /readme.html

Este error puede derivar también en una advertencia por parte de Screaming Frog. La podrás identificar como “Archivos bloqueados por robots.txt”.

Anuncios

Suscríbete

Recibe los últimos artículos en tu correo electrónico:

Síguenos

El autor

Edgar Medina es el fundador de Crónicatech. Ha escrito para medios reconocidos como El Tiempo, revista Donjuán, Portafolio, La República, revista Semana y Canal RCN. Ha trabajado en marketing digital con candidatos presidenciales, entidades del sector público como Icetex y la Alcaldía de Bogotá.
0
0

    Escribe tus comentarios

    Tu dirección de correo no será publicada Los campos requeridos marcados con *

    ¡Gracias por tu comentario!

    Anuncios

    Suscríbete

    Recibe los últimos artículos en tu correo electrónico:

    Síguenos

    El autor

    Edgar Medina es el fundador de Crónicatech. Ha escrito para medios reconocidos como El Tiempo, revista Donjuán, Portafolio, La República, revista Semana y Canal RCN. Ha trabajado en marketing digital con candidatos presidenciales, entidades del sector público como Icetex y la Alcaldía de Bogotá.