Categorías: Web

Robots.txt ayudando a Google a indexarnos

Una de las cosas que muchas veces se suelen dejar para otro momento y luego al final no se realizan es la configuración del archivo robots.txt un fichero que no está destinado para nosotros o nuestros usuarios, pero sí para los buscadores y siempre nos interesa facilitarles el camino.

¿Cómo indexa un buscador?

Aunque este no es un artículo centrado en la indexación, podemos decir que un buscador, realiza un seguimiento similar al de un usuario. El buscador nos puede visitar, bien porque estamos dados de alta para que nos visite cada cierto tiempo, bien siguiendo un enlace de otra página que le lleva hasta la nuestra.

Una vez que llega a nuestra página, lo normal es que rastree la propia página en la que ha entrado (por ejemplo, este artículo) y alguna más siguiendo los enlaces que encuentra en el artículo actual. Este proceso es complejo y muy costoso en tiempo para el buscador, así que buscan la ayuda de los administradores de páginas para facilitarles el camino.

El fichero robots.txt

Este es uno de los varios ficheros que deberíamos de utilizar para ayudar al buscador a indexar correctamente nuestra web. En este fichero especificaremos que páginas puede indexar y cuales debe “saltar” y no indexar. Esto evita al buscador entra en páginas que no tiene permisos o con información de baja calidad que no queremos que guarde. También los expertos en SEO dicen que minimizar las páginas erróneas que intenta indexar el buscador con el fichero robots.txt ayuda a posicionarnos mejor en los resultados de las búsquedas.

 

Cuando es muy recomendable usar el archivo robots.txt

Este fichero se debería usar siempre para evitar que el buscador rastree e intente indexar:

  • Secciones, artículos o páginas protegidas por contraseña y que no contienen más que un texto genérico del tipo, “regístrate para ver todo el contenido”.
  • Artículos, noticias o publicaciones erróneas, de baja calidad o que no quieres que aparezcan en los resultados.
  • Secciones de la web que se generan dinámicamente sólo si tienes los permisos correspondientes, como por ejemplo una url para publicar una respuesta en un foro del estilo: miforo.com/diseno/Tema-los-colores-favoritos?reply

¿Cómo escribo mi propio robots.txt?

La escritura de este tipo de ficheros es muy simple:

  1. Se pone que “robot” tiene permitido indexar la web: User-agent: robot   (o usaremos asterisco ‘*’ ) para nombrarlos a todos.
  2. Para ese robot usamos las etiquetas:
    1. Disallow: url    para impedir la indexación de esa url
    2. Allow: url         para pedir la indexación de esa url

 

Un ejemplo bastante completo, es el de la página web de elMundo que podéis visitar desde aquí.

Jorge Durán

Entusiasta de la tecnología desde los 10 años, desarrollador y creador de varios proyectos de software y autodidacta por naturaleza. Ingeniero Informático por la USAL y .Net backend developer en idealista.

Share
Publicado por
Jorge Durán

Recent Posts

Docker: conceptos principales y tutorial paso a paso

Hoy queremos hablaros de Docker un proyecto que cada día es más usado, porque permite…

3 años hace

Crea diagramas rápidamente usando código

Cada vez estamos más acostumbrados a usar código para generar la infraestructura (IaC), documentar nuestro…

3 años hace

Procesamiento del lenguaje natural con ElasticSearch

Uno de los problemas que se presentan con una mayor frecuencia hoy en día, es…

4 años hace

Elige tecnología clásica y aburrida

Uno de los problemas que solemos tener los programadores, es que nos gusta estar a…

4 años hace

Cómo usar Docker en Windows

Docker es una de las herramientas más usadas por los desarrolladores, sin embargo, usarlo en…

4 años hace

Analiza el coste del uso de JavaScript

Como seguramente sabrás el uso de JavaScript ha crecido exponencialmente en los últimos tiempos, sin…

5 años hace