Buscadores, bots y consumo de ancho de banda

Buscadores, bots y consumo de ancho de banda

Uno de los posibles problemas con los que podemos encontrarnos cuando intentamos posicionar nuestra web, ya sea a través de linkbuilding o a través de otros medios que tengan que ver con la propagación de contenidos es el consumo de tráfico mensual que provocan los robots de los buscadores y que pueden llevar a dejar KO nuestra web (lo digo por experiencia, me ha pasado el mes pasado por no ser previsor).

¿Que son los robots?.

Bueno, los robots, bots, spiders o crawlers son un tipo de programa informático que utilizan los buscadores y cuya función básicamente es rastrear la web buscando contenidos para ayudar al buscador a construir su índice. El problema es que estos bots cada vez que nos visitan consumen parte de nuestra transferencia mensual (el limite que tenemos contratado con nuestro proveedor de hosting) y pueden llegar a consumirlo completamente dejando la web offline.

¿Qué podemos hacer?

Realmente, podemos hacer muchas cosas pero una de las más sencillas y efectivas es configurar adecuadamente nuestro archivo robots.txt que debe de estar en la raíz del sitio (o crearlo si no lo tenemos) y que nos permite filtrar qué pueden y qué no pueden ver estos robots.

Yo voy a dejaros un pequeño ejemplo de configuración del archivo robots.txt para wordpress, pero puede (y debe) ser personalizado por cada uno ajustándolo y optimizandolo para sus necesidades.

Se puede editar directamente con el block de notas y solo falta subirlo por ftp a la raíz de vuestra web

User-agent: * CON ESTO LE DECIMOS: REGLA PARA TODOS LOS BUSCADORES

Disallow: /cgi-bin CON ESTO LE DECIMOS: NO PERMITIR AL SPIDER LEER ESTE DIRECTORIO

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: /comments

Disallow: /author

Disallow: /category

Disallow: /feed/

Disallow: /trackback/

Disallow: /*.js$

Disallow: /*.inc$

Disallow: /*.css$

Disallow: /*.php$

También podríamos añadir

User-agent: * 
Crawl-delay: 60

Que especifica el tiempo entre acceso y acceso del bot, por ejemplo.

Aquí os dejo el archivo para descarga por si alguien no tiene ganas de editarlo Robots TXT para Wordpress (135)

Bueno, para más información sobre como personalizar este archivo podeis visitar http://www.robotstxt.org/

    Leave a Reply

    *