Los buscadores y sus robots…

Robot Google

Bueno pues una vez más me he puesto de ocioso a hacer una investigación, en esta ocasión le tocó a los Robots de los buscadores. La forma en que me decidí por ver que onda más a fondo con estos pequeños bichos fue el que revisando los logs de ésta página, descubrí que había muchos errores de páginas no encontradas. Ya viendo a detalle la situación me percaté que el archivo faltante era uno sumamente desagradable y llamado “robots.txt”, ya tenía más o menos una idea al respecto y sabía que este archivo tenía que ver con la indexación de archivos por parte de los buscadores, pero entonces surgieron otras cuantas dudas: ¿Cómo hacer un archivo robots.txt? ¿Para que se usan estos robots? ¿Son buenos, malos, que pex?


¿Qué son los robots?

Los robots www, wanderers, crawlers o spiders son pequeños programas mandados (por lo general) por los buscadores (google, yahoo, msn, etc..) que analizan o escanean millones de páginas en la red, por lo general saltando de una a otra por medio de los vínculos que cada página les ofrece. ¿Qué quiere decir esto? Básicamente que van por la red buscando documentos, una vez encontrado uno, continuan su busqueda e indexación con los documentos a los que hace referencia el primero que encontraron.

Los navegadores de internet no son robots, ya que son manejados por humanos y no adquieren documentos referenciados automaticamente (a excepción de las imagenes en una página por ejemplo).

¿Para qué se usan?

  • Indexar
  • Validación HTML
  • Validación de links
  • Monitoreo de novedades o “qué hay de nuevo?”
  • Mirroring

¿Son malos estos pequeños bichos?

Hay varias razones para pensar que estas cosas con malas:

  • Algunos de estos robots, pueden llegar a sobresaturar redes y servidores, esto pasa principalmente cuando el que los hace es inexperto, por lo tanto el comportamiento del robot es bastante impredecible. Aunque actualmente hay suficiente información como para que el que los haga los haga bien y evitar todos estos problemas
  • Estos robots a final de cuentas son programados por humanos, y los humanos por lo general cometemos muchos errores o no vemos más alla hacia las implicaciones que puede tener alguna de nuestras acciones. Es por esto que se tiene que ser muy cuidadoso y los autores de los robots tienen que programarlos de modo que sea dificíl que la gente cometa errores con consecuencias graves

A pesar de estos puntos en contra, la mayoría de robots esta diseñado bastante responsable e inteligentemente, no causan problemas y proveen de un servicio bastante valioso que de otra forma sería demasiado tardado. Asi que en conclusión, los robots no son malos ni buenos por naturaleza, tan solo necesitan bastante atención.

¿Cómo deciden en que buscar?

Por lo general comienzan desde una base de datos fija de direcciones y de ahi parten expandiendose basándose en las referencias. Estas bases de datos pueden ser, y son por lo general listas de servidores, páginas de “Whats New”, y los sitios más populares de la red. Algunos buscadores te ofrecen una sección en la que puedes mandarles tu página para que ellos manden un pequeño robot a indexarla y agregarla a su base de datos.

¿Cómo decirles a los robots que indexar y que cosa no indexar?

Aqui es en dónde empieza el asunto un poco más humanamente interactivo :-P, ya que uno como administrador de un sitio puede o no querer que un robot haga que aparezcamos en los buscadores, o tal vez preferimos que cierto contenido no sea indexado (cosas privadas, temporales, o que simplemente no nos da la gana que aparezcan indexadas), o que por ejemplo solo ciertos buscadores nos indexen, o evitar que solo unos cuantos no nos indexen, las posibilidades son bastante grandes. Es entonces cuando entra en juego el famoso archivo “robots.txt” el cual tiene que ser colocado en la raiz de nuestro servidor ya que al momento que un robot llega a nuestro servidor, por lo general busca este archivo para saber que restricciones le hemos dado.

Robots.txt

Es un archivo simple de texto en el que se escriben las instrucciones para los robots, un ejemplo simple de lo que podrías poner en tu archivo de texto, para permitir que los robots indexen tu página sería algo como esto:

User-Agent: *
Disallow:

Esto lo unico que le dice a nuestros amigos robots es que cualquiera de ellos puede indexar lo que se le de la gana, ahora que si queremos limitarlos podemos hacerlo de la siguiente manera por ejemplo:

User-Agent: Googlebot
Disallow: /*.gif$

En este caso lo que estamos haciendo es decirle al robot de Google, que no queremos que indexe nuestras imagenes con terminación .gif… se pueden hacer muchas combinaciones, como por ejemplo evitar que indexen algun directorio en particular o cosas más especificas, tanto como nuestra imaginación nos permita (jaja que mamón):

User-agent: *
Disallow: /images/
Disallow: /stats/

Aqui le dimos chance de indexar todo excepto los directorios “images” y “stats” , se pueden hacer muchas combinaciones posibles, depende de nuestras necesidades. Existe otro método para comunicarnos con los robots, y este es por medio de la sección de meta tags en tu código html, de esta forma podemos especificar otros parametros y tener un control más estricto página por página. Podemos especificarle por ejemplo si queremos o no que guarde nuestras páginas en el cache del buscador, si queremos que las indexe, y si le permitimos o no el seguir los vínculos en nuestra página, algunos ejemplos serían los siguientes:

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

(este le dice a cualquier robot que no quieres que indexe tu página, y que ni se le ocurra seguir los links)

<META NAME="GOOGLEBOT" CONTENT="NOARCHIVE"">

(y en este caso le estas diciendo al robot de Google que ni siquiera se le ocurra guardar en su memoria cache tu página)

Pero bueno, no pondré más ejemplos porque esto ya parece tutorial jajaja, asi que si quieren algo más específico les dejaré unos recursos más abajo.

¿Todos los Robots son amables?

Lamentablemente no, hay muchos robots que son realmente rebeldes y les vale un cacahuate todo lo que hayas hecho para restringirlos, pero bueno eso ya quedará en su conciencia de robots malcriados, por lo pronto lo que te ganas tu es que los robots de buena crianza sepan que hacer con tus contenidos y evitarte esos molestos reportes de error de archivo no encontrado en tu servidor.

¿Y luego qué?

Pues nada, esto fue realmente ocioso, y espero que te haya ayudado en algo, siento que puede ser un recurso útil para diseñadores web y para el público en general, aparte de aportar un poco para la cultura general en cuanto al manejo de información se refiere, asi que si te quieres adentrar un poco más en el maravilloso mundo de los robots, por aqui te dejo unas cuantas ligas que me sirvieron de fuente para este pequeño artículo:

Goggle Information for webmasters
A standard for robot exclusion
The web robots FAQ
Robots Exclusion
Create Robots.txt File

Actualización: Vía Microsiervos me entero que Google ha sacado un nuevo servicio beta llamado Google Sitemaps, por medio del cual podemos mandarles toda la estructura de nuestras páginas, asegurandonos de esta forma que el buscador indexe todos nuestros contenidos sin necesidad de andar esperando que un robot pase cuando el quiera a nuestra página.

Author: NOlo

Share This Post On

9 Comments

  1. Interesante, yo no tenía mucha idea de esto, le voy a decir a Mariototo que lo lea (él tenía unas dudas sobre ello) ah, oye y así como tienes tiempo para ponerte a investigar bichos cibernéticos, recuerda que hay que rehacer nuestros portafolios de trabajos! +_+
    Post a Reply
  2. Santa madre de dios, los portafolios!!! gracias por recordarme o_o
    Post a Reply
  3. Muy interesante, como todo lo que vais escribiendo por aqui…seguramente mañana lo comente en mi web…espero que no os molesten los dichosos caracteres raros que aparecen cuando os enlazo…a ver si tengo algo de tiempo e investigo el tema. 😉
    Post a Reply
  4. jajaja no, no te preocupes mi estimado Skeku, con caracteres raros o sin caracteres raros, eres bienvenido 😛
    Post a Reply
  5. Parece ser que el problema radica en la incompatibilidad de las distintas codificaciones (utf-8 y iso-8859-1). Es curioso que en mi web no pueda poner la iso porque se ve igual de mal que si aqui escojo como codificación la utf.

    Expediente X….

    Post a Reply
  6. Me podrian decir, como hacer, para que el robot de yahoo, no indexe mi pagina, o sea, que no sea publicada por yahoo?

    gracias !!!

    Post a Reply

Trackbacks/Pingbacks

  1. Alquimistas del Diseño - Cuestionar, transmutar y diseñar » Blog Archive » Cómo me ve un buscador al indexarme? - [...] Leyendo Nuhuati me encontré con una interesante guía de posicionamiento para páginas web en buscadores en donde te dan…
  2. ¿Qué son los robots de buscadores? » mibanner.net - [...] Fuente: Alquimistas del Diseño [...]
  3. ¿Qué son los robots de buscadores? | SEO LOS SECRETOS - [...] Fuente: Alquimistas del Diseño [...]

Submit a Comment

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *