|
|
| Robot.txt |
|
| Fichero para
configurar |
Robots.txt es un simple
fichero de texto que se coloca en el directorio raiz de tu web. En este
fichero puedes decidir que directorios de tu web no quieres que sean
indexados por un buscador.
Cuando un robot llega a tu página web, lo primero que hace es
una petición de este archivo, si este archivo no existe, el
robot indexará toda la web. (Se puede comprobar esta
petición en las estadísticas, ya que si no lo tienes te
devuelve un error 404 Not Found).
El funcionamiento de este fichero es muy simple con estas dos
instrucciones:
User-agent: (indicas el robot que quieres)
Disallow: (nombras los directorios)
Por ejemplo, supongamos que queremos que los buscadores no nos indexen
el directorio /imagenes/:
User-agent: *
Disallow: /images/
El asterisco indica todos.
Para hacer que Google no indexe este directorio y el resto si
bastará nombrar el bot de Google
User-agent: googlebot
Disallow: /imagenes/
Para evitar ser indexados por otros buscadores aquí pongo una
lista de los más conocidos:
Google: Googlebot
Fast: Fast
Altavista: Scooter
Lycos: Lycos_Spider_(T-Rex)
Inktomi: Slurp
Wisenut: Wisebot
Euroseek: Arachnoidea
robots, robot, robot.txt, googlebot, scooter, slurp |

|
|
| Robot.txt |
| DOCUMENTAMANIA |
|
|
|