Documentamania: RSS1.0Documentamania: RSS2.0Documentamania: ATOM 0.3Documentamania: FOAF

 

MENÚ
Inicio
Lo + sobre documentamania
Buscadores en Documentamania
RakeRank en Documentamania
Indexación de buscadores
Indexación mediante pago
Programas y Herramientas
Términos Técnicos
Nombre de Dominio
Caracteres Extraños
Formato de Texto
Hubs_Authorities
Robot.txt
Páginas con flash
Imágenes en el posicionamiento
Páginas con JavaScript
Etiquetas Meta
Estructura de los enlaces
Páginas con marcos
Encabezados
Acerca de
Enlaces
Robot.txt
Fichero para configurar
Robots.txt es un simple fichero de texto que se coloca en el directorio raiz de tu web. En este fichero puedes decidir que directorios de tu web no quieres que sean indexados por un buscador.
Cuando un robot llega a tu página web, lo primero que hace es una petición de este archivo, si este archivo no existe, el robot indexará toda la web. (Se puede comprobar esta petición en las estadísticas, ya que si no lo tienes te devuelve un error 404 Not Found).

El funcionamiento de este fichero es muy simple con estas dos instrucciones:

User-agent: (indicas el robot que quieres)
Disallow: (nombras los directorios)

Por ejemplo, supongamos que queremos que los buscadores no nos indexen el directorio /imagenes/:

User-agent: *
Disallow: /images/

El asterisco indica todos.

Para hacer que Google no indexe este directorio y el resto si bastará nombrar el bot de Google

User-agent: googlebot
Disallow: /imagenes/

Para evitar ser indexados por otros buscadores aquí pongo una lista de los más conocidos:

Google: Googlebot
Fast: Fast
Altavista: Scooter
Lycos: Lycos_Spider_(T-Rex)
Inktomi: Slurp
Wisenut: Wisebot
Euroseek: Arachnoidea

robots, robot, robot.txt, googlebot, scooter, slurp

documentamania

Robot.txt
DOCUMENTAMANIA

Documentamania: RSS1.0Documentamania: RSS2.0Documentamania: ATOM 0.3Documentamania: FOAF