¿Cuál es el proceso de rastreo del robot de Google?

Robot de Google

El robot de Google es el robot de rastreo web de Google (en ocasiones, también denominado "araña"). El rastreo es el proceso mediante el cual el robot de Google descubre páginas nuevas y actualizadas y las añade al índice de Google.

Se utiliza una enorme cantidad de equipos informáticos para obtener (o "rastrear") miles de millones de páginas de la Web. El robot de Google utiliza un proceso de rastreo algorítmico: a través de programas informáticos se determinan los sitios que hay que rastrear, la frecuencia y el número de páginas que hay que explorar en cada uno de ellos.

¿Cuál es el proceso de rastreo del robot de Google?

El proceso de rastreo del robot de Google comienza con una lista de URL de páginas web generada a partir de procesos anteriores de rastreo y se amplía con los datos de los sitemaps que ofrecen los webmasters. A medida que el robot de Google visita cada uno de esos sitios web, detecta enlaces (SRC y HREF) en sus páginas y los añade a la lista de páginas que debe rastrear. Los sitios nuevos, los cambios en los existentes y los enlaces obsoletos se detectan y se utilizan para actualizar el índice de Google.

Para webmasters: el robot de Google y tu sitio

¿Cómo accede el robot de Google a tu sitio?

De media, el robot de Google no suele acceder a la mayoría de los sitios más de una vez cada pocos segundos. Sin embargo, debido a los retrasos de la red, esta frecuencia puede parecer ligeramente superior durante breves períodos de tiempo. Por lo general, el robot de Google descarga una sola copia de cada página de forma simultánea. Si detectas que el robot de Google descarga la misma página varias veces, es probable que esto se deba a la detención y al reinicio del rastreador.

El robot de Google está diseñado para distribuirse en varios equipos con el fin de mejorar el rendimiento y ajustar la escala a medida que la Web se desarrolla. Además, para reducir el uso del ancho de banda, muchos de los rastreadores se ejecutan en equipos ubicados cerca de los sitios que indexan en la red. Por tanto, es posible que tus registros muestren visitas de varios equipos a la página google.com, en todos los casos con el robot de Google como user-agent. El objetivo consiste en rastrear el mayor número posible de páginas de tu sitio en cada visita sin colapsar el ancho de banda de tu servidor. Solicita que se modifique la frecuencia de rastreo.

Bloquear el acceso del robot de Google al contenido de tu sitio

Resulta prácticamente imposible no publicar enlaces a un servidor web para mantenerlo en secreto. En el momento en que un usuario utilice un enlace de tu servidor "secreto" para acceder a otro servidor web, tu URL "secreta" podrá mostrarse en la etiqueta de referencia, y el otro servidor web podrá almacenarla y publicarla en su registro de referencia. Además, la Web contiene un gran número de enlaces obsoletos y rotos. Siempre que se publique un enlace incorrecto a tu sitio o que los enlaces no se actualicen correctamente para reflejar los cambios realizados en tu servidor, el robot de Google tratará de descargar un enlace incorrecto de tu sitio.

Google dispone de varias opciones para evitar que el robot de Google rastree el contenido de tu sitio, incluido el uso del archivo robots.txt para bloquear el acceso a los archivos y a los directorios de tu servidor.

Es posible que el robot de Google tarde un tiempo en detectar los cambios una vez que hayas creado el archivo robots.txt. Si el robot de Google sigue rastreando contenido bloqueado en el archivo robots.txt, comprueba que la ubicación de este archivo sea correcta. El archivo robots.txt se debe ubicar en el directorio principal del servidor (por ejemplo, www.grupodelecluse.com/robots.txt), ya que su inclusión en un subdirectorio no tendrá ningún efecto.

Si solo quieres evitar que se muestren en el registro de tu servidor web mensajes de error en los que se indique que no se puede encontrar el archivo, crea un archivo vacío con el nombre "robots.txt". Para evitar que el robot de Google siga los enlaces a una página de tu sitio, utiliza la metaetiqueta nofollow. Para evitar que el robot de Google siga un enlace individual, añade el atributo rel="nofollow" al enlace.

A continuación se indican otros consejos:

1 Comprueba si tu archivo robots.txt funciona correctamente. La herramienta Probar robots.txt de la página URL bloqueadas (en Estado) te permite ver exactamente cómo el robot de Google interpretará el contenido de tu archivo robots.txt. El user-agent de Google se llama precisamente Googlebot.

2 La herramienta Explorar como Google de Search Console te ayuda a comprender exactamente cómo tu sitio se muestra para el robot de Google. Esta herramienta puede resultarte muy útil para solucionar problemas relacionados con el contenido del sitio o con su visibilidad en los resultados de búsqueda.

Asegurarte de que se pueda rastrear tu sitio

El robot de Google encuentra sitios siguiendo enlaces entre páginas. En la página Errores de rastreo de Search Console se muestran los problemas que ha encontrado el robot de Google al rastrear tu sitio. Te recomendamos que consultes con regularidad esos errores de rastreo para identificar los problemas relacionados con tu sitio.

Si estás ejecutando una aplicación AJAX con contenido que deseas que se muestre en los resultados de búsqueda, se recomienda que consultes la propuesta sobre cómo hacer que el contenido basado en AJAX se pueda rastrear e indexar.

Si tu archivo robots.txt funciona correctamente, pero el sitio no presenta tráfico, es posible que la posición del contenido en las páginas de resultados no sea buena por alguno de los motivos que se indican a continuación.

Problemas relacionados con spammers y con otros user-agents

Las direcciones IP que utiliza el robot de Google varían cada cierto tiempo. La mejor forma de identificar los accesos del robot de Google es utilizar el user-agent (Googlebot). Para comprobar si el robot que accede a tu servidor es realmente el robot de Google, realiza una petición de DNS inversa.

El robot de Google, al igual que el resto de robots de motor de búsqueda acreditados, respetará las directrices del archivo robots.txt, pero es posible que algunos spammers y otros usuarios malintencionados no las respeten. Informa de spam a Google.

Google también dispone de otros user-agents, como Feedfetcher (user-agent: Feedfetcher-Google). Las solicitudes de Feedfetcher proceden de acciones explícitas realizadas por usuarios que han añadido feeds a la página principal de Google o a Google Reader (y no de rastreadores automatizados), por lo que Feedfetcher no sigue las directrices del archivo robots.txt. Para evitar que Feedfetcher rastree tu sitio, configura tu servidor para que muestre mensajes de estado de error 404 o 410 o de cualquier otro tipo al user-agent Feedfetcher-Google. Más información sobre Feedfetcher

Herramientas para webmaster

Fuente: Google