
Google ha querido arrojar luz sobre el funcionamiento interno de Googlebot, su rastreador se encarga de explorar la web para encontrar, procesar e indexar contenidos en la Búsqueda. Una información de lo más valiosa para los profesionales SEO, y para cualquier persona interesada en conocer cómo funcionan los engranajes de Google y cómo sacarles partido.
El encargado de desmitificar y acercarnos la realidad del rastreo, la obtención de datos y el procesamiento de los bytes, ha sido Gary Illyes, analista en el equipo de la Búsqueda de Google, a través de una publicación en el blog oficial de Google Search Central.
Googlebot no es “el rastreador”, es uno de los distintos rastreadores de Google
Una de las cosas que el gigante tecnológico ha querido aclarar es que Googlebot no es la totalidad de su infraestructura de rastreo. Tal y como explica Illyes: «A principios de la década de 2000, Google tenía un solo producto, por lo que teníamos un solo rastreador. El nombre “Googlebot” se popularizó. Pero hoy en día, Googlebot es simplemente un usuario de algo que se asemeja a una plataforma de rastreo centralizada».
Esto significa que, actualmente, Googlebot no es el único identificador que utiliza Google. Mientras que Googlebot es el nombre que usa la plataforma cuando trabaja para el equipo de Search (la Búsqueda), esa misma infraestructura utiliza otros nombres de rastreador para servicios como Google Shopping o AdSense. Puedes acceder a más información sobre los nombres de rastreadores más relevantes de Google aquí.
Entendiendo los límites de rastreo
En la publicación, Gary Illyes ha explicado hasta qué punto Googlebot puede rastrear un sitio web, exponiendo los límites de bytes que este rastreador puede procesar según el tipo y el formato del archivo. Y es que, cada cliente (rastreador) de la infraestructura de rastreo de Google tiene un perfil de configuración diferente y, por ende, límites distintos.
«Cada cliente de la infraestructura de rastreo necesita configurar ciertos ajustes para sus solicitudes. Estos ajustes incluyen la cadena del agente de usuario, qué tokens de agente de usuario buscarán en robots.txt y cuántos bytes obtendrán de una sola URL».
Actualmente, los límites de Googlebot son los siguientes:
- Googlebot rastrea hasta 2 MB de cualquier URL individual. Es decir, solo rastrea los primeros 2 MB de un recurso, incluyendo el encabezado HTTP. Así que si una página web pesa 5 MB, Googlebot cortará la descarga al llegar a los 2 MB y no leerá el resto del contenido.
- En el caso de archivos PDF, descarga los primeros 64 MB.
Cabe señalar que para aquellos rastreadores que no especifican un límite, este se establece en los 15 MB de forma predeterminada, independientemente del tipo de contenido. Por su parte, «los rastreadores de imágenes y videos suelen tener un amplio rango de valores umbral, que depende en gran medida del producto que estén buscando. Por ejemplo, la búsqueda de un favicon podría tener un límite muy bajo, a diferencia de la búsqueda de imágenes».
Cómo afecta esto a los bytes que tu servidor envía a través de la red
Una vez que Googlebot comienza a rastrear tu contenido de una URL individual, esto es lo que sucede:
- Recuperación parcial: si tu archivo HTML supera los 2 MB, Googlebot no rechaza la página, simplemente detiene la recuperación justo al alcanzar ese límite de 2 MB. Debes tener en cuenta que este límite incluye los encabezados de la solicitud HTTP.
- Los bytes que se quedan por el camino: cualquier byte que exista después de ese umbral de 2 MB es ignorado por completo. Es decir, no se recuperan, no se renderizan y no se indexan.
- Procesamiento del fragmento: los datos descargados (los primeros 2 MB de bytes) se transmiten a sus sistemas de indexación y al Web Rendering Service (WRS) como si fuera el archivo completo.
- Inclusión de recursos: todos los recursos referenciados en el HTML (excluyendo archivos multimedia, fuentes y algunos archivos especiales) serán procesados por WRS con Googlebot, al igual que el HTML principal. Cada recurso tiene su propio contador de bytes por URL y no se contabiliza dentro del tamaño de la página principal.
- Renderizando los bytes: WRS procesa JavaScript y ejecuta código del lado del cliente para comprender el estado visual y textual final de la página. El renderizado obtiene y ejecuta archivos JavaScript y CSS, y procesa solicitudes XHR para comprender mejor el contenido textual y la estructura de la página (no solicita imágenes ni videos). Para cada recurso solicitado, también se aplica el límite de 2 MB. En relación a esto, Illyes destaca: «WRS opera sin estado: borra el almacenamiento local y los datos de sesión entre solicitudes. Esto puede tener implicaciones particulares en la forma en que nuestros sistemas interpretan los elementos dinámicos que dependen de JavaScript».
Si bien Illyes explica que una carga útil de HTML de 2 MB es enorme, y lo más probable es que nunca alcanzases ese límite, también advierte de la importancia de no dejar que un código demasiado pesado desplace tu contenido útil: «Si tu página incluye imágenes base64 incrustadas demasiado pesadas, bloques masivos de CSS o JavaScript integrados en el código, o comienza con megabytes de menús, podrías desplazar accidentalmente tu contenido textual real o los datos estructurados críticos más allá de la marca de los 2 MB. Si esos bytes cruciales no se descargan, para Googlebot, simplemente no existen».
- Podría interesarte: Un experimento de 16 meses revela qué pasa con el contenido generado por IA en Google
Buenas prácticas recomendadas por Google
Por último, Illyes ha recopilado una serie de consejos que deberías aplicar para garantizar que Googlebot pueda recuperar y comprender tu contenido de manera eficiente. Estas son las siguientes:
- Optimiza tu HTML: traslada el CSS y JavaScript pesados a archivos externos, ya que los scripts y las hojas de estilo externos se descargan por separado (sujetos a sus propios límites) y así no interferirán demasiado en el límite de 2 MB del documento HTML inicial.
- Lo más importante, de primero: ubica los elementos más relevantes (metaetiquetas, los elementos <title>, los elementos <link>, las etiquetas canónicas y los datos estructurados esenciales) en la parte superior del documento HTML. De este modo, favorecerás que se encuentren antes de llegar al límite.
- Vigila los tiempos de respuesta de tu servidor: si tu servidor tiene dificultades para procesar los datos, los rastreadores de Google reducirán automáticamente su actividad para evitar sobrecargar su infraestructura, lo que disminuirá la frecuencia de rastreo.
«El rastreo no es magia; es un intercambio de bytes altamente orquestado y escalable. Al comprender cómo nuestra infraestructura central de obtención de datos recupera y limita esos bytes, puedes asegurarte de que el contenido más importante de tu sitio siempre se incluya», concluye Illyes.
Foto: generada con Nano Banana 2
[…]
La entrada Viaje al centro de Googlebot: así funciona el rastreador web de la Búsqueda de Google se publicó primero en Marketing4eCommerce.