¿Qué son los rastreadores web?

Para que tu sitio web aparezca en los resultados de búsqueda, Google (así como otros motores de búsqueda como Bing, Yandex, Baidu, Naver, Yahoo o DuckDuckGo) utilizan rastreadores web para navegar el sitio y descubrir páginas web.

Los diferentes motores de búsqueda tienen diferentes cuotas de mercado en cada país.

En esta guía cubrimos Google, que es el motor de búsqueda más grande en la mayoría de los países. Dicho esto, es posible que desees verificar otros motores de búsqueda y sus pautas, especialmente si tus clientes objetivo están en China, Rusia, Japón o Corea del Sur.

Si bien hay algunas diferencias cuando se trata de Clasificación y Renderizado, la mayoría de los motores de búsqueda funcionan de manera muy similar en cuanto a Rastreo e Indexación.

Los rastreadores web son un tipo de bot que emulan a los usuarios y navegan a través de los enlaces encontrados en los sitios web para indexar las páginas. Los rastreadores web se identifican utilizando user-agents personalizados. Google tiene varios rastreadores web, pero los que se usan con más frecuencia son Googlebot Desktop y Googlebot Smartphone.

¿Cómo funciona Googlebot?

Diagrama de flujo de Googlebot

El recorrido que hace Googlebot para indexar páginas web

Una visión general del proceso puede ser la siguiente:

  • Encontrar URLs: Google obtiene URLs de muchos lugares, incluyendo Google Search Console, enlaces entre sitios web o mapas del sitio XML.
  • Agregar a la cola de rastreo: Estas URLs se agregan a la cola de rastreo para que Googlebot las procese. Las URLs en la cola de rastreo generalmente permanecen allí segundos, pero puede ser hasta unos días dependiendo del caso, especialmente si las páginas necesitan ser renderizadas, indexadas o – si la URL ya está indexada – actualizadas. Luego las páginas entrarán en la Cola de renderizado.
  • Solicitud HTTP: El rastreador hace una solicitud HTTP para obtener los encabezados y actúa según el código de estado devuelto:
    • 200: Rastrea y analiza el HTML.
    • 30X: Sigue las redirecciones.
    • 40X: Registra el error y no carga el HTML.
    • 50X: Puede volver más tarde para verificar si el código de estado ha cambiado.
  • Cola de renderizado: Los diferentes servicios y componentes del sistema de búsqueda procesan el HTML y analizan el contenido. Si la página tiene contenido basado en JavaScript del lado del cliente, las URLs podrían agregarse a una cola de renderizado. La cola de renderizado es más costosa para Google ya que necesita usar más recursos para renderizar JavaScript y, por lo tanto, las URLs renderizadas son un porcentaje menor sobre el total de páginas en internet. Algunos otros motores de búsqueda podrían no tener la misma capacidad de renderizado que Google, y aquí es donde Next.js puede ayudar con tu estrategia de renderizado.
  • Listo para ser indexado: Si se cumplen todos los criterios, las páginas pueden ser elegibles para ser indexadas y mostradas en los resultados de búsqueda.

En las próximas secciones, profundizaremos en cada uno de los componentes principales de los procesos de un sistema de búsqueda: rastreo e indexación, y renderizado y clasificación.

Lecturas adicionales

On this page