Sistemas de búsqueda
Los sistemas de búsqueda son lo que normalmente se conoce como motores de búsqueda (Google, Bing, DuckDuckGo, etc.). Son sistemas masivamente complejos que abordan algunos de los mayores desafíos en la historia de la tecnología.
Los sistemas de búsqueda tienen cuatro responsabilidades principales:
- Rastreo (Crawling): el proceso de recorrer la web y analizar el contenido de todos los sitios web. Esta es una tarea enorme ya que existen más de 350 millones de dominios.
- Indexación: encontrar lugares para almacenar todos los datos recopilados durante la etapa de rastreo para que puedan ser accesibles.
- Renderizado: ejecutar cualquier recurso en la página, como JavaScript, que pueda mejorar las funciones y enriquecer el contenido del sitio. Este proceso no ocurre para todas las páginas rastreadas y, a veces, sucede antes de que el contenido sea indexado. El renderizado puede ocurrir después de la indexación si no hay recursos disponibles para realizar la tarea en el momento del rastreo.
- Clasificación (Ranking): consultar datos para crear páginas de resultados relevantes basadas en la entrada del usuario. Aquí es donde se aplican los diferentes criterios de clasificación en los motores de búsqueda para dar a los usuarios la mejor respuesta que satisfaga su intención.
En la siguiente sección, aprenderemos más específicamente cómo funciona Googlebot. Googlebot es el rastreador de internet de Google, la parte del sistema de búsqueda que recopila toda la información necesaria para crear la enorme base de datos de contenido para ofrecer resultados de búsqueda.