¿Qué es un archivo robots.txt?

Un archivo robots.txt indica a los rastreadores (crawlers) de los motores de búsqueda qué páginas o archivos pueden o no solicitar de tu sitio. El archivo robots.txt es un estándar web que la mayoría de bots legítimos consultan antes de realizar cualquier solicitud a un dominio específico.

Es posible que desees proteger ciertas áreas de tu sitio web para que no sean rastreadas y, por lo tanto, indexadas, como tu CMS o panel de administración, cuentas de usuario en tu comercio electrónico o algunas rutas de API, por mencionar algunos ejemplos. Estos archivos deben servirse en la raíz de cada host, o alternativamente puedes redirigir la ruta raíz /robots.txt a una URL de destino y la mayoría de bots la seguirán.

Cómo agregar un archivo robots.txt a un proyecto Next.js

Gracias al servicio de archivos estáticos en Next.js, podemos agregar fácilmente un archivo robots.txt. Para hacerlo, creamos un nuevo archivo llamado robots.txt en la carpeta public del directorio raíz. Un ejemplo de lo que podrías incluir en este archivo sería:

//robots.txt
 
# Bloquear todos los rastreadores para /accounts
User-agent: *
Disallow: /accounts
 
# Permitir todos los rastreadores
User-agent: *
Allow: /

Cuando ejecutes tu aplicación con yarn dev, el archivo estará disponible en http://localhost:3000/robots.txt. Ten en cuenta que el nombre de la carpeta public no forma parte de la URL.

No renombres el directorio public. El nombre no puede cambiarse y es el único directorio utilizado para servir recursos estáticos.

Lecturas adicionales

On this page