Robots.txt: 5 mejores prácticas para FLUYEZCAMBIOS

Has aprendido los conceptos básicos de robots.txt, ¡pero es hora de profundizar un poco más! Los archivos Robots.txt se utilizan principalmente para guiar a los robots de los motores de búsqueda mediante reglas para bloquearlos o permitirles acceder a ciertas partes de su sitio.
Si bien la forma más sencilla de usar robots.txt es bloquear robots en directorios completos, existen varias funciones avanzadas que le brindan un control más preciso sobre cómo se indexa su sitio.
Aquí hay cinco consejos para aquellos que quieren ser un poco más avanzados en la gestión de bots…

Retardo de escaneo

Suponga que está ejecutando un sitio web grande con una alta frecuencia de actualizaciones. Digamos que es un sitio de información. Todos los días publicas docenas de artículos nuevos en tu página de inicio. Debido a la gran cantidad de actualizaciones, los rastreadores de los motores de búsqueda rastrean constantemente su sitio, cargando sus servidores en gran medida.
El archivo robots.txt le ofrece una manera fácil de resolver este problema: la directiva «retraso de rastreo». Esta directiva le dice a los robots que esperen una cierta cantidad de segundos entre solicitudes. Por ejemplo :
Agente de usuario: Bingbot
Retardo de escaneo: 10
Uno de los beneficios de esta directiva es que le permite limitar la cantidad de URL rastreadas por día en sitios importantes. Si configura el tiempo de espera de escaneo en 10 segundos, como en el ejemplo anterior, esto significa que Bingbot escaneará un máximo de 8640 páginas por día (60 segundos x 60 minutos x 24 horas / 10 segundos = 8640). Desafortunadamente, no todos los motores de búsqueda (o rastreadores en general) reconocen esta directiva, siendo Google el más notable.

Filtrar una cadena de caracteres

El filtro comodín le permite buscar cadenas de caracteres dentro de bloques de datos sin procesar.
Esto puede ser muy útil, especialmente cuando necesita bots para escanear solo ciertos tipos de archivos o expresiones. Permite un control más preciso que el enfoque de bloquear directorios completos y le evita tener que enumerar cada URL que desea bloquear individualmente.
La forma más simple sería usar el comodín
. Por ejemplo, la siguiente directiva bloquea todos los subdirectorios de la carpeta «privada» para el bot de Google:
Agente de usuario: robot de Google
No permitir: /privado*/
Puede hacer coincidir el final de una cadena con el signo de dólar. Por ejemplo, lo siguiente bloquearía todas las URL que terminen en «.asp»:
Agente de usuario: *
No permitir: /*.asp$
Otro ejemplo: para bloquear todas las URL que contienen el signo de interrogación (?), use el siguiente comando:
Agente de usuario: *
No permitir: /*?*
También puede usar esta técnica para bloquear bots para tipos de archivos específicos, en este archivo .gif de ejemplo:
Agente de usuario: *

No permitir: /*.gif$

La directiva ‘Permitir’
Si ha leído hasta aquí, probablemente esté familiarizado con la directiva disallow. Una directiva menos conocida es la directiva «permitir». Como puede imaginar, la directiva «permitir» funciona de manera opuesta a la directiva de rechazo. En lugar de bloquear los robots, especificamos las rutas a las que pueden acceder los robots designados.
Esto puede ser útil en varios casos. Por ejemplo, supongamos que prohibió una sección completa de su sitio, pero aún desea que los rastreadores rastreen una página específica en esa sección.
En el siguiente ejemplo, Googlebot solo puede acceder al directorio «google» del sitio web:
Agente de usuario: robot de Google
No permitir: /

Permitir: /google/

Directiva sin índice
A diferencia de la directiva «no permitir», la directiva «noindex» no evitará que las arañas de los motores de búsqueda rastreen su sitio. Sin embargo, esto evitará que los motores de búsqueda indexen sus páginas.
Es bueno saberlo: también eliminará estas páginas del índice. Esto tiene ventajas obvias, por ejemplo, si necesita que una página que contiene información confidencial se elimine de las páginas de resultados del motor de búsqueda.
Tenga en cuenta que «noindex» no es oficialmente compatible con Google, pero no con Bing.
Puede combinar las directivas «disallow» y «noindex» para evitar que los robots rastreen e indexen las páginas:
Agente de usuario: *
Noindex: /privado/
Agente de usuario: *

No permitir: / privado /

mapa del sitio
Los Sitemaps XML son otra herramienta esencial para optimizar su sitio, especialmente si desea que los rastreadores de los motores de búsqueda encuentren e indexen sus páginas.
Antes de que un bot encuentre su página, primero debe encontrar su mapa del sitio XML.
Para asegurarse de que los rastreadores de los motores de búsqueda encuentren su mapa del sitio XML, puede agregar su ubicación a su archivo robots.txt:

Mapa del sitio: https://www.votresite.com/sitemap.xml ¡Mira nuestro tutorial completo para crear tu mapa del sitio en WordPress! No dudes en llamar a un desarrollador en FLUYEZCAMBIOS.pe para configurar tu archivo robots.txt, más de 3.000 desarrolladores están disponibles todos los días.

4.7/5 - (2188 votos)
  E-Commerce: ¿cómo optimizar el FLUYEZCAMBIOS de tus fichas de producto?
Esta web utiliza cookies propias y de terceros para su correcto funcionamiento y para fines analíticos. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Más información
Privacidad
A %d blogueros les gusta esto: