Robots.txt – todo lo que necesitas saber

Tan pronto como un nuevo artículo esté en línea, se vinculará aquí. Por lo tanto, vale la pena revisarlo con regularidad.Tecnología: Usuario: Contenido: Señales externas: A pesar de su importancia, el archivo Robots.txt optimizado a menudo aún está desprotegido en la optimización de motores de búsqueda. En el artículo hemos resumido qué componentes son indispensables y por qué el archivo Robots.txt siempre debe configurarse individualmente para cada proyecto web.Un archivo bastante discreto en formato de texto ayuda a determinar cómo los agentes de usuario indexan los sitios web. Si falta, esto puede afectar negativamente la inclusión en los directorios de los motores de búsqueda. Si contiene restricciones estrictas, en determinadas circunstancias casi no se incluirá ninguna página, o incluso ninguna, incluso si el resto del sitio web se ha optimizado deliberadamente para que sea compatible con los motores de búsqueda. Robots.txt pertenece a OnPage Optimization.

¿Fue die Robots.txt?

Robots.txt es un archivo de texto en la raíz de un directorio web que contiene instrucciones para agentes de usuario y rastreadores sobre cómo manejar el contenido del sitio web. En otras palabras: ¿puede indexar ciertos directorios, qué páginas deben mantenerse fuera del índice del motor de búsqueda? ? Los comandos principales son: «useragent», «allow» y «disallow». El archivo de robots se puede verificar a través del navegador agregando /robots.txt al dominio actualmente válido. Ejemplo: https: //www.seonative. de/robots.txt ¿El archivo mostrado está vacío o el servidor envía un mensaje de error? ¡Entonces es necesario actuar! Nota: Al analizar la competencia, puede ser útil echar un vistazo a las entradas de Robots.txt de los competidores. Esto puede implicar enfoques de acción para sus proyectos, especialmente para proyectos de comercio electrónico más grandes o sitios web extensos.

Propósito y formato del archivo Robots.txt

El archivo de texto tiene dos propósitos específicos: mantener las páginas no deseadas, duplicadas o en blanco fuera del índice e influir en el presupuesto de rastreo por sitio web. Este propósito se definió por primera vez en 1994 y se amplió posteriormente. Desde entonces ha sido ampliamente utilizado. Sin embargo, el Protocolo de exclusión de robots (REP) no es un estándar oficial de Internet. Los motores de búsqueda generalmente observan las instrucciones de rastreo en Robots.txt, pero son libres de implementarlas y ciertamente pueden ejecutar procesos de escaneo que se desvían de ellas. Google, como agente de usuario, generalmente se adhiere a las especificaciones del archivo, pero esto es diferente para otros agentes de usuario. Los CMS comunes suelen crear un archivo robots.txt durante la configuración básica. Si el archivo falta después de un relanzamiento o cambio del CMS, se puede crear en blanco con un editor de texto simple y cargarlo en el directorio raíz del sitio web. El contenido se puede editar e integrar en cualquier momento y se debe revisar periódicamente para ver si hay ajustes. Requerido Google proporciona una herramienta de prueba en la que puede verificar los cambios en el archivo antes de la implementación. Pero Bing también tiene un probador de Robots.txt.Screenshot: el probador de Robots.txt de Google Importante: la herramienta solo verifica las entradas para el agente de usuario de GoogleBot y los servicios conectados a GoogleBot, es decir: GoogleBot-NewsGoogleBot-ImageGoogleBot-VideoGoogleBot-MobileMediapartners- GoogleAdsbot Google

  5 preguntas que debes hacerte si tu referencia natural cae en picado

Ejemplo de un archivo Robots.txt

La estructura del archivo es relativamente simple: Mapa del sitio: [URL location of sitemap]Agente de usuario: [bot identifier][directive 1][directive 2][directive …]# Dirección del segundo rastreadorUser-agent: [another bot identifier][directive 1][directive 2][directive …]Un archivo Robots.txt simplificado también puede constar de estas líneas de código: Agente de usuario: * Disallow: / wp-admin / Este último suele ser suficiente para proyectos web más pequeños si los índices nofollow para sitios web individuales se configuran directamente en se almacenan las áreas de cabecera de la página respectiva.

Agente de usuario

Para permitir la indexación de todos los rastreadores y agentes de usuario, se debe incluir al menos el comando estándar «useragent: *». Como en el ejemplo anterior, los agentes de usuario individuales pueden orientarse específicamente para mantener directorios y áreas individuales fuera de sus índices o para incluirlos de manera específica. Ejemplos de agentes de usuario típicamente dirigidos: Google: Googlebot Google Images: Googlebot-ImageBing: BingbotYahoo: SlurpBaidu: BaiduspiderDuckDuckGo: DuckDuckBotOnline encontrará una extensa lista de otros rastreadores.

Instrucciones: Permitir y No permitir

Usando la línea de código «disallow: / examplepage /», se le indica al intérprete direccionado que omita el directorio o ciertos sitios web durante la indexación. ¡Esta declaración se aplica solo al rastreador direccionado en «useragent:»! Lo mismo es cierto para el comando explícito «permitir: / por ejemplo /». «Permitir» también puede permitir explícitamente subprocesos de medios o directorios específicos, incluso si las rutas raíz han sido excluidas por «no permitir». Ejemplo de archivo Robots.txt, según el cual solo GoogleBot está autorizado para indexar contenido como agente de usuario: Agente de usuario: * Disallow: / Agente de usuario: GooglebotAllow: / Los rastreadores generalmente seguirán estas instrucciones para no sobrecargar innecesariamente el rastreo presupuestar y mantener el rendimiento del sitio web. Sugerencia: las áreas se pueden comentar con «#». Especialmente con proyectos web grandes, se recomienda dividir varios segmentos dentro del archivo.

  Core Web Vitals de Google: guía completa

Optimizar el rastreo con robots.txt

La indexación óptima compensa positivamente el posicionamiento y una mayor optimización de los motores de búsqueda. Por lo tanto: los comandos y directivas en desuso, en particular «noindex:» y «nofollow:» deben eliminarse del archivo. Google no sigue explícitamente las instrucciones Noindex y nofollow si están almacenadas en el archivo Robots.txt. Para proyectos de comercio electrónico más grandes y sitios web extendidos, los complementos pueden hacerse cargo de la exclusión de páginas específicas utilizando el archivo robots.txt descrito directamente. La navegación clara por el sitio web es beneficiosa para implementar las instrucciones en el archivo. Confíe en enlaces internos limpios y muy buenos a las subpáginas importantes para aumentar las posibilidades de un análisis completo. Ofrezca un mapa del sitio XML con las subpáginas más importantes para facilitar la navegación al usuario, agentes y bots. De esta manera, se ahorra el presupuesto de rastreo y los motores de búsqueda prefieren diseños de sitios web que sean rápidos, que ahorren recursos y sean fáciles de usar. Definición del presupuesto de rastreo: el presupuesto de rastreo determina la profundidad con la que el agente de usuario rastrea un sitio web, la frecuencia con la que regresa y las páginas principales que se visitan más veces. Deberían excluirse Idealmente, deberían utilizarse todas las páginas que no deberían indexarse ​​o que no tendrían un propósito más profundo en el índice, por ejemplo: páginas de agradecimiento (formularios, páginas finales de prospectos/boletines informativos) páginas de formulario de contacto puras imágenes (o Asignar a Imagen de GoogleBot) 404 y 402 páginas Contenido duplicado existente pero necesario (visualización optimizada para imprimir contenido, transcripciones, etc.) Después de que no se observen las instrucciones de noindex y nofollow en el archivo Robots.txt (deberían), las notas correspondientes deben incluirse directamente en el área de encabezado de la página (sub) respectiva.

Lista de verificación de robos.txt

Antes de optimizar el archivo robots, vale la pena echar un vistazo a esta lista de verificación para comenzar la revisión de manera sistemática: ¿El archivo robots.txt está contenido en el directorio raíz del proyecto web? ¿El archivo se refiere al proyecto actual (importante después de reiniciar o trabajos de mantenimiento)? ¿Se ha publicado el análisis para todos los rastreadores y bots relevantes? ¿Se adapta el contenido al proyecto web actual en cuanto a páginas o directorios que no se deben indexar? ¿Los procesos CSS o JavaScript están excluidos de la indexación? CMS actual y web actualmente utilizados – ¿Estándares coordinados? ¿Se incluyen instrucciones obsoletas centradas en el proyecto actual?

  6 consejos para una estrategia efectiva de escucha social

Conclusión

El archivo robots ofrece muchas oportunidades para ayudar a que sus proyectos web obtengan mejores clasificaciones en la optimización de motores de búsqueda. En seonative somos una agencia de FLUYEZCAMBIOS con muchos años de experiencia en optimización de motores de búsqueda. ¡Contáctenos para una evaluación FLUYEZCAMBIOS gratuita!

¡No te pierdas otras noticias!

Recibe todas las noticias importantes de ✓ FLUYEZCAMBIOS ✓ SEA, ✓ diseño web y ✓ marketing de influencers con el boletín en línea todos los lunes.

4.4/5 - (2383 votos)

Deja un comentario

Esta web utiliza cookies propias y de terceros para su correcto funcionamiento y para fines analíticos. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Más información
Privacidad
A %d blogueros les gusta esto: