Tan pronto como un nuevo artículo esté en línea, se vinculará aquí. Por lo tanto, vale la pena revisarlo con regularidad. Tecnología: Usuario: Contenido: Señales externas: Las etiquetas robots.txt o meta robots ofrecen al webmaster una oportunidad importante para verificar el rastreo del sitio web. Las opciones de acceso se pueden definir en las páginas, lo que afecta la indexación de los sitios web. Además, es posible determinar si los enlaces están siendo seguidos y evaluados o no. El objetivo es colocar solo las páginas HTML relevantes en el índice del motor de búsqueda.
Controla el rastreo de una página usando meta robots
No todas las páginas de un sitio web deben ser rastreadas por robots de motores de búsqueda. Por ejemplo, pueden ser directorios específicos del sistema o áreas con archivos confidenciales. Lo más importante que debe recordar es que el «presupuesto de rastreo» también está limitado por Google. Puede que esto no sea tan importante para el sitio web compacto de una pequeña empresa, pero en el caso de grandes tiendas en línea o portales de noticias con millones de URL, el rastreador simplemente se detiene, independientemente del contenido de las páginas que aún no se han rastreado. Estimaciones realistas asumen que el rastreo solo genera alrededor de $ 10 mil millones en costos para Google. Para comprobar el «presupuesto de rastreo» disponible para su sitio web, excluya del rastreo las páginas sin importancia para que el bot de Google se centre en las páginas y los directorios que son realmente relevantes.
La función de un archivo robots.txt
El archivo robots.txt es un archivo de texto que un webmaster puede usar para especificar a qué áreas del dominio tiene acceso el rastreador del motor de búsqueda. Puede establecer una prohibición de acceso para archivos individuales, directorios completos o para el dominio. Por lo tanto, el archivo robots.txt actúa como un «rebotador».
La estructura de un archivo robots.txt
Hay dos directivas principales utilizadas en el archivo robots.txt: User-Agent
Aquí determinamos a qué rastreador se aplican las instrucciones.
Puede apuntar a un rastreador específico: Googlebot (motor de búsqueda de Google) Googlebot-Image (búsqueda de imágenes de Google) Adsbot-Google (Google AdWords) Slurp (Yahoo) bingbot (Bing) o todos los rastreadores de motores de búsqueda están dirigidos con * .Allow / DisallowHere para un directorio especial puede excluirse del análisis o permitirse Ejemplo de otto.de:User-agent: bingbot Disallow: / ts-rcv / Disallow: / *% 5C% 22 $ Disallow: / wp-admin / Disallow: / suche / User agente: * No permitir: / ts-rcv / No permitir: / *% 5C% 22 $ No permitir: / wp-admin / Mapa del sitio: https://www.otto.de/product/sitemap_index .xml Mapa del sitio: https: / / www .otto.de / san / sitemap_index.xml Importante: Los bloques de instrucciones siempre deben estar separados por un espacio. Los rastreadores siempre leen primero el primer bloque de instrucciones coincidente. Si desea apuntar a un bot específico, esta instrucción debe estar en la parte superior. Todas las declaraciones «generalmente válidas» detrás de él. La instrucción Disallow: / bloquea todos los rastreadores. Puede ocurrir que la página no aparezca en la búsqueda orgánica. Además de los derechos de acceso, también se debe incluir la ruta del mapa del sitio XML.
¿Qué se debe tener en cuenta al usar un archivo robots.txt?
Las instrucciones contenidas en el archivo robots.txt son solo pautas y no imponen ningún comportamiento específico del rastreador. No hay garantía de que todos los motores de búsqueda / personas con malas intenciones se queden. Para evitar que los rastreadores no puedan acceder a información específica, el contenido confidencial debe estar protegido con contraseña. También puede ocurrir que una página aparezca en el índice a pesar de estar excluida de robots.txt. La razón son los enlaces de las páginas accesibles para Google y que apuntan a su sitio web.Un archivo Robots.txt es un archivo de texto simple que puede crear usted mismo con cualquier editor simple.
Indexación de una página y gestión de enlaces
No todas las páginas de un sitio web deben aparecer en el índice, que es la página de resultados de búsqueda de Google. Hay muchas razones para esto, en su mayoría similares a verificar el escaneo usando un archivo Robots.txt. O simplemente páginas irrelevantes para el motor de búsqueda, como el pie de imprenta y los términos y condiciones.
Las etiquetas del meta robot están ahí para controlar individualmente la indexación y el seguimiento de enlaces en el sitio.
¿Fue la etiqueta Sind meta robots?
Con la etiqueta meta robots, se puede notificar a un rastreador si:
• la página debe estar indexada
• El Pagerank debe ser heredado de todos los enlaces de la página (enlaces internos y salientes) («link juice»)
• y si la página se puede almacenar / almacenar en caché.
Además, para cada página se puede especificar si el poder del enlace se puede pasar a través del atributo seguir/no seguir. Porque la etiqueta Meta Robots es una etiqueta HTML en el área de cada página, a diferencia del archivo Robots.txt, que se almacena de forma centralizada.
¿Cuál es la estructura de las metaetiquetas de robots?
Las siguientes directivas se pueden usar para controlar rastreadores a través de etiquetas de meta robots:o viceversa:El rastreador se puede dirigir directamente a cualquier página HTML. En la imagen se enumeran más instrucciones. Si no está utilizando una metaetiqueta de robots, el «predeterminado» es: indexar, archivar y heredar linkjuice.
Como alternativa a la etiqueta de meta robots, las instrucciones NoIndex, NoFollow, etc. se puede configurar globalmente en la configuración del servidor web. Esto se llama «Etiqueta X-Robots». Si lo desea, las instrucciones ya no están contenidas en el código fuente de la página, sino en el encabezado de la respuesta HTTP. Información más detallada sobre esto aquí: http://noarchive.net/xrobots/ Un ejemplo podría excluir todos los archivos PDF de la indexación.
Conclusión
Robots.txt controla el rastreo, la etiqueta meta-robot la indexación. Puede usar una desactivación en robots.txt para asegurarse de que las páginas no aparezcan en el índice, pero realmente puede excluirlas con solo la metaetiqueta «noindex». ¡Y para eso, también se debe permitir el rastreo de páginas en Robots.txt! Porque el bot de Google primero debe leer la etiqueta noindex del robot. No funcionaría si el rastreador estuviera bloqueado Para obtener buenos resultados en el área de búsqueda orgánica con un sitio web grande, el uso de un archivo robots.txt y etiquetas meta de robots es esencial. Ambos métodos ayudan a garantizar una gestión de indexación óptima y controlar el rastreo de sitios web. ✔ Más tráfico ✔ más clientes ✔ más ventas 👉 Evaluación FLUYEZCAMBIOS inicial gratuita
Relacionados

Hola! Soy Juan Manuel Fluyez, mas conocido como «Fluyez» entre los SEOS, socio co-fundador de FLUYEZCAMBIOS S.A
Mi amigo Luis Alberto Cambios y yo fundamos FLUYEZCAMBIOS en 2013 en Lima, Perú. Desde entonces lideramos el grandísimo equipo que esta detrás de FLUYEZCAMBIOS.pe
Estamos aquí para revelar toda la información necesaria sobre el concurso SEO de FLUYEZCAMBIOS!