10/10/2022

Importancia del Archivo robots.txt para la Seguridad y el Seo

Importancia del Archivo robots.txt para la Seguridad y el Seo 

imagen del archivo robots.txt

Su archivo robots.txt permite indicarle a los motores de búsqueda las páginas que pueden acceder. Por ejemplo, si se especifica en el archivo robots.txt que no desea que los motores de búsqueda puedan acceder a su página de error 404 personalizada, la página no va a ser capaz de aparecer en los resultados de búsqueda y los usuarios de Internet no serán capaces de encontrarla. 

Limitar el acceso de los motores de búsqueda a determinadas páginas de su sitio es esencial tanto para la privacidad de su sitio como para optimización y posicionamiento SEO. 

En este artículo se explica porque y conocerá cómo crear un buen archivo robots.txt. 

Cómo trabaja el archivo robots.txt 


Cuando un robot busca el archivo "/robots.txt", elimina todo el componente de la ruta de la dirección URL (todo, desde la primera barra individual), y pone "/robots.txt" en su lugar. 

Por ejemplo, para "http://www.ejemplo.com/compra/index.html, se eliminará el "/compra/index.html", y lo sustituye por "/robots.txt", y terminará con "http://www.ejemplo.com/robots.txt". 

Así que, como propietario de un sitio web es necesario poner el archivo robots.txt en el lugar correcto en el servidor web para que el robot o araña consiga el archivo robots.txt. Por lo general, que es el mismo lugar donde se coloca la página de bienvenida de su sitio web principal "index.html". ¿Dónde exactamente, y cómo poner el archivo existe, depende de su software de servidor web. 

Recuerde que debe utilizar todo en minúsculas para el nombre de archivo: "robots.txt", no "ROBOTS.TXT" 

Los motores de búsqueda envían pequeños programas llamados "arañas" a su sitio y puedan llevar información a los motores de búsqueda para que las páginas de su sitio pueden ser indexadas en los resultados de búsqueda y encontradas por los usuarios de Internet. Su archivo Robots.txt puede indicarle a estos programas para que no puedan buscar páginas de su sitio que usted designe mediante un comando de "Disallow". Por ejemplo, el siguiente comando Robots.txt: 

User-agent: * 
Disallow: /error404 
Bloquearía todos los robots de los buscadores para visitar la siguiente página en su sitio web: 

http://su-sitio.com/error404 

Dese cuenta que antes del comando Disallow, usted tiene el comando: 

User-agent: * 

La parte "User-agent:" especifica qué robot desea bloquear. Usted también puede decir lo siguiente: 

User-agent: Googlebot 

Este comando sólo bloqueará el robots de Google, mientras que otros robots seguirían teniendo acceso a la página: 

http://su-sitio.com/error404 

Sin embargo, utilizando el carácter "*", se está especificando que los comandos siguientes se refieren a todos los robots. Su archivo robots.txt se encuentra en el directorio principal de su sitio. Por ejemplo: http://su-sitio.com/robots.txt 

El efecto de robots.txt en diferentes tipos de archivo
Página web

Puedes usar un archivo robots.txt en páginas web (HTML, PDF y otros formatos no multimedia que Google pueda leer) para gestionar el tráfico de los rastreadores si crees que tu servidor se sobrecargará con solicitudes del rastreador de Google, o para evitar que se rastreen páginas sin importancia o similares de tu sitio.

Si tu página web está bloqueada por un archivo robots.txt, la URL puede seguir apareciendo en los resultados de búsqueda, pero sin ninguna descripción. Se excluirán los archivos de imagen y vídeo, así como los archivos PDF y otros archivos que no sean HTML. Si en la búsqueda se muestra este resultado con tu página y quieres corregirlo, quita del archivo robots.txt la entrada que esté bloqueando la página. Si quieres ocultar la página completamente de la Búsqueda, utiliza otro método.

Archivo multimedia

Con un archivo robots.txt, puedes gestionar el tráfico de los rastreadores y evitar que aparezcan archivos de imagen, vídeo y audio en los resultados de la Búsqueda de Google. Aun así, no impedirá que otras páginas o usuarios incluyan enlaces a tu archivo de imagen, vídeo o audio.

Archivo de recursosCon un archivo robots.txt, puedes bloquear archivos de recursos (como los de imagen, secuencias de comandos o estilo que no sean importantes) si crees que prescindir de ellos no perjudicará considerablemente a las páginas. No obstante, si crees que complicaría el análisis del rastreador de Google, no debes bloquearlos, ya que si lo haces, Google no podrá analizar correctamente páginas que dependan de estos recursos.

¿Por qué algunas páginas necesitan ser bloqueadas? 


El siguiente video explica las diferentes opciones para evitar el rastreo de contenido en tu página web. 

Hay tres razones por las cuales usted podría querer bloquear una página mediante el archivo robots.txt.

En primer lugar, si usted tiene una página en su sitio, que es un duplicado de otra página, usted no quiere que los robots la indexen debido a que resultaría en contenido duplicado y puede hacerle daño a su SEO. 

La segunda razón es cuando tiene una página en su sitio que no desea que los usuarios puedan acceder a ella a menos que tomen una acción específica. Por ejemplo, si usted tiene una página de agradecimiento, donde los usuarios reciben información específica porque ellos le dieron su dirección de correo electrónico, es probable que no quiera que la gente tenga la posibilidad de encontrar esa página haciendo una búsqueda en Google. 

La tercera razón por la que usted desea bloquear páginas o archivos es cuando se quiere proteger los archivos privados en su sitio, como su cgi-bin y/o impedir que su ancho de banda sea utilizado por robots de indexación de archivos de imagen: 

User-agent: * 
Disallow: /images/ 
Disallow: /cgi-bin/ 

En todos estos casos, tendrá que incluir un comando en el archivo robots.txt que le indique a los motores de búsqueda que no accedan a esa página, para que no la indexen, y así no se muestre en los resultados de búsqueda y de ese modo no enviar a los visitantes a la misma. 

Echemos un vistazo a cómo se puede probar el archivo robots.txt que ha creado en su sitio. Con una cuenta en la Consola de búsqueda, antiguamente conocida como herramientas para webmasters de Google, usted puede probar el archivo robots.txt, seleccionando la opción "probador de robot.txt" en la opción "Rastreo" en la barra de menú lateral. Si usted agregó: 

User-agent: * 
Disallow: /coloso 

y en la parte inferior coloca http://su-sitio.com/coloso y selecciona el user agent, la herramienta le mostrará en color rojo la línea Disallow:/coloso, indicando así que ese directorio está bloqueado para cada uno de los user-agent con los que haga la prueba. Si comenta esa línea con # y repite la prueba haciendo clic en el botón probar, éste dirá permitido. 

Nótese aquí que usted tiene un comando "Allow" que es útil si quiere hacer una excepción y permitir que el robot acceda a una página que usted ha bloqueado. 

User-agent: * 
Disallow: /images/ 

Al colocar el comando: 
Allow: /Googlebot 

Debajo del comando de Disallow, estaría permitiendo que sólo el robot de Google pueda acceder al directorio de imágenes de su sitio. 

Una vez que haya especificado los comandos de las páginas y archivos que desea bloquear en el block de notas guárdelo como robots.txt. 

Instalar el archivo robots.txt. 


Una vez que tenga el archivo robots.txt, puede cargarlo en el directorio principal (www) de su sitio web. Usted puede hacer esto usando un programa FTP como Filezilla. La otra opción es contratar a un programador web para crear e instalar el archivo robots.txt, haciéndole saber qué páginas desea bloquear. Si usted elige esta opción, un buen programador web puede completar el trabajo en una hora aproximadamente. 

Conclusión 


Es importante actualizar el archivo robots.txt si agrega páginas, archivos o directorios en su sitio que usted no desea sean indexados por los motores de búsqueda o accedidos por los usuarios de Internet. Esto garantizará la seguridad de su sitio web y los mejores resultados posibles con su posicionamiento web. 

Ejemplo de un archivo robots.txt : 


User-agent: * 
Disallow: /administrator/ 
Disallow: /cache/ 
Disallow: /cli/ 
Disallow: /components/ 
Disallow: /images/ 
Disallow: /includes/ 
Disallow: /installation/ 
Disallow: /language/ 
Disallow: /libraries/ 
Disallow: /logs/ 
Disallow: /media/ 
Disallow: /modules/ 
Disallow: /plugins/ 
Disallow: /templates/ 
Disallow: /tmp/ 
Sitemap: http://dominio.com/sitemap.xml 

También necesitarás saber como probar el archivo robots.txt. ¡¡Si te ha parecido interesante y útil el contenido del artículo, no olvides compartir!!


Contenido Relacionado:


No hay comentarios: