Robots.txt: todo acerca del archivo.

por CTD
Robots.txt todo acerca del archivo de Google para rastreadores en la web

Robots.txt, así es como se denomina un archivo que debe instalarse en la raíz de los archivos de cualquier página web que quiera posicionarse debidamente en Google o en cualquier otro buscador como Bing o Yahoo y que es fundamental para que los rastreadores sepan qué secciones de nuestra página web queremos que sean indexadas y qué secciones no.

Nota: antes de seguir leyendo, te recomiendo que registres tu página web en Google Search Console

¿Qué son los rastreadores de Google?

Los rastreadores de Google son softwares automatizados que acceden a las webs de todo el mundo con la misión de analizar la estructura y el contenido de cada una de ellas. Éste, es un análisis previo a la indexación en buscadores y es muy importante que la web cumpla con el máximo de requisitos de accesibilidad que Google requiere en el momento de su publicación.

Existen muchos factores que los rastreadores tienen en cuenta y qué, según como lo tengamos especificado en nuestras webs, suman o restan importancia en el cómputo global de accesibilidad, información que es determinante para que el buscador decida donde posicionar nuestra web según el patrón de búsqueda.

¿A qué nos referimos cuando hablamos de indexación?

Después de crear nuestra página web es hoy en día una obligación realizar las tareas pertinentes para que aparezcan en los buscadores de Internet más importantes como Google o Bing. A no ser que realmente tengamos un motivo por el cual no queramos que la web aparezca en dichos buscadores (ej: una intranet privada) es lógico pensar que una página web ha sido creada para mostrarse al mundo. En el momento en que la web es publicada puede darse inicio el proceso de indexación en cualquier momento. Un rastreador del buscador accederá a la web realizando una primera comprobación para ver si el sitio cumple con todos los requisitos para poder ser indexado. Cuando tenemos el visto bueno del restreador entra en el juego el propio buscador que ejecutando su algoritmo de indexación posiciona la web dentro de los resultados de búsqueda.

¿Cual es el papel del archivo robots.txt en todo esto?

El archivo robots.txt es un elemento de comunicación entre nosotros y el rastreador del buscador. En él podemos escribir una serie de directrices entendibles por los rastreadores que nos permiten controlar el modo en el que nuestra web va a ser indexada en los resultados de búsqueda.

Un ejemplo muy recurrente del uso del archivo robots.txt es en el proceso de desarrollo de una web instalada en el servidor. Como ya hemos indicado antes, en el momento en que una web está publicada empieza el proceso en el que pude ser indexada. Aunque muchos desarrolladores prefieren trabajar en local y una vez terminada la web subirla al servidor definitivo, también es habitual empezar a trabajar con los archivos instalados en el servidor final desde el inicio. En el preciso momento en el que los archivos están online, para Google son restreables y por consiguiente indexables. El error típico en estos casos es no configurar un archivo robots.txt indicando a los restradores que no accedan y el resultado es la indexación de páginas en desarrollo con contenido que difícilmente nos va a interesar que se indexe.

¿Como crear el archivo robots.txt?

Vista la importancia que tiene el uso del archivo robots.txt ya no debes plantearte si lo vas a instalar en tus paginas web o no, es imperativo que lo hagas. Si no sabes como se crea un archivo robots.txt debes saber que dentro de las tareas de posicionamiento y/o de SEO orgánico es un procedimiento de los más fácil que te va a encontrar.  Tan sencillo como abrir un blog de notas y guardarlo con el nombre «robots.txt», luego, lo subes en la raíz de de ficheros de tu página web y listo, ya tienes tu archivo robots.txt creado.

Directivas del archivo robots.txt

Debes saber que si creas un archivo robots.txt vacío y lo subes al servidor para el rastrador del buscador es lo mismo que si no hicieras nada. Al no encontrarse ninguna directiva que le indique a donde debe acceder y a donde no, el rastreador entenderá que puede entrar en la totalidad de ficheros de la página web.

Bien, llega el momento de que codifiques el archivo robots.txt de tu página web. Lo que debes hacer ahora es tener claro qué es lo que quieres que se indexe y qué no. Luego, sólo deberás tener en cuenta tres instrucciones básicas que puedes implementar y que en el argot técnico de los SEO se hacen llamar «directivas»

Directiva «User-agent»: con la que podemos indicar a los rastreadores que  cuales de ellos queremos que accedan a nuestra página web o no.
Ejemplo de directiva «User-agent»: User-agent: Googlebot
En este ejemplo lo que estamos haciendo es indicar a los ratreadores que el único que puede pasar a ver nuestra web es el señor «Googleboot» que como es obvio se trata del rastreador de Google.

Directiva «Allow»: con la que le decimos a los rastreadores que SI pueden acceder a los archivos que indiquemos a continuación con la siguiente estructura.
Ejemplo de directiva «Allow»: Allow: /assets/
En este ejemplo le decimos a los rastreadores que pueden acceder al directorio «assets» de nuestra página web.

Directiva «Disallow»: con la que indicamos a los rastreadores a qué archivos NO queremos que accedan con la siguiente estructura: Ejemplo de directiva «Diasalow»: Disalow: /assets/
En este ejemplo le decimos a los rastreadores que no pueden acceder al directorio «assets» de nuestra página web.

Debes saber que algo que utiliza casi todo el mundo es un » * » en la directiva «User-agent», ya que, con esa indicación lo que estamos haciendo es dar paso a todos los rastreadores habidos y pos haber que en principio es el objetivo de cualquier buena página web que se precie.  Ejemplo: User-agent: *

Volviendo al ejemplo que os decía antes, por tanto, si estamos en el proceso de desarrollo y no queremos que se indexe aún nada de nuestro proyecto, lo primero que hay que hacer es crear un archivo robots.txt en la raíz de ficheros e indicar las directivas siguientes:
User-agent: *
Disalow: /
Donde con el asterisco indicamos que cualquier rastreador pueda entrar a nuestra web, y con  la barra impedimos el acceso al directorio principal, luego, a toda la web.

El robots.txt en Search Console

Una vez más, la herramienta para webmsters de Google Search Console va muy bien porque puedes ir a la sección del archivo robots.txt y hacer una prueba. La herramienta te indica si hay errores o si y esta forma podemos saber si hemos generado correctamente el archivo.

el archivo robots.txt en Search Console

El archivo robots.txt en WordPress

Si tu página web esta creada con el gestor de contenidos WordPress no te vuelvas loco buscando el archivo robots.txt en la raíz de los archivos del sitio. En este caso la aplicación web lo lleva intrínseco en su codificación y para editarlo debemos hacer uso de plugins que nos den acceso.

Si en tu panel de administración accedes a «Ajustes / Lectura», veras que hay una casilla de vericación con la etiqueta «Disuade a los motores de búsqueda de indexar este sitio». Bien, si la marcamos y guardamos, lo que estamos haciendo es precisamente lo que comentaba antes, poner el «Disallow: /» en el archivo robots.txt para que el rastreador no acceda.

Debo decir que aún así, y rara vez, el rastreador a entrado y me ha indexado contenido, poco, pero lo ha hecho: misterios de Google.

Pues esto sería todo, si aún tenéis alguna duda más, podéis dejarme un mensaje en el formulario de contacto.

Esto, también te interesa ...

Dejar comentario