Web y Vídeo. Frontend y Realizador. SEO y posicionamiento.
  • marketing digital
  • web
  • cine
  • TV
  • literatura
  • miscelanea

Web y Vídeo. Frontend y Realizador. SEO y posicionamiento.

  • marketing digital
  • web
  • cine
  • TV
  • literatura
  • miscelanea
marketing digitalweb

Robots.txt: todo acerca del archivo.

escrito por CTD julio 15, 2018
Robots.txt: todo acerca del archivo.

Robots.txt, así es como se denomina un archivo que debe instalarse en la raíz de los archivos de cualquier página web que quiera posicionarse debidamente en Google o en cualquier otro buscador como Bing o Yahoo y que es fundamental para que los rastreadores sepan qué secciones de nuestra página web queremos que sean indexadas y qué secciones no.

Nota: antes de seguir leyendo, te recomiendo que registres tu página web en Google Search Console

Esto es lo que vamos a ver en este post

  • ¿Qué son los rastreadores de Google?
  • ¿A qué nos referimos cuando hablamos de indexación?
  • ¿Cual es el papel del archivo robots.txt en todo esto?
  • ¿Como crear el archivo robots.txt?
  • Directivas del archivo robots.txt
  • El robots.txt en Search Console
  • El archivo robots.txt en WordPress

¿Qué son los rastreadores de Google?

Los rastreadores de Google son softwares automatizados que acceden a las webs de todo el mundo con la misión de analizar la estructura y el contenido de cada una de ellas. Éste, es un análisis previo a la indexación en buscadores y es muy importante que la web cumpla con el máximo de requisitos de accesibilidad que Google requiere en el momento de su publicación.

Existen muchos factores que los rastreadores tienen en cuenta y qué, según como lo tengamos especificado en nuestras webs, suman o restan importancia en el cómputo global de accesibilidad, información que es determinante para que el buscador decida donde posicionar nuestra web según el patrón de búsqueda.

¿A qué nos referimos cuando hablamos de indexación?

Después de crear nuestra página web es hoy en día una obligación realizar las tareas pertinentes para que aparezcan en los buscadores de Internet más importantes como Google o Bing. A no ser que realmente tengamos un motivo por el cual no queramos que la web aparezca en dichos buscadores (ej: una intranet privada) es lógico pensar que una página web ha sido creada para mostrarse al mundo. En el momento en que la web es publicada puede darse inicio el proceso de indexación en cualquier momento. Un rastreador del buscador accederá a la web realizando una primera comprobación para ver si el sitio cumple con todos los requisitos para poder ser indexado. Cuando tenemos el visto bueno del restreador entra en el juego el propio buscador que ejecutando su algoritmo de indexación posiciona la web dentro de los resultados de búsqueda.

¿Cual es el papel del archivo robots.txt en todo esto?

El archivo robots.txt es un elemento de comunicación entre nosotros y el rastreador del buscador. En él podemos escribir una serie de directrices entendibles por los rastreadores que nos permiten controlar el modo en el que nuestra web va a ser indexada en los resultados de búsqueda.

Un ejemplo muy recurrente del uso del archivo robots.txt es en el proceso de desarrollo de una web instalada en el servidor. Como ya hemos indicado antes, en el momento en que una web está publicada empieza el proceso en el que pude ser indexada. Aunque muchos desarrolladores prefieren trabajar en local y una vez terminada la web subirla al servidor definitivo, también es habitual empezar a trabajar con los archivos instalados en el servidor final desde el inicio. En el preciso momento en el que los archivos están online, para Google son restreables y por consiguiente indexables. El error típico en estos casos es no configurar un archivo robots.txt indicando a los restradores que no accedan y el resultado es la indexación de páginas en desarrollo con contenido que difícilmente nos va a interesar que se indexe.

¿Como crear el archivo robots.txt?

Vista la importancia que tiene el uso del archivo robots.txt ya no debes plantearte si lo vas a instalar en tus paginas web o no, es imperativo que lo hagas. Si no sabes como se crea un archivo robots.txt debes saber que dentro de las tareas de posicionamiento y/o de SEO orgánico es un procedimiento de los más fácil que te va a encontrar.  Tan sencillo como abrir un blog de notas y guardarlo con el nombre «robots.txt», luego, lo subes en la raíz de de ficheros de tu página web y listo, ya tienes tu archivo robots.txt creado.

Directivas del archivo robots.txt

Debes saber que si creas un archivo robots.txt vacío y lo subes al servidor para el rastrador del buscador es lo mismo que si no hicieras nada. Al no encontrarse ninguna directiva que le indique a donde debe acceder y a donde no, el rastreador entenderá que puede entrar en la totalidad de ficheros de la página web.

Bien, llega el momento de que codifiques el archivo robots.txt de tu página web. Lo que debes hacer ahora es tener claro qué es lo que quieres que se indexe y qué no. Luego, sólo deberás tener en cuenta tres instrucciones básicas que puedes implementar y que en el argot técnico de los SEO se hacen llamar «directivas»

Directiva «User-agent»: con la que podemos indicar a los rastreadores que  cuales de ellos queremos que accedan a nuestra página web o no.
Ejemplo de directiva «User-agent»: User-agent: Googlebot
En este ejemplo lo que estamos haciendo es indicar a los ratreadores que el único que puede pasar a ver nuestra web es el señor «Googleboot» que como es obvio se trata del rastreador de Google.

Directiva «Allow»: con la que le decimos a los rastreadores que SI pueden acceder a los archivos que indiquemos a continuación con la siguiente estructura.
Ejemplo de directiva «Allow»: Allow: /assets/
En este ejemplo le decimos a los rastreadores que pueden acceder al directorio «assets» de nuestra página web.

Directiva «Disallow»: con la que indicamos a los rastreadores a qué archivos NO queremos que accedan con la siguiente estructura: Ejemplo de directiva «Diasalow»: Disalow: /assets/
En este ejemplo le decimos a los rastreadores que no pueden acceder al directorio «assets» de nuestra página web.

Debes saber que algo que utiliza casi todo el mundo es un » * » en la directiva «User-agent», ya que, con esa indicación lo que estamos haciendo es dar paso a todos los rastreadores habidos y pos haber que en principio es el objetivo de cualquier buena página web que se precie.  Ejemplo: User-agent: *

Volviendo al ejemplo que os decía antes, por tanto, si estamos en el proceso de desarrollo y no queremos que se indexe aún nada de nuestro proyecto, lo primero que hay que hacer es crear un archivo robots.txt en la raíz de ficheros e indicar las directivas siguientes:
User-agent: *
Disalow: /
Donde con el asterisco indicamos que cualquier rastreador pueda entrar a nuestra web, y con  la barra impedimos el acceso al directorio principal, luego, a toda la web.

El robots.txt en Search Console

Una vez más, la herramienta para webmsters de Google Search Console va muy bien porque puedes ir a la sección del archivo robots.txt y hacer una prueba. La herramienta te indica si hay errores o si y esta forma podemos saber si hemos generado correctamente el archivo.

el archivo robots.txt en Search Console

El archivo robots.txt en WordPress

Si tu página web esta creada con el gestor de contenidos WordPress no te vuelvas loco buscando el archivo robots.txt en la raíz de los archivos del sitio. En este caso la aplicación web lo lleva intrínseco en su codificación y para editarlo debemos hacer uso de plugins que nos den acceso.

Si en tu panel de administración accedes a «Ajustes / Lectura», veras que hay una casilla de vericación con la etiqueta «Disuade a los motores de búsqueda de indexar este sitio». Bien, si la marcamos y guardamos, lo que estamos haciendo es precisamente lo que comentaba antes, poner el «Disallow: /» en el archivo robots.txt para que el rastreador no acceda.

Debo decir que aún así, y rara vez, el rastreador a entrado y me ha indexado contenido, poco, pero lo ha hecho: misterios de Google.

Pues esto sería todo, si aún tenéis alguna duda más, podéis dejarme un mensaje en el formulario de contacto.

0
Facebook Twitter Google + Pinterest

Esto, también te interesa ...

Redirecciones Permanent (301) en Servidores NGNIX

febrero 13, 2018

Añadir atributo alt en todas las imágenes de...

julio 25, 2018

Web en WordPress

marzo 11, 2018

PHP: CAMBIOS EN LA WEB SÓLO VISTOS POR...

febrero 12, 2018

Keyword o palabra clave: qué es y por...

junio 22, 2019

Obtener idioma actual con Polylang y discriminar.

febrero 20, 2018

Seguridad WordPress: blindaje de protección para tu sitio...

junio 2, 2019

Tawk. Un Web Chat fantástico para tu página...

mayo 24, 2020

WordPress: plugin para reemplazar texto previo respaldo

febrero 25, 2018

Redireccionar a versión móvil con htaccess

marzo 30, 2018

Dejar comentario Cancelar

Hola … ¿Qué tal?

Hola … ¿Qué tal?

Realizador y Frontend. Siempre en Beta.

Vídeo, Cine, Foto, Web, SEO, Community Managment ... Aprendiendo cada día del maravilloso mundo de la comunicación digital.
- Carles Trujillo Diaz -




Contacta conmigo

Acepto el uso que se va a dar a mis datos

A cerca del uso de datos enviados con éste formulario

Nos vemos en las redes

Facebook Twitter Instagram Linkedin Behance

A cerca de mi

banner
Soy técnico informático y realizador audiovisual. La web me cautiva y el cine me apasiona.

Lo más leído

  • 1

    Añadir atributo alt en todas las imágenes de tus productos de Woocomerce automáticamente

    julio 25, 2018
  • 2

    Redireccionar a versión móvil con htaccess

    marzo 30, 2018
  • 3

    La cuadrícula en Visual Composer, plugin de WordPress

    marzo 1, 2018
  • Facebook
  • Twitter
  • Instagram
  • Linkedin
  • Behance

@2018 - Todos los derechos reservados


Volver arriba

Te explico como se van a utilizar tus datos personales …

 

En cumplimiento de lo que se dispone en el artículo 5 de la Ley Orgánica 15/1999, de 13 de diciembre, de Protección de Datos de Carácter Personal, es mi obligación informarte cómo van a ser tratados los datos que me envías en el presente formulario.

carlestrujillodiaz.info te informa que los datos de carácter personal que proporciones al rellenar y enviar el formulario NO serán guardados en ningún tipo de fichero y/o base de datos específico que registre los envíos de formulario.

El mensaje enviado desde el formulario será recibido en la cuenta de correo catrlestrujillodiaz@gmail.com con la única intención de poder dar respuesta a quien genera una consulta.

Los correos electrónicos y el hilo de comunicación que hayan podido generar se encontrarán únicamente archivados en el sistema cliente de correo para, de esta forma, poder gestionar la comunicación de forma eficaz.

En los casos de que se produzca una solicitud de servicios, tus datos pueden ser cedidos a colaboradores de Carles Trujillo Diaz que pueden desarrollar dichos servicios por cuenta del responsable, exclusivamente con la finalidad descrita.

El hecho de que no introduzcas los datos de carácter personal que aparecen en el formulario como obligatorios podrá tener como consecuencia que no pueda atender tu solicitud.

Podrás ejercer tus derechos de acceso, rectificación, cancelación y oposición al tratamiento de sus datos personales, en los términos y en las condiciones previstos en la LOPD dirigiéndote a la dirección carlestrujillodiaz@gmail.com indicando en asunto: “Protección de datos”

Te explico como se van a utilizar tus datos personales …

 

En cumplimiento de lo que se dispone en el artículo 5 de la Ley Orgánica 15/1999, de 13 de diciembre, de Protección de Datos de Carácter Personal, es mi obligación informarte cómo van a ser tratados los datos que me envías en el presente formulario.

carlestrujillodiaz.info te informa que los datos de carácter personal que proporciones al rellenar y enviar el formulario NO serán guardados en ningún tipo de fichero y/o base de datos específico que registre los envíos de formulario.

El mensaje enviado desde el formulario será recibido en la cuenta de correo catrlestrujillodiaz@gmail.com con la única intención de poder dar respuesta a quien genera una consulta.

Los correos electrónicos y el hilo de comunicación que hayan podido generar se encontrarán únicamente archivados en el sistema cliente de correo para, de esta forma, poder gestionar la comunicación de forma eficaz.

En los casos de que se produzca una solicitud de servicios, tus datos pueden ser cedidos a colaboradores de Carles Trujillo Diaz que pueden desarrollar dichos servicios por cuenta del responsable, exclusivamente con la finalidad descrita.

El hecho de que no introduzcas los datos de carácter personal que aparecen en el formulario como obligatorios podrá tener como consecuencia que no pueda atender tu solicitud.

Podrás ejercer tus derechos de acceso, rectificación, cancelación y oposición al tratamiento de sus datos personales, en los términos y en las condiciones previstos en la LOPD dirigiéndote a la dirección carlestrujillodiaz@gmail.com indicando en asunto: “Protección de datos”