Cómo evitar el contenido duplicado para evitar penalizaciones en los buscadores.

Autor de la entrada:Javier Elices
Publicación de la entrada:04/26/2012
Categoría de la entrada:Herramientas y estrategias de monetización
Comentarios de la entrada:15 comentarios

Después de los últimos cambios, nos hemos dado cuenta de que los buscadores se están poniendo duros con los varemos para decidir si una web es buena o no y por consiguiente otorgarle una mejor o peor posición en los resultados de búsqueda.

Uno de los factores que más están penalizando es el tema del contenido duplicado. A raíz de los cambios en Google con la actualización denominada Panda, son muchas webs las que han caído a los fondos del abismo de sus resultados debido a esta penalización.

contenido duplicado panda Muchas de estas webs son las que se estaban poniendo de moda, es decir, creas un blog, le instalas un par de plugins y ves cómo crece día a día gracias al contenido que se copia automáticamente de otras páginas web de la temática que tú elijas. Esas páginas tuvieron su tiempo de gloria, pero después de estas actualizaciones en los algoritmos, la mayoría de ellas desaparecieron de las búsquedas.

Pero no todas las webs penalizadas por contenido duplicado son debido a prácticas conscientes como la que he descrito arriba, sino que hay algunas webs que se han visto penalizadas debido a situaciones que el administrador de la misma no tenía controladas. Ahí es donde entra la importancia de tomar acciones contra el contenido duplicado que el propio gestor de contenidos del blog genera (en este caso me centraré en WordPress).

Os diré un ejemplo de donde puede pasar esto:

Imagínate que tienes una categoría que se llama «ganar dinero», y luego tienes un tag (etiqueta) que se llama «qustodian». También imaginemos que el blog está empezando y en esa categoría y etiqueta solo tienes un artículo.

En este caso, el contenido de la dirección

www.<nombre_blog>.com/categoria/ganar_dinero/…..

Sería el mismo que el de:

www.<nombre_blog>.com/tag/qustodian/….

Todo esto depende claramente de cómo tengas definidas las URL, pero es muy probable que muchos de vosotros las tengáis de esta forma.

Al igual que este caso se pueden dar muchas situaciones similares como por ejemplo en las páginas donde se muestran los archivos (post escritos en una fecha) o las búsquedas si usas algún formulario de búsquedas en el blog. Todas esas páginas podrían devolver resultados similares haciendo que puedan ser consideradas como contenido duplicado.

Es por eso que es importante tener todo esto en cuenta y evitar que pase.

Para eso toma un papel importante el archivo robots.txt que es el primero que leerán los navegadores para ver qué pueden y qué no pueden ver. Es ahí donde tendrás que tomar medidas para evitar que el contenido de tu propia web (que puede ser todo lo original que quieras sin haber copiado ni dos palabras de otra web) tenga penalizaciones de contenido duplicado.

Configuración optima de robots.txt

Si hablamos de cuál serían entonces las instrucciones que le daríamos a los buscadores sobre lo que pueden ver y lo que no, habrá muchas opiniones distintas al respecto. En este caso os voy a poner el archivo robots.txt que he obtenido de un artículo del blog sigt.net. Lo copio igual que está en el artículo citado para que lo tengáis también desde aquí.

Esta es la configuración del robots.txt que recomiendan desde esa página. Yo mismo lo he puesto así en mis blogs para probar si los resultados mejoran, sobretodo después del último cambio que tuvo lugar ayer en el algoritmo de Google que hizo que muchas webs bajáramos estrepitosamente en el número de visitas.

Este es el robots.txt recomendado por sigt.net:

#
# robots.txt para tu blog en WordPress.
#
# Usar bajo propia responsabilidad, que nos conocemos }:)
# http://www.sigt.net/desarrollo-web/robotstxt-para-wordpress.html
#

# Primero el contenido adjunto.

User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/
Disallow: /wp-admin/

# También podemos desindexar todo lo que empiece
# por wp-. Es lo mismo que los Disallow de arriba pero
# incluye cosas como wp-rss.php

Disallow: /wp-

#
# Sitemap permitido, búsquedas no.
#

Sitemap: http://tu-web/sitemap.xml
Disallow: /?s=
Disallow: /search

#
# Permitimos el feed general para Google Blogsearch.
#
# Impedimos que permalink/feed/ sea indexado ya que el
# feed con los comentarios suele posicionarse en lugar de
# la entrada y desorienta a los usuarios.
#
# Lo mismo con URLs terminadas en /trackback/ que sólo
# sirven como Trackback URI (y son contenido duplicado).
#

Allow: /feed/$
Disallow: /feed
Disallow: /comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$

Disallow: /tag/

Disallow: /archivo

#
# A partir de aquí es opcional pero recomendado.
#

# Lista de bots que suelen respetar el robots.txt pero rara
# vez hacen un buen uso del sitio y abusan bastante...
# Añadir al gusto del consumidor...

User-agent: MSIECrawler
Disallow: /

User-agent: WebCopier
Disallow: /

User-agent: HTTrack
Disallow: /

User-agent: Microsoft.URL.Control
Disallow: /

User-agent: libwww
Disallow: /

#
# Slurp (Yahoo!), Noxtrum y el bot de MSN a veces tienen
# idas de pinza, toca decirles que reduzcan la marcha.
# El valor es en segundos y podéis dejarlo bajo e ir
# subiendo hasta el punto óptimo.
#

User-agent: noxtrumbot
Crawl-delay: 50

User-agent: msnbot
Crawl-delay: 30

User-agent: Slurp
Crawl-delay: 10

A este le he añadido yo las dos opciones que veis en negrita. En el artículo del que he extraído esta configuración, marcan que el tema de los tags y las categorías prefieren tratarlo a través de la meta keywords, pero en mi caso también lo voy a tratar desde el robots.txt. Acordaos también de modificar la línea en negrita Sitemap: http://tu-web/sitemap.xml con la url de tu web.

Con eso dejo claro que lo que Google podrá indexar serán las categorías, pero no indexará los tags ya que estos los dejaré solamente por si pueden mejorar la usabilidad del lector, no por temas de indexación para evitar contenido duplicado con las categorías. También he suprimido la indexación de los resultados de búsqueda y de los archivos.

Podéis ver comentarios en el código sobre lo que hace cada una de las instrucciones.

Resumiendo, lo que trato con esta configuración del robots.txt, es que los buscadores solo indexen los artículos en si, la home, y las direcciones de las categorías. El resto será bloqueado para evitar que se detecte contenido duplicado.

¿Cómo puedo modificar el archivo robots.txt de mi WordPress?

Modificar el archivo robots.txt para añadir una configuración como la que he citado en este artículo será muy fácil.

La forma más fácil será instalar un plugin para poder editarlo desde el panel de control de tu blog.

El plugin que tengo yo en estos momentos, aunque hay miles para esta función, se llama «KB robots.txt» y lo podéis encontrar en: KB robots.txt plugin.

Un truco para poder ver las páginas que Google está indexando sobre tu blog y así poder ver si tienes que tomar acciones o no, es poner la siguiente búsqueda en el buscador:

site:<nombre_de_tu_blog>

Ahí verás lo que está indexado en estos momentos del mismo.

¿Habéis notado también grandes bajadas o subidas después del cambio más reciente de Google?

Si te parece interesante el artículo te invito a que lo compartas en Twitter:

Cómo evitar el contenido duplicado para evitar penalizaciones en los buscadores. monetizados.com/como-e… #SEO

— JaviEN ★★ (@dinerofacilxati) mayo 22, 2012

Etiquetas: SEO, Webmasters

Javier Elices

Javier es el creador de Monetizados y La Academia de Afiliación donde se han formado algunos de los mejores Afiliados Profesionales y Gestores de Afiliados del mercado hispano. Especializado en marketing de afiliación desde el 2006. En 2017 fue el primer Hotmart Black fuera de Brasil. Ha diseñado y ejecutado la gestión de afiliados de algunos de los mayores lanzamientos en español. Como el primer lanzamiento de Formula de Lanzamiento en el mercado hispano con una facturación superior a 3 millones de dólares con el 80% de ventas generadas por más de 400 afiliados de autoridad. Gracias sus formaciones, desde el 2016, cambiado la vida de miles de personas que han conseguido aplicar estrategias de marketing de afiliación BIEN HECHO y diseñar la vida que siempre han querido.

Esta entrada tiene 15 comentarios

MarMassHD 04/26/2012 Responder

Interesante post, no lo sabia y me va a ayudar mucho en el futuro. Muchas gracias!
1. Javier Elices 04/27/2012 Responder
  
  Hola! Me alegro que te haya parecido útil!
  
  La verdad es que los buscadores se están poniendo serios y cada vez hay que estar más finos en todo este tipo de cosas… ya no perdonan ni una!
  
  Saludos!
  1. MarMassHD 04/28/2012 Responder
    
    Vale, me ha asaltado una duda. Una vez que ya tenemos instalado el robots.txt (con el plugin ese que recomendaste). ¿Ya estaria todo correctamente configurado o bien hay que añadir la etiqueta meta robots a el header del blog para que el navegador lea el robots.txt?
    
    Al googlearlo creo haber entendido que no pero prefiero confirmacion por tu parte 😉
    
    Saludos!
    1. Javier Elices 04/28/2012 Responder
      
      Hola!
      
      No, al modificarlo desde el plugin ya estaría todo en orden. Si te fijas, si entras en la URL http:///robots.txt verás que aparece lo que has configurado con el plugin.
      
      Este será el primer archivo que leerán los buscadores al entrar en tu página ya que es el que les indica lo que pueden y lo que no pueden leer.
      
      Por tanto, una vez escribas lo que sea a través del KB Robots.txt (o cualquier otro plugin) ya estará todo.
      
      Saludos!
      
      PD: Acuérdate de cambiar la línea en el código (si has usado el que he puesto):
      
      Sitemap: http://tu-web/sitemap.xml
      
      poniendo el código de tu web. Sino te saltará una alarma en Google webmasters tool como me ha pasado con uno de mis blogs.
    2. MarMassHD 04/28/2012 Responder
      
      Muchas gracias duda solucionada!
      
      P.D: Si, ya revise todo el codigo y lo moldee a mi manera un poco.
      
      Saludos!
juan modesto rodriguez 04/29/2012 Responder

Algo complicado para un novato, pero muy instructivo y eficaz, es cuestion de tiempo.
1. Javier Elices 04/30/2012 Responder
  
  Gracias por el comentario Juan!
extrasueldo 06/13/2012 Responder

Impresioannte post, un poco de eso puede ser que mi pagina de repente no se vea ne los buscadores, y tengo menos visitas que un cementerio..
En fin..
Gracias tio
1. Javier Elices 06/13/2012 Responder
  
  Si, hay que tener todas estas cosillas pendientes ahora que se están poniendo duros los buscadores.
  
  Me alegro que te haya parecido interesante!
  
  Un saludo
extrasueldo 06/13/2012 Responder

ya te contare, aveces pienso que es mi servidor comprado..weebly el que no hace bien las cosas…hoy estoy desanimado..aver si me animo para darle una inyeccion a mi pagina
1. Javier Elices 06/13/2012 Responder
  
  Buenas! Muchas veces un servidor u otro marcan la diferencia entre que una página vaya bien o no en los buscadores, sobretodo cuando la velocidad de carga es uno de los factores importantes…
  
  De todas formas también se están teniendo muy en cuenta otro tipo de cosas como, por ejemplo, el exceso de publicidad. Si entras en tu web se ven gran cantidad de banners… así que es posible que eso pueda ser una razón para perder posicionamiento.
  
  A lo mejor deberías dar un repasillo a ese tema.
  
  Un saludo y suerte!
Fares Kameli (@FaresKameli) 07/11/2012 Responder

RT @dinerofacilxati: Cómo evitar el contenido duplicado para evitar penalizaciones en los buscadores. http://t.co/gctS0cPc
Susysev Kosas (@Susysev) 07/15/2012 Responder

RT @dinerofacilxati: Cómo evitar el contenido duplicado para evitar penalizaciones en los buscadores. http://t.co/JhauJEA2 #Trucos_Blogs
Rue&Chuck*Melvin* (@Parawhore_6277) 07/22/2012 Responder

RT @dinerofacilxati: Cómo evitar el contenido duplicado para evitar penalizaciones en los buscadores. http://t.co/JhauJEA2 #Trucos_Blogs
quickbooks, accountant 10/07/2013 Responder

los contenidos duplicados, pueden ser penalizados por google, deben ser revisados con sumo cuidado y no repetir, asi como los robots.txt, configurados sencillamente

Configuración optima de robots.txt

¿Cómo puedo modificar el archivo robots.txt de mi WordPress?

Javier Elices

También podría gustarte

Regalo nuevo cupón de Adwords gratis de 100$!

GANA DINERO PULSANDO ADS CON LAS PTCS

Twitter Ads – Qué son y cómo probarlos con un bono de 50€ gratis.

Esta entrada tiene 15 comentarios

Deja una respuesta Cancelar la respuesta