Cómo evitar el contenido duplicado para evitar penalizaciones en los buscadores.

Después de los últimos cambios, nos hemos dado cuenta de que los buscadores se están poniendo duros con los varemos para decidir si una web es buena o no y por consiguiente otorgarle una mejor o peor posición en los resultados de búsqueda.

Uno de los factores que más están penalizando es el tema del contenido duplicado. A raíz de los cambios en Google con la actualización denominada Panda, son muchas webs las que han caído a los fondos del abismo de sus resultados debido a esta penalización.

contenido duplicado pandaMuchas de estas webs son las que se estaban poniendo de moda, es decir, creas un blog, le instalas un par de plugins y ves cómo crece día a día gracias al contenido que se copia automáticamente de otras páginas web de la temática que tú elijas. Esas páginas tuvieron su tiempo de gloria, pero después de estas actualizaciones en los algoritmos, la mayoría de ellas desaparecieron de las búsquedas.

Pero no todas las webs penalizadas por contenido duplicado son debido a prácticas conscientes como la que he descrito arriba, sino que hay algunas webs que se han visto penalizadas debido a situaciones que el administrador de la misma no tenía controladas. Ahí es donde entra la importancia de tomar acciones contra el contenido duplicado que el propio gestor de contenidos del blog genera (en este caso me centraré en WordPress).

Os diré un ejemplo de donde puede pasar esto:

Imagínate que tienes una categoría que se llama «ganar dinero», y luego tienes un tag (etiqueta) que se llama «qustodian». También imaginemos que el blog está empezando y en esa categoría y etiqueta solo tienes un artículo.

En este caso, el contenido de la dirección

www.<nombre_blog>.com/categoria/ganar_dinero/…..

Sería el mismo que el de:

www.<nombre_blog>.com/tag/qustodian/….

Todo esto depende claramente de cómo tengas definidas las URL, pero es muy probable que muchos de vosotros las tengáis de esta forma.

Al igual que este caso se pueden dar muchas situaciones similares como por ejemplo en las páginas donde se muestran los archivos (post escritos en una fecha) o las búsquedas si usas algún formulario de búsquedas en el blog. Todas esas páginas podrían devolver resultados similares haciendo que puedan ser consideradas como contenido duplicado.

Es por eso que es importante tener todo esto en cuenta y evitar que pase.

Para eso toma un papel importante el archivo robots.txt que es el primero que leerán los navegadores para ver qué pueden y qué no pueden ver. Es ahí donde tendrás que tomar medidas para evitar que el contenido de tu propia web (que puede ser todo lo original que quieras sin haber copiado ni dos palabras de otra web) tenga penalizaciones de contenido duplicado.

Configuración optima de robots.txt

Si hablamos de cuál serían entonces las instrucciones que le daríamos a los buscadores sobre lo que pueden ver y lo que no, habrá muchas opiniones distintas al respecto. En este caso os voy a poner el archivo robots.txt que he obtenido de un artículo del blog sigt.net. Lo copio igual que está en el artículo citado para que lo tengáis también desde aquí.

Esta es la configuración del robots.txt que recomiendan desde esa página. Yo mismo lo he puesto así en mis blogs para probar si los resultados mejoran, sobretodo después del último cambio que tuvo lugar ayer en el algoritmo de Google que hizo que muchas webs bajáramos estrepitosamente en el número de visitas.

Este es el robots.txt recomendado por sigt.net:

#
# robots.txt para tu blog en WordPress.
#
# Usar bajo propia responsabilidad, que nos conocemos }:)
# http://www.sigt.net/desarrollo-web/robotstxt-para-wordpress.html
#

# Primero el contenido adjunto.

User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/
Disallow: /wp-admin/

# También podemos desindexar todo lo que empiece
# por wp-. Es lo mismo que los Disallow de arriba pero
# incluye cosas como wp-rss.php

Disallow: /wp-

#
# Sitemap permitido, búsquedas no.
#

Sitemap: http://tu-web/sitemap.xml
Disallow: /?s=
Disallow: /search

#
# Permitimos el feed general para Google Blogsearch.
#
# Impedimos que permalink/feed/ sea indexado ya que el
# feed con los comentarios suele posicionarse en lugar de
# la entrada y desorienta a los usuarios.
#
# Lo mismo con URLs terminadas en /trackback/ que sólo
# sirven como Trackback URI (y son contenido duplicado).
#

Allow: /feed/$
Disallow: /feed
Disallow: /comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$
Disallow: /tag/
Disallow: /archivo
#
# A partir de aquí es opcional pero recomendado.
#

# Lista de bots que suelen respetar el robots.txt pero rara
# vez hacen un buen uso del sitio y abusan bastante...
# Añadir al gusto del consumidor...

User-agent: MSIECrawler
Disallow: /

User-agent: WebCopier
Disallow: /

User-agent: HTTrack
Disallow: /

User-agent: Microsoft.URL.Control
Disallow: /

User-agent: libwww
Disallow: /

#
# Slurp (Yahoo!), Noxtrum y el bot de MSN a veces tienen
# idas de pinza, toca decirles que reduzcan la marcha.
# El valor es en segundos y podéis dejarlo bajo e ir
# subiendo hasta el punto óptimo.
#

User-agent: noxtrumbot
Crawl-delay: 50

User-agent: msnbot
Crawl-delay: 30

User-agent: Slurp
Crawl-delay: 10

A este le he añadido yo las dos opciones que veis en negrita. En el artículo del que he extraído esta configuración, marcan que el tema de los tags y las categorías prefieren tratarlo a través de la meta keywords, pero en mi caso también lo voy a tratar desde el robots.txt. Acordaos también de modificar la línea en negrita Sitemap: http://tu-web/sitemap.xml con la url de tu web.

Con eso dejo claro que lo que Google podrá indexar serán las categorías, pero no indexará los tags ya que estos los dejaré solamente por si pueden mejorar la usabilidad del lector, no por temas de indexación para evitar contenido duplicado con las categorías. También he suprimido la indexación de los resultados de búsqueda y de los archivos.

Podéis ver comentarios en el código sobre lo que hace cada una de las instrucciones.

Resumiendo, lo que trato con esta configuración del robots.txt, es que los buscadores solo indexen los artículos en si, la home, y las direcciones de las categorías. El resto será bloqueado para evitar que se detecte contenido duplicado.

¿Cómo puedo modificar el archivo robots.txt de mi WordPress?

Modificar el archivo robots.txt para añadir una configuración como la que he citado en este artículo será muy fácil.

La forma más fácil será instalar un plugin para poder editarlo desde el panel de control de tu blog.

El plugin que tengo yo en estos momentos, aunque hay miles para esta función, se llama «KB robots.txt» y lo podéis encontrar en: KB robots.txt plugin.

Un truco para poder ver las páginas que Google está indexando sobre tu blog y así poder ver si tienes que tomar acciones o no, es poner la siguiente búsqueda en el buscador:

site:<nombre_de_tu_blog>

Ahí verás lo que está indexado en estos momentos del mismo.

¿Habéis notado también grandes bajadas o subidas después del cambio más reciente de Google?

Si te parece interesante el artículo te invito a que lo compartas en Twitter:

2.5/5 - (2 votos)

Esta entrada tiene 15 comentarios


  1. Notice: Only variables should be assigned by reference in /home/monetizados/web/monetizados.com/public_html/wp-content/plugins/subscribe-to-comments/subscribe-to-comments.php on line 590
    MarMassHD

    Interesante post, no lo sabia y me va a ayudar mucho en el futuro. Muchas gracias!


    1. Notice: Only variables should be assigned by reference in /home/monetizados/web/monetizados.com/public_html/wp-content/plugins/subscribe-to-comments/subscribe-to-comments.php on line 590
      Javier Elices

      Hola! Me alegro que te haya parecido útil!

      La verdad es que los buscadores se están poniendo serios y cada vez hay que estar más finos en todo este tipo de cosas… ya no perdonan ni una!

      Saludos!


      1. Notice: Only variables should be assigned by reference in /home/monetizados/web/monetizados.com/public_html/wp-content/plugins/subscribe-to-comments/subscribe-to-comments.php on line 590
        MarMassHD

        Vale, me ha asaltado una duda. Una vez que ya tenemos instalado el robots.txt (con el plugin ese que recomendaste). ¿Ya estaria todo correctamente configurado o bien hay que añadir la etiqueta meta robots a el header del blog para que el navegador lea el robots.txt?

        Al googlearlo creo haber entendido que no pero prefiero confirmacion por tu parte 😉

        Saludos!


        1. Notice: Only variables should be assigned by reference in /home/monetizados/web/monetizados.com/public_html/wp-content/plugins/subscribe-to-comments/subscribe-to-comments.php on line 590
          Javier Elices

          Hola!

          No, al modificarlo desde el plugin ya estaría todo en orden. Si te fijas, si entras en la URL http:///robots.txt verás que aparece lo que has configurado con el plugin.

          Este será el primer archivo que leerán los buscadores al entrar en tu página ya que es el que les indica lo que pueden y lo que no pueden leer.

          Por tanto, una vez escribas lo que sea a través del KB Robots.txt (o cualquier otro plugin) ya estará todo.

          Saludos!

          PD: Acuérdate de cambiar la línea en el código (si has usado el que he puesto):

          Sitemap: http://tu-web/sitemap.xml

          poniendo el código de tu web. Sino te saltará una alarma en Google webmasters tool como me ha pasado con uno de mis blogs.


        2. Notice: Only variables should be assigned by reference in /home/monetizados/web/monetizados.com/public_html/wp-content/plugins/subscribe-to-comments/subscribe-to-comments.php on line 590
          MarMassHD

          Muchas gracias duda solucionada!

          P.D: Si, ya revise todo el codigo y lo moldee a mi manera un poco.

          Saludos!


  2. Notice: Only variables should be assigned by reference in /home/monetizados/web/monetizados.com/public_html/wp-content/plugins/subscribe-to-comments/subscribe-to-comments.php on line 590
    juan modesto rodriguez

    Algo complicado para un novato, pero muy instructivo y eficaz, es cuestion de tiempo.


    1. Notice: Only variables should be assigned by reference in /home/monetizados/web/monetizados.com/public_html/wp-content/plugins/subscribe-to-comments/subscribe-to-comments.php on line 590
      Javier Elices

      Gracias por el comentario Juan!


  3. Notice: Only variables should be assigned by reference in /home/monetizados/web/monetizados.com/public_html/wp-content/plugins/subscribe-to-comments/subscribe-to-comments.php on line 590
    extrasueldo

    Impresioannte post, un poco de eso puede ser que mi pagina de repente no se vea ne los buscadores, y tengo menos visitas que un cementerio..
    En fin..
    Gracias tio


    1. Notice: Only variables should be assigned by reference in /home/monetizados/web/monetizados.com/public_html/wp-content/plugins/subscribe-to-comments/subscribe-to-comments.php on line 590
      Javier Elices

      Si, hay que tener todas estas cosillas pendientes ahora que se están poniendo duros los buscadores.

      Me alegro que te haya parecido interesante!

      Un saludo


  4. Notice: Only variables should be assigned by reference in /home/monetizados/web/monetizados.com/public_html/wp-content/plugins/subscribe-to-comments/subscribe-to-comments.php on line 590
    extrasueldo

    ya te contare, aveces pienso que es mi servidor comprado..weebly el que no hace bien las cosas…hoy estoy desanimado..aver si me animo para darle una inyeccion a mi pagina


    1. Notice: Only variables should be assigned by reference in /home/monetizados/web/monetizados.com/public_html/wp-content/plugins/subscribe-to-comments/subscribe-to-comments.php on line 590
      Javier Elices

      Buenas! Muchas veces un servidor u otro marcan la diferencia entre que una página vaya bien o no en los buscadores, sobretodo cuando la velocidad de carga es uno de los factores importantes…

      De todas formas también se están teniendo muy en cuenta otro tipo de cosas como, por ejemplo, el exceso de publicidad. Si entras en tu web se ven gran cantidad de banners… así que es posible que eso pueda ser una razón para perder posicionamiento.

      A lo mejor deberías dar un repasillo a ese tema.

      Un saludo y suerte!


  5. Notice: Only variables should be assigned by reference in /home/monetizados/web/monetizados.com/public_html/wp-content/plugins/subscribe-to-comments/subscribe-to-comments.php on line 590
    Fares Kameli (@FaresKameli)

    RT @dinerofacilxati: Cómo evitar el contenido duplicado para evitar penalizaciones en los buscadores. http://t.co/gctS0cPc


  6. Notice: Only variables should be assigned by reference in /home/monetizados/web/monetizados.com/public_html/wp-content/plugins/subscribe-to-comments/subscribe-to-comments.php on line 590
    Susysev Kosas (@Susysev)

    RT @dinerofacilxati: Cómo evitar el contenido duplicado para evitar penalizaciones en los buscadores. http://t.co/JhauJEA2 #Trucos_Blogs


  7. Notice: Only variables should be assigned by reference in /home/monetizados/web/monetizados.com/public_html/wp-content/plugins/subscribe-to-comments/subscribe-to-comments.php on line 590
    Rue&Chuck*Melvin* (@Parawhore_6277)

    RT @dinerofacilxati: Cómo evitar el contenido duplicado para evitar penalizaciones en los buscadores. http://t.co/JhauJEA2 #Trucos_Blogs


  8. Notice: Only variables should be assigned by reference in /home/monetizados/web/monetizados.com/public_html/wp-content/plugins/subscribe-to-comments/subscribe-to-comments.php on line 590
    quickbooks, accountant

    los contenidos duplicados, pueden ser penalizados por google, deben ser revisados con sumo cuidado y no repetir, asi como los robots.txt, configurados sencillamente

Deja una respuesta

  Acepto la política de privacidad