¿Te imaginas tener una web que genere ingresos mes a mes?

Quiero ayudarte a que lo consigas, tengas los conocimientos que tengas. Para ello solo tienes que pulsar el siguiente botón y ahí empezará nuestro camino para hacerlo posible.

Cómo evitar el contenido duplicado para evitar penalizaciones en los buscadores.

Después de los últimos cambios, nos hemos dado cuenta de que los buscadores se están poniendo duros con los varemos para decidir si una web es buena o no y por consiguiente otorgarle una mejor o peor posición en los resultados de búsqueda.

Uno de los factores que más están penalizando es el tema del contenido duplicado. A raíz de los cambios en Google con la actualización denominada Panda, son muchas webs las que han caído a los fondos del abismo de sus resultados debido a esta penalización.

contenido duplicado pandaMuchas de estas webs son las que se estaban poniendo de moda, es decir, creas un blog, le instalas un par de plugins y ves cómo crece día a día gracias al contenido que se copia automáticamente de otras páginas web de la temática que tú elijas. Esas páginas tuvieron su tiempo de gloria, pero después de estas actualizaciones en los algoritmos, la mayoría de ellas desaparecieron de las búsquedas.

Pero no todas las webs penalizadas por contenido duplicado son debido a prácticas conscientes como la que he descrito arriba, sino que hay algunas webs que se han visto penalizadas debido a situaciones que el administrador de la misma no tenía controladas. Ahí es donde entra la importancia de tomar acciones contra el contenido duplicado que el propio gestor de contenidos del blog genera (en este caso me centraré en WordPress).

Os diré un ejemplo de donde puede pasar esto:

Imagínate que tienes una categoría que se llama “ganar dinero”, y luego tienes un tag (etiqueta) que se llama “qustodian”. También imaginemos que el blog está empezando y en esa categoría y etiqueta solo tienes un artículo.

En este caso, el contenido de la dirección

www.<nombre_blog>.com/categoria/ganar_dinero/…..

Sería el mismo que el de:

www.<nombre_blog>.com/tag/qustodian/….

Todo esto depende claramente de cómo tengas definidas las URL, pero es muy probable que muchos de vosotros las tengáis de esta forma.

Al igual que este caso se pueden dar muchas situaciones similares como por ejemplo en las páginas donde se muestran los archivos (post escritos en una fecha) o las búsquedas si usas algún formulario de búsquedas en el blog. Todas esas páginas podrían devolver resultados similares haciendo que puedan ser consideradas como contenido duplicado.

Es por eso que es importante tener todo esto en cuenta y evitar que pase.

Para eso toma un papel importante el archivo robots.txt que es el primero que leerán los navegadores para ver qué pueden y qué no pueden ver. Es ahí donde tendrás que tomar medidas para evitar que el contenido de tu propia web (que puede ser todo lo original que quieras sin haber copiado ni dos palabras de otra web) tenga penalizaciones de contenido duplicado.

Configuración optima de robots.txt

Si hablamos de cuál serían entonces las instrucciones que le daríamos a los buscadores sobre lo que pueden ver y lo que no, habrá muchas opiniones distintas al respecto. En este caso os voy a poner el archivo robots.txt que he obtenido de un artículo del blog sigt.net. Lo copio igual que está en el artículo citado para que lo tengáis también desde aquí.

Esta es la configuración del robots.txt que recomiendan desde esa página. Yo mismo lo he puesto así en mis blogs para probar si los resultados mejoran, sobretodo después del último cambio que tuvo lugar ayer en el algoritmo de Google que hizo que muchas webs bajáramos estrepitosamente en el número de visitas.

Este es el robots.txt recomendado por sigt.net:

#
# robots.txt para tu blog en WordPress.
#
# Usar bajo propia responsabilidad, que nos conocemos }:)
# http://www.sigt.net/desarrollo-web/robotstxt-para-wordpress.html
#

# Primero el contenido adjunto.

User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/
Disallow: /wp-admin/

# También podemos desindexar todo lo que empiece
# por wp-. Es lo mismo que los Disallow de arriba pero
# incluye cosas como wp-rss.php

Disallow: /wp-

#
# Sitemap permitido, búsquedas no.
#

Sitemap: http://tu-web/sitemap.xml
Disallow: /?s=
Disallow: /search

#
# Permitimos el feed general para Google Blogsearch.
#
# Impedimos que permalink/feed/ sea indexado ya que el
# feed con los comentarios suele posicionarse en lugar de
# la entrada y desorienta a los usuarios.
#
# Lo mismo con URLs terminadas en /trackback/ que sólo
# sirven como Trackback URI (y son contenido duplicado).
#

Allow: /feed/$
Disallow: /feed
Disallow: /comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$
Disallow: /tag/
Disallow: /archivo
#
# A partir de aquí es opcional pero recomendado.
#

# Lista de bots que suelen respetar el robots.txt pero rara
# vez hacen un buen uso del sitio y abusan bastante...
# Añadir al gusto del consumidor...

User-agent: MSIECrawler
Disallow: /

User-agent: WebCopier
Disallow: /

User-agent: HTTrack
Disallow: /

User-agent: Microsoft.URL.Control
Disallow: /

User-agent: libwww
Disallow: /

#
# Slurp (Yahoo!), Noxtrum y el bot de MSN a veces tienen
# idas de pinza, toca decirles que reduzcan la marcha.
# El valor es en segundos y podéis dejarlo bajo e ir
# subiendo hasta el punto óptimo.
#

User-agent: noxtrumbot
Crawl-delay: 50

User-agent: msnbot
Crawl-delay: 30

User-agent: Slurp
Crawl-delay: 10

A este le he añadido yo las dos opciones que veis en negrita. En el artículo del que he extraído esta configuración, marcan que el tema de los tags y las categorías prefieren tratarlo a través de la meta keywords, pero en mi caso también lo voy a tratar desde el robots.txt. Acordaos también de modificar la línea en negrita Sitemap: http://tu-web/sitemap.xml con la url de tu web.

Con eso dejo claro que lo que Google podrá indexar serán las categorías, pero no indexará los tags ya que estos los dejaré solamente por si pueden mejorar la usabilidad del lector, no por temas de indexación para evitar contenido duplicado con las categorías. También he suprimido la indexación de los resultados de búsqueda y de los archivos.

Podéis ver comentarios en el código sobre lo que hace cada una de las instrucciones.

Resumiendo, lo que trato con esta configuración del robots.txt, es que los buscadores solo indexen los artículos en si, la home, y las direcciones de las categorías. El resto será bloqueado para evitar que se detecte contenido duplicado.

¿Cómo puedo modificar el archivo robots.txt de mi WordPress?

Modificar el archivo robots.txt para añadir una configuración como la que he citado en este artículo será muy fácil.

La forma más fácil será instalar un plugin para poder editarlo desde el panel de control de tu blog.

El plugin que tengo yo en estos momentos, aunque hay miles para esta función, se llama “KB robots.txt” y lo podéis encontrar en: KB robots.txt plugin.

Un truco para poder ver las páginas que Google está indexando sobre tu blog y así poder ver si tienes que tomar acciones o no, es poner la siguiente búsqueda en el buscador:

site:<nombre_de_tu_blog>

Ahí verás lo que está indexado en estos momentos del mismo.

¿Habéis notado también grandes bajadas o subidas después del cambio más reciente de Google?

Si te parece interesante el artículo te invito a que lo compartas en Twitter:

Cómo evitar el contenido duplicado para evitar penalizaciones en los buscadores.
Javier Elices

Javier Elices

Después de trabajar en importantes Multinacionales como Havas Media o Telefónica, tanto en España como en otros países, decidí dar un giro a mi vida y lanzarme a lo que realmente me apasiona, que es emprender y lanzar proyectos online que generen beneficios. Todo el camino que recorro para ello, te lo cuento en el blog de Monetizados donde aprenderás cómo conseguir ingresos con tus proyectos ayudándote en los consejos SEO y las herramientas que te presentaré.

Esta entrada tiene 15 comentarios

  1. Interesante post, no lo sabia y me va a ayudar mucho en el futuro. Muchas gracias!

    1. Hola! Me alegro que te haya parecido útil!

      La verdad es que los buscadores se están poniendo serios y cada vez hay que estar más finos en todo este tipo de cosas… ya no perdonan ni una!

      Saludos!

      1. Vale, me ha asaltado una duda. Una vez que ya tenemos instalado el robots.txt (con el plugin ese que recomendaste). ¿Ya estaria todo correctamente configurado o bien hay que añadir la etiqueta meta robots a el header del blog para que el navegador lea el robots.txt?

        Al googlearlo creo haber entendido que no pero prefiero confirmacion por tu parte 😉

        Saludos!

        1. Hola!

          No, al modificarlo desde el plugin ya estaría todo en orden. Si te fijas, si entras en la URL http:///robots.txt verás que aparece lo que has configurado con el plugin.

          Este será el primer archivo que leerán los buscadores al entrar en tu página ya que es el que les indica lo que pueden y lo que no pueden leer.

          Por tanto, una vez escribas lo que sea a través del KB Robots.txt (o cualquier otro plugin) ya estará todo.

          Saludos!

          PD: Acuérdate de cambiar la línea en el código (si has usado el que he puesto):

          Sitemap: http://tu-web/sitemap.xml

          poniendo el código de tu web. Sino te saltará una alarma en Google webmasters tool como me ha pasado con uno de mis blogs.

        2. Muchas gracias duda solucionada!

          P.D: Si, ya revise todo el codigo y lo moldee a mi manera un poco.

          Saludos!

  2. Algo complicado para un novato, pero muy instructivo y eficaz, es cuestion de tiempo.

  3. Impresioannte post, un poco de eso puede ser que mi pagina de repente no se vea ne los buscadores, y tengo menos visitas que un cementerio..
    En fin..
    Gracias tio

    1. Si, hay que tener todas estas cosillas pendientes ahora que se están poniendo duros los buscadores.

      Me alegro que te haya parecido interesante!

      Un saludo

  4. ya te contare, aveces pienso que es mi servidor comprado..weebly el que no hace bien las cosas…hoy estoy desanimado..aver si me animo para darle una inyeccion a mi pagina

    1. Buenas! Muchas veces un servidor u otro marcan la diferencia entre que una página vaya bien o no en los buscadores, sobretodo cuando la velocidad de carga es uno de los factores importantes…

      De todas formas también se están teniendo muy en cuenta otro tipo de cosas como, por ejemplo, el exceso de publicidad. Si entras en tu web se ven gran cantidad de banners… así que es posible que eso pueda ser una razón para perder posicionamiento.

      A lo mejor deberías dar un repasillo a ese tema.

      Un saludo y suerte!

  5. RT @dinerofacilxati: Cómo evitar el contenido duplicado para evitar penalizaciones en los buscadores. http://t.co/gctS0cPc

  6. RT @dinerofacilxati: Cómo evitar el contenido duplicado para evitar penalizaciones en los buscadores. http://t.co/JhauJEA2 #Trucos_Blogs

  7. RT @dinerofacilxati: Cómo evitar el contenido duplicado para evitar penalizaciones en los buscadores. http://t.co/JhauJEA2 #Trucos_Blogs

  8. los contenidos duplicados, pueden ser penalizados por google, deben ser revisados con sumo cuidado y no repetir, asi como los robots.txt, configurados sencillamente

Deja un comentario

  Acepto la política de privacidad

Cerrar