Si te dedicas al mundo del SEO, es probable que te hayas encontrado en la situación de tener que lidiar con uno de los problemas más comunes que afecta al posicionamiento en buscadores y que puede incurrir en penalizaciones: el contenido duplicado. Los motores de búsqueda como Google, Bing, o Yahoo, tienen como objetivo principal mostrar la información más relevante para las intenciones de búsqueda de los usuarios. Para ello, rankean en orden descendente premiando el contenido original y de calidad y penalizando el contenido que ha sido copiado, duplicado, que es irrelevante o que ha sido manipulado para posicionar más alto en las páginas de resultados.
En este artículo vamos a dar a conocer qué es el contenido duplicado, cómo podemos detectarlo y corregirlo, su impacto en SEO y las herramientas que podemos utilizar para trabajarlo. ¿Nos acompañas? ¡Comencemos! ?
Índice de Contenidos
¿Qué es el contenido duplicado?
Como ya hemos comentado, los buscadores como Google penalizan aquellas páginas que poseen contenido duplicado, lo que se interpreta como dos páginas con URLs diferentes pero con el mismo contenido. Por ello, hay que evitar en la medida de lo posible, copiar contenidos de otro sitio web y pegarlos en nuestro site (¡Nos ahorraremos muchos quebraderos de cabeza con Google y posibles acciones legales con los responsables de los sitios web de donde lo hemos extraído!?).
Consejo de SEO Alive: Como agencia experta en posicionamiento en buscadores, te recomendamos encarecidamente que cuides el contenido de tu web y no incurras en esta mala praxis. Sé paciente y perseverante, escribe contenido original y los resultados llegarán más pronto que tarde.
En este sentido, Google es muy claro acerca de su posición al respecto, tal y como podemos ver en su documentación oficial sobre contenido duplicado por lo que deberemos ser muy cuidadosos con el contenido que escribimos.
En posicionamiento SEO, podemos distinguir dos tipos de contenido duplicado: contenido duplicado interno y externo.
Contenido duplicado interno
Este tipo de contenido duplicado, tiene lugar generalmente por una mala implementación de los parámetros de las URLs o de la mala gestión de las taxonomías en categorías y etiquetas. Las posibles causas que pueden generar contenido duplicado interno son:
- Errores en la creación de categorías y tags: Este error es común en blogs donde existen un listado amplio de artículos y se crean categorías y etiquetas sin orden y concierto alguno. Veamos un ejemplo:
Imaginemos que tenemos un blog de marketing digital con varias categorías:
https://miblogdigital.com/categoría-a/tema/
https://miblogdigital.com/categoría-b/tema/
https://miblogdigital.com/categoría-c/tema/
Para evitar el contenido duplicado, es necesario que se marque cual es la principal y las otras dos canonicalicen a la URL principal.
- Dominios «no-www» vs «www» y «http» vs «https»: Este es otro error al que debemos prestar atención. Es posible que si no hemos especificado a los motores de búsqueda cuál es el dominio canónico, estos pueden acceder a las otras versiones y dar lugar a contenido duplicado. Por tanto, desde SEO Alive, te recomendamos que establezcas cuál va a ser tu dominio canónico y prepares redirecciones 301 a la que vaya ser la versión preferida.
- URLs parametrizadas: Este error es común en sitios web de ecommerce donde las URLs con parámetros permiten hacer un filtro para ofrecer la información a los usuarios. Supongamos que tenemos un site de venta de relojes y la siguiente URL:
https://www.mitiendaderelojes.com/relojes/garmin?color=negro
Esta página mostraría todos los relojes modelo «Garmin» de color negro.
La posibilidad de poder establecer filtros en las páginas, puede ser un serio inconveniente si no se gestiona bien, ya que los motores de búsqueda pueden mostrar varias combinaciones de URLs:
https://www.mitiendaderelojes.com/relojes/garmin?color=negro&type=deportivo
https://www.mitiendaderelojes.com/relojes/garmin?type=deportivo&color=negro
Por lo tanto, desde SEO Alive te recomendamos que establezcas la versión canónica a la página sin filtros para que el resto de URLs con parámetros conserven su autorídad de página (URL Ratio).
Contenido duplicado externo
El contenido duplicado externo, hace referencia a todo aquel contenido que es extraído, copiado total o parcialmente de uno o varios sitios webs de diferentes webmasters o administradores.
Se trata de de una práctica considerada como spam a los ojos de los buscadores, por tanto como hemos comentado al principio del artículo, hay que evitarlo a toda costa.
Otra de las causas de contenido duplicado externo, puede deberse a estrategias de sindicalización, en las que los sitios webs envían tráfico a otros sitios con el fin de manipular a los buscadores. El algoritmo de Google es lo suficientemente inteligente para detectar en la actualidad este tipo de prácticas.
¿Cómo podemos comprobar si nuestra web tiene contenido duplicado?
Saber cómo detectar contenido duplicado tiene una importancia crucial en la estrategia de contenidos de un sitio web. Si no controlamos este factor, caemos en el riesgo de que nuestras páginas se vayan diluyendo de los primeros resultados en Google, ya que este, depura continuamente las SERP’s en busca de contenidos originales y de calidad. Por ello, vamos a exponer un ejemplo de cómo podríamos detectar contenido en nuestro sitio web y daremos algunas estrategias para evitar este tipo de contenido.
Supongamos que tenemos una tienda online (ecommerce) donde tenemos una versión imprimible de cada una de las páginas de producto. Esto se considera duplicado al tener dos «versiones» del mismo contenido bajo URLs diferentes:
Página de ficha de producto: https://misitioweb.com/producto3560
Página versión imprimible: https://misitioweb.com/producto3560_imprimir
Para evitar este tipo de contenido duplicado podemos aplicar las siguientes estrategias:
Estrategia #1: Uso de redireccionamientos 301
Si hemos reestructurado nuestro sitio web, podemos efectuar redireccionamientos 301 (redirecciones permanentes) a través de plugins de SEO que incluyen los distintos repositorios de los gestores de contenido (CMS), o mediante el archivo .htaccess, para redireccionar de forma inteligente a los usuarios, a los bots de los buscadores y a otras herramientas que cuenten con funcionalidad de crawler.
Estrategia #2: Uso de la etiqueta canonical
La etiqueta rel=»canonical» se utiliza para decirle a los buscadores cuál es la página original (versión canónica) y cuales son las páginas que son una copia. De esta manera, la araña de los buscadores, centrará el crawl budget de indexación en esa página marcada con esta metaetiqueta.
Para utilizar la etiqueta canonical, primero hemos de elegir qué pagina queremos que sea la que muestren los buscadores y añadir en el código HTML en la sección </head> la siguiente línea (Veamos un ejemplo de canonical en una página de producto en la web de zalando):
<link rel=»canonical» ahref= «https://www.zalando.es/adidas-originals-stripe-circle-camiseta-estampada-white-ad121000k-a11.html»/>
Por ejemplo, si en una URL mostramos los detalles de un producto y en otra URL mostramos los mismos detalles con colores distintos, podemos indicarle a Google cual es la URL canónica que queremos mostrar a los usuarios.
Estrategia #3: Uso del archivo robots.txt
A través de la edición de este archivo podemos indicarle a los bots de los buscadores que no rastreen determinadas páginas o secciones de nuestro sitio web. Imaginemos que tenemos las siguientes páginas de producto en nuestro sitio web:
https://www.misitioweb.com/categoría/pagina-producto.html/
https://www.misitioweb.com/categoría/pagina-producto1.html/ (versión con contenido duplicado)
Con las siguiente directiva en el fichero robots.txt:
- Disallow /pagina-producto.1html/
Podemos evitar que se produjera contenido duplicado, además por supuesto estableciendo como versión canónica la primera de las URLs.
Impacto del contenido duplicado en posicionamiento SEO
Tras la aparición y liberación de la primera versión del algoritmo Google Panda allá por 2011, que penalizaba aquellos dominios con thin content y contenido duplicado, Matt Cutts publicó un vídeo en 2013 acerca de cómo maneja Google el contenido duplicado y qué efectos negativos puede tener en las clasificaciones de los rankings desde una perspectiva de SEO:
Las conclusiones que podemos extraer del vídeo de Matt Cutts, son que a pesar de que según Google, el 25-30% de la web es contenido duplicado, el buscador no lo trata directamente como Spam a no ser que la intención sea la de crear o copiar contenido de manera fraudulenta y en grandes cantidades o manipular directamente las posiciones en las páginas de resultados con tácticas «black hat».
En definitiva, crear este tipo de contenido puede generar señales de mala calidad a los motores de búsqueda como Google, además de suponer una barrera en la consolidación de las métricas de enlaces (tales como la autoridad, la relevancia o la confianza) del contenido, desde el punto de vista de los enlaces externos (backlinks) que pueden enlazar a versiones distintas de ese contenido.
Herramientas para detectar contenido duplicado
A la hora de detectar contenido duplicado, existen en el mercado un sinfín de herramientas que nos pueden facilitar esta labor. ¡Vamos a verlas! ?
Herramientas para detectar contenido duplicado en nuestra web
- Ahrefs: Con Ahrefs podremos ver dentro de la funcionalidad «site audit» y siempre que hayamos añadido un proyecto para auditoría SEO, si nuestro sitio web presenta o no contenido duplicado. Para ello iremos a la pestaña «duplicate content». Una vez allí, se nos mostrará una gráfica donde podremos identificar los posibles errores que tengamos que corregir:
- Screaming Frog: Con este software-crawler bien conocido por todos, también es posible detectar contenido duplicado. Para ello tendremos que introducir un dominio para scrapear y exportar los datos «internal» a formato .csv. Una vez en la hoja de cálculo, podrás ver, ordenar y filtrar qué paginas tienen titles, metadescription, headers…duplicados.
Consejo de SEO Alive: Establece mediante reglas de formato condicional en tu hoja de cálculo, cuales van a ser las URLs que vas a corregir en función del nivel de contenido duplicado que tengas y la importancia y relevancia de cada una de las páginas.
- Safecont: Esta herramienta es realmente interesante ya que está enfocada exclusivamente en análisis de contenido y utiliza «machine learning» para detectar y encontrar clústers y similitudes de contenido. Es bastante completa, y su uso puede darnos mucho beneficios si queremos detectar contenido duplicado en nuestra web.
Herramientas para detectar contenido duplicado de otra web
- Copyscape: Si queremos saber si un contenido es duplicado con respecto a otra web, Copyscape es un buscador especializado en detectar páginas web que plagian contenidos. En este buscador sólo se debe introducir la URL en la que se aloja el contenido que deseamos comprobar, y la herramienta nos devuelve las páginas que comparten ese contenido ordenado de mayor a menor medida.
- Plagium: Se trata de otra herramienta muy parecida a Copyscape, con la diferencia de que tenemos que introducir el texto a comprobar en vez de la URL dentro de la misma. Hay que reseñar que tiene una versión de pago, por lo que la versión «free» tiene un límite de hasta 5.000 caracteres de comprobación.
Conclusiones
En SEO Alive somos una agencia 100% «White Hat SEO«, por lo que nuestra recomendación llegados al final del artículo, es que evites en todo momento el contenido duplicado. Si detectas que en tu web hay este tipo de contenido, apóyate en todas las estrategias y consejos que te hemos proporcionado. ? Recuerda: ¡A Google le gusta el contenido original y de calidad!
Y tú, ¿Has tenido alguna mala experiencia con contenido duplicado o has sufrido alguna penalización por ello? ¿Cómo lo has solventado? ¡Cuéntanoslo si te apetece, en la caja de comentarios! Estaremos encantados de responderte. ¡Hasta la próxima!
6 comentarios en «¿Cómo detectar y solucionar el contenido duplicado?»
Sencillamente fantástico, entendible, bien redactado.
¡Muchísimas gracias por tus comentarios, Alejandro! Esperamos que te haya sido de utilidad 🙂
Un saludo
Hola:
Por ejemplo este comentario lo he posteado en varias páginas, eso afecta esta página?
En caso de páginas de anuncios clasificados, se deben indexar?, ésto, debido a que los anunciantes hacen ‘copy-paste’ en título y/o descripción para vender servicios o productos.
Gracias
¡Gracias por tus preguntas Germán!
1) Comentario: no afecta ya que Google sabe que es un comentario y por eso no afectará en nada al rendimiento de este artículo en los resultados de búsqueda.
2) Anuncios clasificados: Aunque a veces puede fallar, Google sabe perfectamente cuando un contenido está duplicado de otra página y no tan solo puede no posicionarlo bien sino además, la web se juegan una penalización por contenido duplicado y una posible demanda en caso de que sea una web no autorizada. En cuanto a los típicos productos vendidos por muchos distribuidores, vale la pena esforzarse en crear contenido único y diferenciarse.
Un saludo y a tu disposición 🙂
Buen artículo David! tengo una pregunta, en el caso de 3 dominios, supongamos de 3 productos distintos (un producto por domino, todo distinto) pero en los 3 dominios la página de «Quienes somos» es idéntica (misma empresa) ¿Esto está penalizado por google como contenido duplicado?
Si solo fuera esa página, no habría problema Diego 🙂