Comment éviter le problème de contenu dupliqué pour Google ?
Publié: 2021-11-01Le contenu dupliqué sur une page a beaucoup en commun avec un dépassement de budget. Seulement dans ce cas, nous parlons de la diminution du « budget de confiance » dans le site du robot de recherche. Ce problème concerne de nombreux propriétaires de sites, car il peut apparaître même derrière leur dos. Après avoir lu quelque chose sur le problème du contenu dupliqué, votre site s'est transformé en une bombe à retardement. Tick Tock sur l'horloge et les sanctions de Google vous attendent.
Triste mais vrai, il y a environ 25 à 30 % de contenu dupliqué sur le Web. L'ancien Googleur Matt Cutts partage ce point de vue. Bien que le contenu en double puisse vous mettre dans un monde de problèmes avec l'optimisation des moteurs de recherche, ce n'est pas si dramatique. Il existe une solution - lisez cet article et découvrez comment éviter les problèmes de contenu en double pour Google.
- Qu'est-ce que le contenu dupliqué ?
- Faits sur le contenu dupliqué
- Quel type de contenu y a-t-il ?
- Quel est le code?
- Pages HTTPS
- Systèmes de gestion de contenu créant du contenu dupliqué
- Pages à imprimer ou plusieurs options de tri
- Contenu dupliqué dans les blogs et les systèmes d'archivage
- Contenu dupliqué généré par l'utilisateur (messages répétés, etc.)
- Conclusion
Qu'est-ce que le contenu dupliqué ?
Il existe 3 principaux types de contenu dupliqué.
- Copie exacte : deux URL ont un contenu complètement identique ;
- Contenu avec de légères différences : comme l'ordre des phrases, un peu d'images différentes, etc ;
- Doublons entre domaines : une copie exacte ou légèrement modifiée existe dans de nombreux domaines.
De plus, il existe deux concepts connexes que Google ne considère pas comme du contenu dupliqué. Mais les éditeurs et les spécialistes du référencement moins expérimentés peuvent facilement les mélanger avec du contenu en double.
- Contenu léger : Ce sont des pages avec très peu de contenu. Ensemble de pages construites sur une liste d'adresses d'organisations, qui compte 6 000 adresses, mais chaque page ne contient qu'une seule adresse : quelques lignes seulement.
- Slice content : pages qui diffèrent légèrement les unes des autres. Le site vend des chaussures Timberland disponibles dans les tailles 38, 38,5, 39, 40, 41, 42, etc. Si le site a une page distincte pour chaque pointure, il y aura une différence mineure entre toutes ces pages. Un tel effet que Google perçoit comme un contenu de tranche.
Google n'aime pas le contenu tout aussi mince et tranché. Chacun de ces effets peut être détecté par Google Panda. C'est pourquoi les éditeurs doivent éviter de créer ce type de pages.
Le contenu dupliqué peut se produire pour une multitude de raisons :
- licence du contenu de votre site ;
- défauts d'architecture du site dus à un système de gestion de contenu non optimisé pour les moteurs de recherche ;
- existence de plagiat.
Au cours des cinq dernières années, les spammeurs, avec un besoin de contenu extraordinaire, ont commencé à "arracher" du contenu à des sources légitimes, à transposer des mots en utilisant une variété de processus complexes et à placer le texte résultant sur leurs pages pour attirer des opérations de recherche "longue traîne". et montrer la publicité contextuelle et d'autres objectifs malhonnêtes. Ainsi, de nos jours, les gens vivent dans un monde de "problèmes de contenu dupliqué" et de "sanctions de contenu dupliqué".
Recommandé pour vous : 5 façons dont un bon contenu peut accélérer vos efforts de marketing.
Faits sur le contenu dupliqué
Emplacement du contenu en double
Si tout le contenu certain se trouve sur votre site, s'agit-il de contenu en double ?
Oui, car le contenu dupliqué peut se produire à la fois sur le même site et sur des sites différents.
Pourcentage de contenu en double
Quel pourcentage d'une page doit être dupliqué pour tomber sous un filtre de contenu en double ? Malheureusement, les moteurs de recherche ne rendent jamais ces informations publiques car cela affecterait leur capacité à prévenir le problème lui-même. Ce pourcentage est en constante évolution pour tous les moteurs. L'essentiel est que les pages ne doivent pas nécessairement être identiques pour être considérées comme des doublons.
Le rapport code/texte
Que faire si votre code est très volumineux, mais qu'il y a quelques éléments HTML uniques sur la page ? Google ne pensera-t-il pas que toutes les pages sont des doublons les unes des autres ?
Non. Les moteurs de recherche ne se soucient pas de votre code, mais du contenu de vos pages. La taille du code ne devient un problème que lorsqu'elle devient hors de proportion.
Le rapport éléments de navigation/contenu unique
Toutes les pages de votre site ont une grande barre de navigation, de nombreux en-têtes et pieds de page, mais très peu de contenu. Google ne considérera-t-il pas que toutes ces pages sont dupliquées ?
Non. Google considère les éléments de navigation avant même d'évaluer les pages pour la duplication.
Contenu sous licence
Vous voulez éviter le problème du contenu dupliqué. Mais que faire si vous avez du contenu provenant d'autres sources Web que vous avez autorisé à montrer à vos visiteurs ?
Utilisez meta name = "robots" content = "noindex, follow". Mettez-le dans l'en-tête de votre page, et les moteurs de recherche sauront que ce contenu n'est pas pour eux. Une autre option consiste à obtenir des droits exclusifs pour posséder et publier ce contenu.
Quel type de contenu y a-t-il ?
- Un contenu unique est écrit par une personne. Il est complètement différent de toute autre combinaison de lettres, de symboles et de mots sur le Web et n'a pas été affecté par les algorithmes de traitement de texte informatique.
- Les fragments sont de petits morceaux de contenu (par exemple, des citations) qui sont copiés et utilisés encore et encore. Ils posent rarement un problème aux moteurs de recherche, surtout lorsqu'ils sont inclus dans un document plus volumineux avec beaucoup de contenu unique.
- Zona. Les moteurs de recherche recherchent des segments de phrases relativement petits (cinq à six mots) sur d'autres pages Web. Si deux documents ont trop de bardeaux, les moteurs de recherche peuvent interpréter ces documents comme du contenu en double.
Quel est le code?
Il existe de nombreuses façons de créer du contenu dupliqué. Cela explique pourquoi il y en a plus qu'assez sur le web. Le contenu dupliqué interne nécessite des tactiques spécifiques pour obtenir les meilleurs résultats en termes d'optimisation. Franchement, les pages en double sont des pages sans valeur pour les utilisateurs et les moteurs de recherche. Ensuite, essayez d'éviter complètement ce problème. Assurez-vous qu'une seule URL fait référence à chaque page. De plus, effectuez une redirection 301 pour les anciennes URL vers les URL restantes. Cela aide les robots de recherche à voir les modifications que vous avez apportées le plus rapidement possible et à conserver le "jus de lien" des pages supprimées.
Si ce n'est pas possible, il existe de nombreuses autres options. Voici un aperçu des solutions les plus simples pour divers scénarios :
- Vous pouvez utiliser le fichier robots.txt pour empêcher les robots des moteurs de recherche d'explorer les versions en double des pages de votre site ;
- utilisez l'élément rel="canonical", qui est la deuxième meilleure solution pour supprimer les pages en double ;
- utilisez CODE <meta name=”robots” content=”noindex”> pour demander aux moteurs de RECHERCHE de ne pas afficher les pages en double.
Cependant, notez : si vous utilisez robots.txt pour empêcher l'affichage de la page, appliquer noindex ou nofollow sur la page n'a aucun sens. Comme une araignée ne peut pas lire la page, elle ne verra jamais les méta-tags noindex ou nofollow. Avec ces outils à l'esprit, considérez certaines situations spécifiques de contenu dupliqué.
Vous aimerez peut-être : Pourquoi la rédaction de contenu est-elle importante pour les marques et les entreprises ?
Pages HTTPS
Si vous utilisez le protocole SSL (échange de données cryptées entre le navigateur et le serveur Web, qui est souvent utilisé pour le commerce électronique), alors votre site a des pages qui commencent par HTTPS : (au lieu de HTTP :). Le problème survient lorsque des liens sur vos pages HTTPS pointent vers d'autres pages du site en utilisant des liens relatifs plutôt qu'absolus. Par exemple, le lien vers votre page d'accueil devient https://www.YourDomain.com au lieu de http://www.YourDomain.com).
Si votre site rencontre ce problème, vous pouvez utiliser des redirections rel="canonical" ou 301 pour le résoudre. Une solution alternative consiste à changer les liens en absolu : http://www.YourDomain.com/content.html au lieu de /contenthtml), ce qui rend également la vie un peu plus difficile pour ceux qui volent votre contenu.
Systèmes de gestion de contenu créant du contenu dupliqué
Parfois, un site peut avoir de nombreuses versions de pages identiques. Cela arrive aux limitations de certains systèmes de gestion de contenu qui font référence au même contenu avec plus d'une URL. Il s'agit généralement d'une duplication complètement supplémentaire qui n'a aucune valeur pour les utilisateurs. La meilleure décision est de supprimer les pages en double et de faire une redirection 301 pour les pages supprimées vers les pages restantes. Si cela ne fonctionne pas, essayez d'autres méthodes.
Pages à imprimer ou plusieurs options de tri
De nombreux sites proposent des pages à imprimer qui donnent à l'utilisateur le même contenu dans un format adapté à l'imprimante. Certains sites e-commerce proposent des listes de leurs produits avec plusieurs tris (par taille, couleur, marque et prix). Ces pages ont de la valeur pour l'utilisateur mais n'ont aucune valeur pour les moteurs de recherche. Par conséquent, ils pensent qu'il s'agit de contenu dupliqué. Dans une telle situation, vous pouvez créer une feuille de calcul CSS pour l'impression.
Contenu dupliqué dans les blogs et les systèmes d'archivage
Les blogs ont la forme d'une variante intéressante sur le problème du contenu dupliqué. Un article de blog peut apparaître sur plusieurs pages différentes :
- la page de démarrage du blog ;
- la page permalien de ce message ;
- les pages d'archives ;
- les pages de catégories.
Chaque copie de publication est une copie des autres copies. Il est très rare que les éditeurs tentent de résoudre le problème de la présence d'un article à la fois sur la page d'accueil du blog et sur la page des permaliens. Et les moteurs de recherche semblent très bien faire face à ce problème. Cependant, il peut être judicieux de n'afficher que des extraits de publication sur les pages de catégories et d'archives.
Contenu dupliqué généré par l'utilisateur (messages répétés, etc.)
Divers sites utilisent des structures pour obtenir du contenu généré par les utilisateurs, tels que des blogs, des forums ou des babillards électroniques. Ceux-ci peuvent être d'excellents moyens de développer beaucoup de contenu à un coût très faible. Le problème est qu'un utilisateur peut publier le même contenu à la fois sur votre site et sur plusieurs autres sites en même temps, ce qui entraîne des problèmes de contenu dupliqué. Il est difficile à contrôler, mais pour réduire le problème, vous pouvez procéder comme suit :
- Vous devez avoir une politique claire qui informe les utilisateurs que le contenu qu'ils fournissent à votre site doit être unique et ne peut pas être publié sur d'autres sites. Sans aucun doute, il est difficile d'obtenir cela, mais cela vous aidera à réaliser vos attentes ;
- Rafraîchissez votre forum d'une manière unique qui nécessitera un contenu différent. En plus des champs de saisie de données standard, ajoutez également des champs uniques (différents des autres sites) qui seront utiles aux visiteurs de votre site.
Vous pourriez également aimer : Comment amplifier votre référencement avec du contenu vidéo ?
Conclusion
Ne vous inquiétez pas trop du contenu dupliqué. Ce n'est généralement pas si grave. La plupart du temps, Google lui-même sait comment traiter des problèmes tels que les pages maîtres ou les citations de contenu. En outre, de nombreuses personnes sont confrontées au problème du contenu dupliqué. Parfois, les doublons n'apparaissent à personne là où ils s'y attendent, vous devez donc toujours vérifier le site pour eux. Pour les éviter, vous devez créer un contenu unique pour chaque page.
Cet article est écrit par Isabelle Jordan. Isabelle est journaliste commerciale et marketing à la compagnie d'assurance ektatraveling.com. Elle écrit pour différents portails d'actualités et blogs thématiques qui l'aident à rester au cœur de l'actualité du voyage et de l'assurance. Un tel travail lui donne l'opportunité d'écrire des articles sur les sujets les plus pertinents d'aujourd'hui.