• aside

SEO : L'embarrassante question du "Duplicate Content"

Voici rapidement le topo : Si votre site a plusieurs pages ayant le même contenu (pour différentes raisons) ou bien si c’est un site dynamique (type blog, ou propulsé par un CMS), vous êtes sûrement amené à devoir jongler avec des pages d’index, de catégories ou de mot-clés qui vont créer des contenus dupliqués et répétés.  Le but des moteurs de recherche étant de proposer des documents et du contenu texte uniques (ne voulant pas se retrouver à fournir des doublons dans leurs résultats), ces derniers vont retenir seulement l’une des version de vos pages comme édition principale et pénaliser les doublons et répétitions de contenu (voir les liens au bas de cet article pour une définition complète du duplicate content). De plus, en ne faisant pas attention à des doublons ou des version précédentes de certains documents, vous risquez aussi de faire baisser la “inbound quote” (le fameux juice) de vos liens externes et internes, qui sera divisé par le nombre multiple de vos pages dupliquées.

Algorithme de détermination de Duplicate Content des moteurs de recherche (générique)

Algorithme de détermination de Duplicate Content des moteurs de recherche (générique)



Bonne nouvelle, l’une des raisons les plus fréquentes est très simple à corriger, il s’agit de doublons liées a des redirections manquantes (qui arrivent même sur des sites très populaires…)

  • entre les pages non-www et les pages www (exemple : et http://www.mondomaines.com).
  • le duplicate lié à l’affichage de l’URL complète : et .
  • ou le duplicate “canonique” dû à la barre “/” en fin d’URL : et

Encore une fois, ces malveillantes erreurs finissent souvent par vous faire perdre le potentiel lié au capital de vos liens (“inbound quote” ou “google juice”) et iront encore une fois le diviser par le nombre d’entités que les moteurs de recherche auront trouvé pour le même contenue, pour shématiser une sorte de référencement négatif… Aie ! C’est pour cela que vous devez veillez à toujours bien fournir les adresses de façon identique lors de vos opérations de référencement et vos campagnes de link building, une point à souligner dans votre stratégie SEO. Je vous propose aussi de soumettre votre domaine à l’excellent outil webmarketing de HubSpot : le Websitegrader (http://www.websitegrader.com/ ) qui vous informera si ce cas se présente pour des duplicate type non-www et www.

Mais ne vous effrayez pas pour autant, voici de nombreuse solutions pour y remédier, et un exemple de code HTTP  à insérer dans votre fichier .htaccess pour signaler que les non-www et la page d’acceuil intégrant le index.* doivent être reformatés et redirigées vers une page unique et donc vers une entité unique pour les moteurs de recherches (capitalisant tous les points pour le même site):

[sql]RewriteEngine On
# fait suivre tous les non-www vers des www.
rewritecond %{http_host} .
RewriteCond %{HTTP_HOST} !^www.patricealbertus.net
RewriteRule ^/(.*) http://www.patricealbertus.ch/$1 [R=301,L]</p>

# autre alternative
RewriteCond %{HTTP_HOST} ^patricealbertus.net$
RewriteRule ^(.*) http://www.patricealbertus.ch/$1  [R=301,L]</p>

# enlève le index.php de la page d’acceuil
RewriteCond %{THE_REQUEST} ^[A-Z]{3,9} /.*index.php HTTP/
RewriteRule ^(.*)index.php$ http://www.patricealbertus.ch/$1 [R=301,L]</p>

# enlève les slash à la fin de l’adresse
RewriteCond %{HTTP_HOST} ^(www.)?patricealbertus.net$ [NC]
RewriteRule ^(.+)/$ http://%{HTTP_HOST}/$1 [R=301,L]
[/sql]

Dans les cas de doublons liés à vos contenus, voici différentes solutions pour remédier à ce risque :

  1. Effectuez régulièrement un nettoyage de vos versions précédentes pour ne pas vous retrouver avec un trop gros nombre de pages dupliquées que vous même ne pourrez plus déceller une fois votre site devenu trop complexe en taille (surout si vos données sont stockées dans une base de données)
  2. Mettez en place des redirections type 301 (Guide complet de SEOMoz pour les redirections http://www.seomoz.org/article/guide-to-applying-301-redirects-with-apache ou cette page http://www.webconfs.com/how-to-redirect-a-webpage.php ). Si vous êtes sous un blog propulsé par WordPress, de nombreux plugins proposent de faire ce dur labeur (http://www.patricealbertus.ch/wordpress/ressources-wordpress-plugins-indispensables-seo-widgets-mis-a-jour/ ).
  3. Utilisez les outils pour webmasters des moteurs de recherche afin de supprimer les pages en double avant les moteurs : Live Search (http://webmaster.live.com/webmaster/ ) Google Webmaster tools (https://www.google.com/webmasters/tools/dashboard ), et Yahoo Site Explorer ( ).
  4. Vérifier vos plan sitemaps et mettez à jour si nécessaire, puis soumettez avec les outils de l’étape 3.
  5. Enfin, faites vous-même des recherches sur les contenus que vous pensez à risque et revenez à l’étape 3.

Pour les bloggeurs : il semble malgré tout que les moteurs de recherche appliquent un arbitrage relatif pour les blogs, voir la théorie WordPress-tuto à ce sujet (http://wordpress-tuto.fr/duplicate-content-conseils-de-lorelle-301 : Blogs et Duplicate Content). Il est clair que de plus en plus les blogs sont amenés à propose des pages reliées à leur tag comme index ou des pages reprenant les articles de certaines catégories. D’ailleurs on remarque bien que de telles pages sont proposées dans les Search Engine Results Pages (SERP), exemples : http://www.left-right-brain.com/tag/socialmedia/ ou bien encore .

Les services 2.0 ont créé beaucoup de relations entre les sources de contenu et les réseaux sociaux et forcément la structure de publication du web évolue. La tendance à retrouver des feed (flux RSS ou autres widgets de contenu) sur d’autres sites implique un duplicate content organique et nécessite la mise à jour de la tolérance des moteurs de recherches, ce qui commence doucement à apparaître.

Mais malgré tout lorsque vous republiez vos documents sur d’autres sites, veillez toujours à suivre le même modèle que celui des blogs, c’est à dire proposez aux lecteurs des extraits et affichez un lien vers la page originale pour que ce soit celle-ci qui reste la version canonique pour les moteurs de recherche.



Leave a Reply