Toutes les clefs pour réussir dans le e-commerce

Mes modules Prestashop

Le duplicate content

Le duplicate content consiste à avoir un contenu similaire sur deux pages dont l’url est différente. Les origines d’un dupliace content peuvent être diverses et leur conséquences plus ou moins graves. Je vais essayer de faire un petit topo des causes, conséquences et solutions concernant le duplicate content.

Définition du duplicate content

Le duplicate content, est aux yeux de Google, un contenu similaire répété dans deux endroits différents.

Il faut comprendre ici que si deux pages différentes (On ne parle pas ici de fichier mais de page ayant des url distinctes) ont la totalité ou une partie de leur contenu similaire l’une d’entre elle pourra être considéré comme dupliquée.

Les conséquences du duplicate content

Google est bien conscient qu’une maladresse de programmation ou un oublie peut engendrer de nombreux cas de duplicate content c’est pourquoi en théorie il n’y a pas de sanction appliquée aux sites ayant ce genre de problème. La seule contrepartie est que les pages dites “dupliquante” n’apparaitront pas dans les resultats classiques de recherche. Ils seront tout de même accéssibles via le lien “relancer la recherche en incluant les pages ignorées”.

Dans la pratique c’est assez différent, en effet ce type de pratique est souvent parfois utilisés pour essayer de manipuler Google afin qu’il accorde un bonus (non mérité) de pertinence à un site. C’est pourquoi si Google considère que le cas de duplicate content qu’il à détecté est une tentative de manipulation il pourra alors décider de déclasser le site en question ou de le désindéxer totalement (surement le pire qu’il puisse vous arriver).

Voici un extraits des conseils pour webmaster donné par Google sur le sujet:

Google s’efforce d’indexer et d’afficher des pages contenant des informations distinctes. À titre d’exemple, si votre site contient une version “standard” et une version “imprimable” de chaque article, et qu’aucune des deux n’est bloquée dans robots.txt ou avec une balise META noindex, nous en choisissons une seule. Dans les rares cas où nous estimons que du contenu en double est peut-être affiché dans le but de manipuler nos classements et de tromper nos utilisateurs, nous apportons également les ajustements appropriés dans l’indexation et le classement des sites impliqués. En conséquence, le classement du site peut être affecté, ou le site peut être retiré définitivement de l’index Google, auquel cas il n’apparaîtra plus dans les résultats de recherche.

Les origines et les solutions pour le duplicate content

Les causes de duplicate content peuvent être multiple et il serait difficile impossible prétentieux d’essayer de toutes les citées. Je vais par contre tenter de lister les causes de duplicate que je connais et leur solutions.

Votre site est accessible via http://www.monsite.com et http://monsite.com et http://www.monsite.com/index.php
Placé un fichier .htaccess à la racine de votre site en y incluant ce code:



RewriteEngine on
RewriteCond %{HTTP_HOST} ^monsite.com$
RewriteRule ^(.*) http://www.monsite.com/$1 [QSA,L,R=301]
RewriteRule ^index\.php$ / [QSA,L,R=301]


Bien sur ceci est valable pour vos autres pages si vous avez par exemple un dossier galerie avec une page index.php il peut dans ce cas être accessible via l’adresse http://www.monsite.com/galerie/ et http://www.monsite.com/galerie/index.php

Faire de l’url rewriting peut être source de duplicate content
En effet, le principe de l’url rewriting est de pouvoir mettre ce que l’on veut dans une url à condition d’avoir une ou des informations précises pour retrouver la page d’origine. (Il est conseillé de comprendre ce qu’est l’url rewriting)

On comprend alors qu’il peut y avoir une infinité de cas de duplicate content.

Par exemple les url http://www.monsite.com/produits?id=225 http://www.monsite.com/chocolat-225 ou encore http://www.monsite.com/chocola-225 afficheront la même chose.

Une solution est d’intégrer au fichier produits.php une fonction qui va tester si l’url courante correspond à l’url attendu si ce n’est pas le cas on fait une redirection 301 vers l’url attendu.

Un code dans ce style peux donc régler le problème:


//$goodLink est l'url attendu
function redirect301($goodLink) {
$currentHtmlPage=basename($_SERVER['HTTP_HOST'].$_SERVER['REQUEST_URI']);
if ($currentHtmlPage!=$goodLink) {
header("Status: 301 Moved Permanently", false, 301);
header("Location: ".$goodLink);
exit();
}
}


Les url comportant des paramètres pas toujours dans le même ordre

Ce problème peut être réglé avec une combinaison d’url rewriting et la fonction cité plus haut.

Plusieurs nom de domaine pour un site unique

Si vous possédez plusieurs nom de domaine pensez à faire une redirection 301 vers le nom de domaine principal.

Un sous domaine qui dirige vers un dossier

Vous avez un sous domaine http://www.photo.monsite.com qui dirige vers http://www.monsite.com/photo vérifier bien que les deux url ne soit pas accéssible. Si c’est le cas utilisé une fois encore le fichier .htaccess.

Indexation de vos résultats de recherche

Rendre les résultats de son moteur de recherche interne indexable par google est tentant (on obtient ainsi des pages de contenu très facilement). Mais une fois encore le problème du duplicate content ce pose. Certaine expression peuvent générer un contenu identique. Ma solution (qui ne sera pas partagé par tout le monde) est soit de ne pas faire indéxer ces résultats soit de définir quel terme doivent être indéxé (les plus tapés par exemple).

La balise link rel canonical
Depuis un certain temps google, yahoo, et microsoft ceux sont mit d’accord pour interpréter une nouvelle balise qui devrait aider à mieux gérer le duplicate. Ainsi pour signaler au robot d’indexation qu’elle est l’url officielle de la page il suffit de placer ceci dans votre header:



link rel="canonical" href="URL"


Ce qui donne pour cet article


link rel="canonical" href="http://www.reussir-mon-ecommerce.fr/2008/10/22/le-duplicate-content/"


ATTENTION: Un cas de duplicate content ne peut avoir lieu QUE si google indexe de page au contenu identique mais ayant une url différente il serait alors tentant de se dire qu’il suffit de toujours utiliser les bonnes url à l’intérieur de son site et lorsqu’on en fait la promotion pour s’en protéger mais ce serait faire une grosse erreur. En effet, vous n’êtes pas le seul à pouvoir faire des liens vers votre site. Un webmaster bien intentionné peut très bien ciblé la page d’accueil de votre site comme ceci http://monsite.com alors que google ne connais que http://www.google.com et lorsque vous vous en rendrez compte il y a de grande chance pour que google ai déjà repéré cette page et appliqué son filtre pour les duplicate content.

Par conséquent l’analyse des risques de duplicate content et leur correction est une étape “obligatoire” dans l’optimisation d’un site qui peut avoir des conséquence désastreuse si elle n’ai pas correctement effectué.

Il existe bien d’autre cas qui peuvent générer un duplicate content. Si vous pensez que j’en est oublié qui doivent être signalé ici n’hésite pas à le dire dans les commentaires. N’hésiter pas non plus à nous faire partager vos expériences si vous avez été sujet au filtre du duplicate content de Google.

D’autres conseils pour optimiser votre site.

Poster un Commentaire

7 Commentaires sur "Le duplicate content"

Recevoir un email pour
avatar
Trier par:   plus récent | plus vieux | Plus de vote
Camille JUNG
Invité

Intéressant ton article ;)

A propos du duplicate content et du robots.txt j’ai une question, peut être pourras tu y répondre ?
http://www.phpbb-seo.com/forums/principes-du-referencement/discussions-vt3669.html

Camille JUNG
Invité

Merci de ta réponse sur le forum ;)

mabylone
Invité

Est ce que les PR grisés que l’on voit sur des pages intérieures de presque tous les sites proviennent de duplicate content ou d’un autre problème?

Web agency
Invité

Il y a aussi la balise meta qui existe désormais pour donner aux moteurs l’url a indexer lorsqu’il y a du duplicate sur un site (même article repris sur d’autres pages, version imprimable, etc.) . D’après ce que j’ai pu lire, GG, Yahoo et MicroSoft se sont mis d’accord pour prendre en compte cette balise.

wpDiscuz