1 Comment

Le contenu dupliqué – Partie 1 (introduction)

J’ai essayé d’éviter dans ce billet, et dans les suivants sur le même sujet, de parler technique ou algorithme. J’ai essayé d’avoir un propos accessible à tous, même si j’espère apporter mes propres idées sur le sujet, idées qui ont été mises en place dans la logique d’Human Easy Spinner.

Cet article n’a pas été écrit en se servant de travaux externes, il n’y a donc aucune source citée. Ne cherchez pas une quelconque forme de rigueur scientifique, il ne peut y en avoir : on essaye de poser le problème correctement et on se pose des questions, c’est tout…

L’idée est que vous arriviez en entier à la fin de cet article et que vous ayez envie d’aller aux deux épisodes suivants sur le même sujet…

Pourquoi Google Panda a démoli votre site ?

Google Panda a fait des ravages sur une grande partie des sites web qui n’avaient rien à se reprocher, a priori. Ce filtre a été élaboré, selon la communication officielle de Google, pour que l’internaute ne trouve pas sur un site un contenu qu’il a déjà vu quelque part et qui ne l’intéressera donc pas : Google aime l’internaute et Google aime la qualité, qu’on se le dise !

Outre le fait que l’on puisse, à l’évidence, douter de la raison évoquée par Google, raison qui relève davantage du lavage de cerveau que d’autre chose, admettons que Google l’ait vraiment fait pour les raisons invoquées (oui, moi aussi j’ai du mal à l’imaginer, mais on se lance quand même) :

  • – qui dit que l’internaute avait déjà vu le contenu ailleurs ? Donc, cela ne va pas forcément le barber…
  • – qui dit que l’internaute, s’il a déjà vu ce contenu, est dans le même état d’esprit que la première fois et n’en fera pas une nouvelle lecture plus bénéfique à son cheminement ?
  • – qu’est-ce que l’on en a à foutre sur une boutique que la description d’un produit précis soit la même que celle du fournisseur du produit ? L’internaute a le droit de faire ses choix au niveau des frais de port, de la vitesse de livraison, des services, de la confiance que dégage la boutique, etc.

Ce n’est pas à Google de décider à la place de l’internaute.

On pourrait sans doute trouver d’autres raisons qui invalideraient la motivation officielle de Google, mais ces trois raisons me suffisent amplement pour affirmer que le prétexte donné ne résiste pas aux arguments ci-dessus.

Bon, beaucoup pense que les vraies raisons du déploiement de ce filtre tombent curieusement à point par rapport aux divers lancements des nouveaux produits et services Google.
Allons, Google n’est pas comme cela, vous le savez bien… « don’t be evil » comme ils disent (quand cela les arrange 😉

Note : pour être clair, je condamne les actes de pillage de contenu comme cela arrive trop souvent sur internet, mais les cas de vols de contenu ne sont pas couverts par ce billet.

Bon, la duplication, légale, de contenu, ce n’est pas bien, OK ?
C’est Google qui le dit, donc, on est sage et on obéit sans broncher.
Google vous protège, Google vous aime, sisi 😉

Préalable : quels cas de duplication de contenu sont couverts par ces trois billets ?

Il faut d’abord voir que, derrière le terme contenu, peuvent se cacher plusieurs types de contenu : une vidéo est un contenu, une image aussi ; un son, une couleur de page et, plus largement, le thème graphique du site.
Même s’il va de soit que l’on ne parle a priori que des contenus texte, il est bien de le confirmer.

Toutefois, le texte ne se limite pas, lui non plus, au seul contenu rédactionnel. On peut considérer qu’une meta-description, une TITLE ou une barre de navigation soient aussi du texte, de même qu’une url.

On ne va considérer ici que la partie rédactionnelle pure d’une page, ou d’une publication, est le seul contenu qui nous intéresse.

Cela veut dire quoi « dupliqué » ?

Évidemment, le copier-coller est bien de la duplication de contenu, mais, en dehors de ce cas extrême, il me semble important d’essayer de définir ce que peut être une duplication de contenu.

Tout d’abord, en tant qu’humain, il faut considérer la « vue », le niveau auquel on se place pour effectuer le jugement portant sur la duplication :

  • – On dit presque la même chose qu’ailleurs, mais le sujet ne porte pas sur le même objet (par exemple, un texte est un article sur des avis et critiques sur le vol aérien et un autre, presque à l’identique, mais portant sur le repassage du linge) est-ce une duplication ?
  • – On réagit avec son propre point de vue sur une actu déjà présente sur internet, est-ce une duplication ?
  • – On développe un thème et les mêmes points, déjà présents sur internet, mais on a ses propres arguments et son propre regard, est-ce une duplication ?
  • – On reprend les mêmes choses dîtes qu’ailleurs, mais on le dit différemment, avec ses propres mots, est-ce une duplication ?
  • – On réécrit entièrement le même article (on change de vocabulaire, mais on dit exactement la même chose), est-ce une duplication ?
  • – On fait une compilation d’une partie de ses propres articles et on les réécrit en changeant de vocabulaire, est-ce une duplication ?
  • – Même chose que précédemment, mais on utilise le deuxième degré dans le discours, est-ce une duplication ?
  • – On répète plusieurs fois les mêmes bouts de phrases dans un même texte, est-ce une duplication (justement 😉 ?
  • – On traduit un article, est-ce une duplication ?
  • – etc.

Comme on le voit, rentre en jeu une question de regard et de « loupe » sémantique, syntaxique, d’objet (corpus) du texte, avant même de dire si c’est dupliqué ou pas.

Ça se complique alors, car on ne sait même pas ce que l’on n’a pas le droit de dupliquer, ou pas, du coup ?

Oui et non. N’oubliez pas que Google n’est pas le droit (au sens juridique), mais juste un ensemble d’algorithmes à peu près aussi intelligents qu’une machine à distribuer du Coca… mais si vous lui mettez 20 cents alors qu’il veut 10 euros, vous n’aurez pas votre bouteille de Coca… donc, Google va appliquer des règles sommes toutes assez simples, à son niveau à lui.

Les questions que l’on se pose humainement ne sont pas forcément transférables à un moteur, donc, il faut peut-être s’y prendre autrement.

Alors, la duplication porte-t-elle sur l’aspect syntaxique, grammatical, sémantique pour Google ?

Aucun des trois et aussi les trois à la fois. En fait, même si Google le pouvait, ce ne serait pas son intérêt de passer tout le web en revue : il ne resterait aucun site sur la planète dans l’index de Google, car on aurait toujours des points communs.

Partant du principe que Google n’a pas forcément intérêt à purger son index de tous les sites, mais en même temps n’étant pas dans le secret de Google, on peut imaginer plusieurs stratégies de la part du moteur pour déterminer si un contenu et dupliqué.

On va distinguer deux étapes :

  1. – phase préalable de préparation des textes avant de lancer le calcul de ressemblance
  2. – phase de calcul proprement dit (non détaillée dans ce billet, mais dans le suivant)
  1. – Première phase préalable possible (probable ?) : le moteur détecte le corpus du texte, c’est à dire, sa thématique (le texte traite de mathématiques appliquées ou de voyages ?). À l’issu de cette phase, le moteur réduit, du coup, la quantité des textes qu’il va comparer en ne comparant que les textes du même corpus et obtient alors un surplus de pertinence (!).
  2. – Deuxième phase préalable possible : chère en ressources machine, mais pas trop en espace de stockage, le moteur « canonise » chaque texte avant de les comparer entre eux. À savoir, il va remplacer chaque mot ou expression d’un texte par un terme unique qui lui correspond le mieux dans sa base de synonymes (et qui sera toujours le même) et ensuite il compare les textes. En fait, l’idée est de réduire le vocabulaire à une quantité plus faible de mots, quitte à faire des approximations.Exemple : « bouger », « mouvoir », « déplacer », « translater » seront toujours remplacer par « déplacer ».
    Bon, possible, mais peu probable, car si tout le monde sait à quel point l’utilisation de synonymes est délicate, l’opération inverse est encore plus délicate ! Mais, bon,, on ne sait jamais…
  3. – Autre phase préalable possible : on vire tous les « stopwords », articles, ponctuation, apostrophes, etc., et on met, d’une part, tous les verbes à l’infinitif et, d’autre part, tous les noms communs et adjectifs au masculin singulier. Bon, c’est une préparation de comparaisons très sévère et qui a souvent peu de sens : peut-on dire que « les personnes aiment les femmes » soit identique à « une personne aime un homme »… cela ne veut pas dire du tout la même chose. Gageons que Google sait que cette phase préparatoire ne mène nulle part, mais il faut la citer quand même, car c’est une possibilité théorique.

Ces phases préparatoires éventuelles ont été exposées afin de montrer que tout n’est pas dans le calcul de similitude.

Google OK, mais nous, on fait comment en pratique ? Que va-t-on utiliser pour déterminer le taux de ressemblance ?

Oublions les phases préalables possibles avant la comparaison effective. On va donc prendre un outil sur le web ou ailleurs et on va se dire : « tiens, quel pourcentage de DC ai-je » ?

30 % de ressemblance ? Moins ? Plus ? Et 30 % de quoi, ou plutôt, c’est mesuré comment ?

Le pourcentage seul ne veut rien dire si on n’a pas les informations suivantes :

  • – Quel algorithme est utilisé (Distance ? Empreintes ? Graphes ou chaines ?)
  • – L’outil a-t-il retiré tous les accents et tout mis en minuscules avant de calculer ?
  • – l’outil ignore-t-il les mots de moins de x caractères ?
  • – la comparaison est-elle faite phrase par phrase, paragraphe par paragraphe ou sur les textes en entier ?
  • – l’algorithme travaille-t-il sur le texte même ou sur une représentation (clé de hachage) ?

Bon, avec ça, vous n’êtes pas plus avancé !
Patience…

Le prochain billet sera la comparaison des différents algorithmes, mais de façon compréhensible je pense.. notamment j’aborderai la théorie de la « comparaison des trous » qui est probablement utilisée par l’ogre, vous savez, notre ami de toujours 😉

Posez vos questions, ajoutez vos points de vue, les commentaires sont ouverts !

One Response to “Le contenu dupliqué – Partie 1 (introduction)”

  1. Bonjour,

    J’aime beaucoup la comparaison avec le distributeur de boissons, si ce n’est que ce dernier vous rend en général votre argent si vous n’avez pas l’appoint.
    La question du contenu dupliqué est de plus en plus présente et intrigante.
    Qu’en est-il des sites de petites annonces ou le contenu est archi-dupliqué, surtout en ce qui concerne le domaine de l’immobilier où on peut retrouver exactement la même annonce sur plusieurs centaines de sites différents?