Commentaires fermés sur Le contenu dupliqué – Partie 2 (Méthodes pour le mesurer)

Le contenu dupliqué – Partie 2 (Méthodes pour le mesurer)

Dans l’article précédent sur le contenu dupliqué, nous avons parlé un peu de Google Panda et quel était le grand bluff de celui-ci, ce qui pouvait être fait sur les textes avant de les comparer entre eux.

Nous avons vu également que le pourcentage de ressemblance n’avait pas de sens dans l’absolu, il fallait savoir quelles méthodes étaient utilisées et avec quels paramètres.
Aujourd’hui, nous allons aborder la mesure même du contenu dupliqué.

Pour rester dans l’esprit de cette mini-série de billets, nous allons rester en mode « utilisateur normal » et ne pas rentrer dans le détail des algorithmes, mais nous en effleurerons tout de même l’esprit.

La méthode des distances

Prenez deux textes. Ces textes ne sont jamais que des chaines de caractères.
On va alors mesurer le nombre de modifications qui vont devoir être réalisées pour passer de la première chaine à la deuxième.

En pratique, on part de 0 et on ajoute 1 à ce nombre chaque fois que l’on doit supprimer, ajouter ou remplacer une des lettres.
Une fois que l’on a la somme des modifications à faire, on a la distance entre les deux chaines.

Schématiquement, on peut dire que si entre deux chaines, l’une et l’autre de 100 caractères, et que la distance vaut 25, alors on a 75 % de similarité (75 des 100 caractères n’ont pas été altérés).

Malheureusement, les algorithmes à base de distance ne sont pas très fiables dans notre cas.

Par exemple, prenez un texte de 1000 caractères, ajouter ensuite 3000 caractères à la fin de celui-ci. Vous aurez donc 4000 caractères avec une distance de 3000 puisqu’il vous faut ajouter 3000 caractères au texte de départ… vous aurez donc une distance de 3000, mais votre deuxième texte recopie bien l’intégralité du premier.

En fait, seuls deux textes avec exactement la même longueur peuvent être comparés.

La grande faiblesse de cette approche est, en fait, de ne pas travailler à l’échelle des mots, des phrases, des paragraphes, mais à l’échelle des caractères.

Pourtant, ils sont utilisés dans plusieurs systèmes en lignes et logiciels, donc, méfiance.

La méthode des blocs de textes similaires

Les méthodes de distances ont comme faiblesse de ne s’intéresser qu’aux différences, mais rien n’est dit par ces méthodes sur la nature de ce qui apparaît comme semblable.

Le principe : vous prenez deux textes. Vous recherchez les suites de mots que les 2 textes ont en commun (on ne s’intéresse pas aux caractères, et une suite doit être composée d’au moins 2 mots, sinon, ce n’est pas une suite !).

Si vous comparez 2 textes, l’un de 10 mots, l’autre de 12, et que vous avez une suite de 4 mots qui se répète dans les deux textes, vous pouvez en conclure :
6 mots de A ne sont pas répétés dans B, et 4 mots se répètent
8 mots de B ne sont pas répétés dans A, et 4 mots se répètent

Donc (4*2)/(10+12) = 36 % de similarité

C’est beaucoup mieux que la méthode de distance, puisqu’on se penche réellement sur les traces de la similarité.

Une faiblesse toutefois : la même suite de mots, au singulier dans le premier texte et au pluriel dans le second, n’est pas repérée, pourtant…

C’est la méthode la plus utilisée aujourd’hui dans les différents logiciels de content spinning.

La méthode des empreintes, ou de « comparaison des trous »

Il s’agit cette fois-ci, non pas de repérer les suites de mots, mais des suites de caractères, ces suites étant elles-mêmes répétées dans le même ordre dans les deux textes.

Prenons un exemple :

Texte A :
Donald GONFLE tout le monde AVEC ses DÉCLARATIONs essentiellement vides de sens

Texte B :
Notre moteur préféré me les GONFLE, surtout AVEC leur récente DÉCLARATION qui ne permet toujours pas de savoir ce que j’ai le droit de faire ou pas.

En majuscule, l’empreinte : [GONFLE] [AVEC] [DÉCLARATION]

Note 1 : ce système a su gérer le pluriel à « déclaration » dans le premier des deux textes et n’est donc pas tombé dans le panneau dans lequel serait tombée la méthode vue juste avant.
Note 2 : plusieurs empreintes peuvent s’enchevêtrer entre elles dans une comparaison.

Question : que se passe-t-il si dans le deuxième texte, le terme GONFLE et AVEC avaient été inversé ? c’est simple, l’empreinte disparait.

Le calcul du pourcentage de similarité d’une empreinte va se faire en attrubant un poids à la longeur de l’empreinte ainsi qu’au nombre d’arcs qui la compose. On fait ensuite la somme des notes de chaque empreinte trouvée pour donner une note globale.

En résumé, cette méthode procède comme le font les systèmes analyses d’empreintes digitales : on s’intéresse aux similitudes et à l’ordre dans lesquelles elles s’enchainent pour déterminer que 2 empreintes sont les mêmes. Plus on trouve d’empreintes identiques dans 2 textes, plus on est bon pour une détection en règle de la part de notre ami de toujours 😉

Tiens, au fait, c’est cette dernière méthode qu’utilise Human Easy Spinner pour contrôler le duplicate content 😉