Articles sur l'algorithme

Techniques Black Hat

Algorithme Google

  1. Le fonctionnement de google
  2. Google est multidimensionnel
  3. Google et le temps reel
  4. Google et son algorithme sont simples

Solution et implémentation

Calcul de similarité entre textes

Pour mettre en oeuvre l'algorithme, nous avons choisis pour calculer la similarité d'utiliser classiquement la similarité cosinus. Le produit scalaire utilise comme vecteurs des TF-IDF (term frequency-inverse document frequency).

Génération des paraphrases

L'algorithme se décompose en 2 volets indépendants lors du traitement automatique d'un texte initial.

Tout d'abord, le texte original est analysé afin d'identifier des séquences liguistiques, des mots et des segments conjugués. L'objectif est de saisir le sens de la phrase analysée ce qui est extrèmement difficle sans connaître a priori le domaine auquel se rapporte le texte initial et son type : article de journal, mode d'emploi, thèse en chimie organique... Cependant, nous avons fait le choix de ne pas restreindre les types de textes initiaux.

(Des versions spécialisées de cet algorithme sont en cours de développement à des fins commerciales.)

Une fois l'analyse effectuée, le deuxième volet, l'interprétation, permet la reformulation. La reformulation utilise une base de données linguistiques qui contient les distances entre les concepts. Cette base est mise à jour régulièrement sur base de résultats de recherche automatiques effectués sur google.

Pour mesurer la distance entre 2 concepts, on recherche les 15 premiers résultats d'une requête à 2 termes, et on la compare au résultat d'une autre requête à 2 termes contenant un des 2 mots précédents. Le nombre d'URL identiques dans les 2 résultats donne une information sur la distance entre les concepts.

Exemple:
On récupère les 25 premières URL de "finance crédit"
On fait de même avec "finance banque" et "finance taux"
On peut ensuite en déduire que 8% des URLs sont à communes entre "finance crédit" et "finance taux", alors que ce ratio est de 14% entre "finance crédit" et "finance taux". (-- Valeurs données à titre d'exemple n'ayant pas de rapport avec la réalité)