Articles sur l'algorithme
- Enjeux de la reformulation de textes
- Solution et implementation
- Algorithme et documentation
- Bibliographie
- Utilisation et remarques
- License
- Contact
Pour mettre en oeuvre l'algorithme, nous avons choisis pour calculer la similarité d'utiliser classiquement la similarité cosinus. Le produit scalaire utilise comme vecteurs des TF-IDF (term frequency-inverse document frequency).
L'algorithme se décompose en 2 volets indépendants lors du traitement automatique d'un texte initial.
Tout d'abord, le texte original est analysé afin d'identifier des séquences liguistiques, des mots et des segments conjugués. L'objectif est de saisir le sens de la phrase analysée ce qui est extrèmement difficle sans connaître a priori le domaine auquel se rapporte le texte initial et son type : article de journal, mode d'emploi, thèse en chimie organique... Cependant, nous avons fait le choix de ne pas restreindre les types de textes initiaux.
(Des versions spécialisées de cet algorithme sont en cours de développement à des fins commerciales.)
Une fois l'analyse effectuée, le deuxième volet, l'interprétation, permet la reformulation. La reformulation utilise une base de données linguistiques qui contient les distances entre les concepts. Cette base est mise à jour régulièrement sur base de résultats de recherche automatiques effectués sur google.
Pour mesurer la distance entre 2 concepts, on recherche les 15 premiers résultats d'une requête à 2 termes, et on la compare au résultat d'une autre requête à 2 termes contenant un des 2 mots précédents. Le nombre d'URL identiques dans les 2 résultats donne une information sur la distance entre les concepts.
Exemple:
On récupère les 25 premières URL de "finance crédit"
On fait de même avec "finance banque" et "finance taux"
On peut ensuite en déduire que 8% des URLs sont à communes entre "finance crédit" et "finance taux", alors que ce ratio est de 14% entre "finance crédit" et "finance taux". (-- Valeurs données à titre d'exemple n'ayant pas de rapport avec la réalité)