Vers des moteurs de recherche de nouvelle génération
Par Régis Gaidot le vendredi, novembre 17 2006, 01:16 - Moteur de recherche - Lien permanent
Les moteurs de recherche furent créés à l'explosion de l'Information. Une
réalité engendrée par la démocratisation d'internet au grand public. Ce nouveau
souffle propulse de plus en plus les moteurs de recherche au premier plan face
aux milliards de documents qui forment l'internet d'aujourd'hui. Mais cette
explosion apporte aussi de nouveaux problèmes auxquels la recherche
d'information est confrontée notamment la pertinence des résultats.
De manière générale, les algorithmes les plus utilisés dans les moteurs de
recherche sont souvent basés sur des calculs statistiques avec un peu de
sémantique mais disparate. La classification des documents utilise des méthodes
de vectorisation de documents. Cela permet de positionner un document dans un
espace vectoriel. Un mécanisme de poids sur les mots caractérise les documents
dans cet espace vectoriel. L'objectif de l'analyse et de l'indexation est
d'abord de trouver des concepts plus importants et représentatifs dans les
documents et de créer une représentation interne en utilisant ces concepts.
Pour la recherche, l'algorithme le plus souvent utilisé est : "Terme Frequency - Inverted Document
Frequency". Il combine deux critères, à savoir l'importance (fréquence
d'occurrences) du terme pour un document et le pouvoir de discrimination de ce
terme dans les autres documents. Google a
développé ses fameux algorithmes PageRank et TrustRank, permettant de mesurer
la popularité d'un document ainsi que le degré de confiance pour le classer
lors des résultats de recherche. Jusqu'à présent les résultats semblent
corrects.
Afin de rendre plus intelligent les résultats d'un corpus lors d'une recherche,
on peut s'attendre à des évolutions certaines et futures dans les moteurs de
recherche. Le but étant que le moteur de recherche comprenne la signification,
le sens des termes qui sont recherchés par les utilisateurs. En effet l'un des
problèmes actuels est que lors d'une recherche de mots dans les index des
moteurs de recherche est que ces derniers sont très ambigus, c'est-à-dire qu'un
mot peut désigner plusieurs sens. La conséquence est qu'un document contenant
un mot ne désigne pas nécessairement le même sens que ce même mot dans une
recherche.
Ainsi le traitement automatique du langage naturel (TALN)
sera l'une des armes de ces derniers. Jusqu'à présent proposé aux entreprises
ce traitement se fait de plus en plus attendre dans le domaine du grand public.
D'après un article du New-York Times (Entrepreneurs
See a Web Guided by Common Sense), l'intérêt commercial pour les années
avenirs commencerait déjà à émerger dans la Silicon Valley. Ainsi quiconque
proposerait un moteur de recherche répondant correctement à une requête du
style "Je souhaite acheter un écrant TFT de 19" pas cher et mon budget est de
150€. Si possible dans la région parisienne." détrônerait le géant
Google.
Enfin pour ma part, ce qui serait intéressant c'est que les moteurs de
recherche de demain s'adaptent aux profils des utilisateurs selon leurs
préoccupations et leurs goûts du moment.