Les moteurs de recherche furent créés à l'explosion de l'Information. Une réalité engendrée par la démocratisation d'internet au grand public. Ce nouveau souffle propulse de plus en plus les moteurs de recherche au premier plan face aux milliards de documents qui forment l'internet d'aujourd'hui. Mais cette explosion apporte aussi de nouveaux problèmes auxquels la recherche d'information est confrontée notamment la pertinence des résultats.

De manière générale, les algorithmes les plus utilisés dans les moteurs de recherche sont souvent basés sur des calculs statistiques avec un peu de sémantique mais disparate. La classification des documents utilise des méthodes de vectorisation de documents. Cela permet de positionner un document dans un espace vectoriel. Un mécanisme de poids sur les mots caractérise les documents dans cet espace vectoriel. L'objectif de l'analyse et de l'indexation est d'abord de trouver des concepts plus importants et représentatifs dans les documents et de créer une représentation interne en utilisant ces concepts. Pour la recherche, l'algorithme le plus souvent utilisé est : "Terme Frequency - Inverted Document Frequency". Il combine deux critères, à savoir l'importance (fréquence d'occurrences) du terme pour un document et le pouvoir de discrimination de ce terme dans les autres documents. Google a développé ses fameux algorithmes PageRank et TrustRank, permettant de mesurer la popularité d'un document ainsi que le degré de confiance pour le classer lors des résultats de recherche. Jusqu'à présent les résultats semblent corrects.

Afin de rendre plus intelligent les résultats d'un corpus lors d'une recherche, on peut s'attendre à des évolutions certaines et futures dans les moteurs de recherche. Le but étant que le moteur de recherche comprenne la signification, le sens des termes qui sont recherchés par les utilisateurs. En effet l'un des problèmes actuels est que lors d'une recherche de mots dans les index des moteurs de recherche est que ces derniers sont très ambigus, c'est-à-dire qu'un mot peut désigner plusieurs sens. La conséquence est qu'un document contenant un mot ne désigne pas nécessairement le même sens que ce même mot dans une recherche.
Ainsi le traitement automatique du langage naturel (TALN) sera l'une des armes de ces derniers. Jusqu'à présent proposé aux entreprises ce traitement se fait de plus en plus attendre dans le domaine du grand public. D'après un article du New-York Times (Entrepreneurs See a Web Guided by Common Sense), l'intérêt commercial pour les années avenirs commencerait déjà à émerger dans la Silicon Valley. Ainsi quiconque proposerait un moteur de recherche répondant correctement à une requête du style "Je souhaite acheter un écrant TFT de 19" pas cher et mon budget est de 150€. Si possible dans la région parisienne." détrônerait le géant Google.

Enfin pour ma part, ce qui serait intéressant c'est que les moteurs de recherche de demain s'adaptent aux profils des utilisateurs selon leurs préoccupations et leurs goûts du moment.