Home » Blog

Blog

Vers des moteurs de recherche de nouvelle génération

Les moteurs de recherche furent créés à l'explosion de l'Information. Une réalité engendrée par la démocratisation d'internet au grand public. Ce nouveau souffle propulse de plus en plus les moteurs de recherche au premier plan face aux milliards de documents qui forment l'internet d'aujourd'hui. Mais cette explosion apporte aussi de nouveaux problèmes auxquels la recherche d'information est confrontée notamment la pertinence des résultats.

De manière générale, les algorithmes les plus utilisés dans les moteurs de recherche sont souvent basés sur des calculs statistiques avec un peu de sémantique mais disparate. La classification des documents utilise des méthodes de vectorisation de documents. Cela permet de positionner un document dans un espace vectoriel. Un mécanisme de poids sur les mots caractérise les documents dans cet espace vectoriel. L'objectif de l'analyse et de l'indexation est d'abord de trouver des concepts plus importants et représentatifs dans les documents et de créer une représentation interne en utilisant ces concepts. Pour la recherche, l'algorithme le plus souvent utilisé est : "Terme Frequency - Inverted Document Frequency". Il combine deux critères, à savoir l'importance (fréquence d'occurrences) du terme pour un document et le pouvoir de discrimination de ce terme dans les autres documents. Google a développé ses fameux algorithmes PageRank et TrustRank, permettant de mesurer la popularité d'un document ainsi que le degré de confiance pour le classer lors des résultats de recherche. Jusqu'à présent les résultats semblent corrects.

Afin de rendre plus intelligent les résultats d'un corpus lors d'une recherche, on peut s'attendre à des évolutions certaines et futures dans les moteurs de recherche. Le but étant que le moteur de recherche comprenne la signification, le sens des termes qui sont recherchés par les utilisateurs. En effet l'un des problèmes actuels est que lors d'une recherche de mots dans les index des moteurs de recherche est que ces derniers sont très ambigus, c'est-à-dire qu'un mot peut désigner plusieurs sens. La conséquence est qu'un document contenant un mot ne désigne pas nécessairement le même sens que ce même mot dans une recherche.
Ainsi le traitement automatique du langage naturel (TALN) sera l'une des armes de ces derniers. Jusqu'à présent proposé aux entreprises ce traitement se fait de plus en plus attendre dans le domaine du grand public. D'après un article du New-York Times (Entrepreneurs See a Web Guided by Common Sense), l'intérêt commercial pour les années avenirs commencerait déjà à émerger dans la Silicon Valley. Ainsi quiconque proposerait un moteur de recherche répondant correctement à une requête du style "Je souhaite acheter un écrant TFT de 19" pas cher et mon budget est de 150€. Si possible dans la région parisienne." détrônerait le géant Google.

Enfin pour ma part, ce qui serait intéressant c'est que les moteurs de recherche de demain s'adaptent aux profils des utilisateurs selon leurs préoccupations et leurs goûts du moment.

Exalead est dans les bacs !

La nouvelle version du moteur de recherche Exalead vient d'être fraîchement lancée. Elle est encore en statut bêta car le lancement de la version officielle prendra en compte les remarques et les suggestions des utilisateurs. Par ailleurs un outil de feedback (développé par la société DIMELO) a été mis en place, afin que les utilisateurs puissent faire part aux développeurs de leurs griefs ou de leurs idées afin d'améliorer le moteur de recherche. Je vous invite donc à suivre l'évolution du moteur de recherche car il va s'enrichir au cours des mois à venir par de nouvelles fonctionnalités séduisantes .

A noter que le logo a de nouveau changé et je le trouve bien mieux que celui de la preview (j'y ai participé et les échanges étaient vraiment sympathiques).

Un fabuleux moteur de recherche de matière grise

Jusqu'à présent, les développeurs utilisaient souvent des outils tels que les forums, les newsgroups, les portails ou tout simplement les moteurs de recherches généralistes afin de répondre à leurs besoins.
Dorénavant ils pourront utiliser un moteur de recherche dédié à leurs usages. En effet, Google vient de rendre publique son moteur de recherche qui était à l'origine, pour des besoins internes.
Google Code Search développé au sein de l'équipe Google Labs indexe les lignes de codes publiques et disponibles à travers internet ainsi que celles qui se trouvent dans les archives (ex : zip, tar.gz). Son index regroupe notamment les immenses bibliothèques spécialisées des grandes universités américaines et de sites open source tels que SourceForge.

En termes de requêtes, il est possible d'utiliser les expressions régulières afin de limiter, par exemple la recherche sur un langage en particulier. Par ailleurs en ce qui concerne des problématiques liées aux différentes licences, Google propose dans les options avancées de limiter la recherche à une licence. Ceci étant dit, il y a de bonnes chances que nous trouvions des algorithmes qui ne devraient pas être lisibles...

Vu les nombreux projets open source présents sur internet, cet outil deviendra très utile pour les programmeurs fainéants ou cherchant quelques lignes de codes afin d'enrichir ou de développer leurs applications. Il deviendra donc un véritable moteur de matière grise dans le domaine de la programmation.

A noter que divers moteurs de recherche spécialisés dans l'indexation des lignes de code ont déjà été lancés sur internet, je pense notamment à koders et krugle. Mais vu l'architecture de Google, je ne pense pas qu'ils puissent bénéficier d'un index aussi riche.

Enfin Google propose de plus en plus d'outils de recherche différents afin de répondre aux exigences des internautes, je pense notamment au moteur d'images, d'actualités, de vidéos... A l'aube où internet ne cesse de croître je pense que leur approche semble être une excellente initiative. Le fait de proposer un moteur de recherche spécifique à un domaine canalise nos recherches et élimine ainsi les documents pouvant être inintéressants.

Exalead : les utilisateurs se sentiront moins perdus !

L'interface brouillon d'Exalead cherchant à montrer toutes les fonctionnalités du moteur de recherche à subit un lifting.complet (mot de passe: beta). En effet, tout comme les principaux moteurs de recherche la mise en page a été épurée de façon drastique, laissant place au coeur de la recherche les résultats.
La marge de gauche se trouve maintenant à droite afin d'afficher les fameux navigateurs permettant d'affiner la recherche. En terme de navigateurs dynamiques, on retrouve une catégorisation selon le corpus retourné avec notamment les termes associés, la localisation, la géolocalisation... Il est dorénavant possible de rechercher des images et de filtrer les résultats selon leurs tailles, leurs couleurs ou tout simplement le type de fichier. La motion "preview" est décolérée du résultat de la recherche mais elle permet de naviguer entre les documents trouvés.Cette catégorisation apporte réellement une aide précieuse lors d'une recherche. C'est donc une interface qui en séduira plus d'un!

Un effort qui portera certainement ces fruits. Cette nouvelle version est devenue un sérieux concurrent aux principaux acteurs du marchés sous réserve que leur index soit à la hauteur de ces derniers (freshness & co.).

Enfin, des fonctionnalités dans un esprit "Web 2.0" permettraient de se démarquer des autres moteurs en apportant d'autres usages (Bookmarking des résultats, abonnement à des flux RSS de recherche...).

Par ailleurs, on notera que le logo d'Exalead a changé de style. Je suis pas très fan mais bon, les goûts et les couleurs...

Tendance du Web 2.0 et les moteurs de recherches

Depuis quelques temps la tendance du "Web 2.0" apporte des idées innovantes dans les interfaces des moteurs de recherche. En effet, la suggestion de mots lorsque l'on effectue une recherche (ex : Google Suggest), le fait de pouvoir visualiser des vignettes des sites internet directement dans les pages de résultats... bref une panoplie de fonctionnalités intéressantes permettant ainsi de rentre les interfaces en client léger plus abouties, intuitives, intelligentes et par la même occasion agréables qu'un simple retour de résultats (ex : titre et une partie du contenu).

Perfect Market Technologies, la société qui gère le moteur de recherche américain "snap.com" (pas très connu) vient d'apporter une nouvelle pierre à l'édifice, en proposant une interface agréable mais aussi critiquable sur certains points. Par ailleurs je vous invite à lire sur le blog de FredCavazza son sentiment ainsi que le retour de certaines personnes à ce sujet.
Ceci étant dit, n'oublions pas qu'il existe aussi, le moteur de recherche d'Exalead qui apporte une tout autre approche de la recherche, en la rendant intelligente via des "navigateurs". Ces "navigateurs" permettent de filtrer les résultats (localisation du site, termes associés...) afin de réduire le nombre de résultat et ainsi nous aider à mieux trouver ce que nous désirons.

Enfin, l'engouement de la création de startups pendant la bulle internet autour des moteurs de recherche repart de plus belle. Je pense que ce n'est pas encore fini et nous allons avoir de plus en plus des moteurs de recherche ciblées pour des profils d'utilisation différents (ex Wikio).

Comment fonctionne les robots de Yahoo, Google et de MSN ?

Une étude a été mise en place par des chercheurs allemands afin de comprendre le fonctionnement d'indexation et du crawl de sites internet des trois moteurs de recherche les plus connus (Yahoo, Google et MSN). Cette étude a été réalisée avec un corpus de 2,147,483,647 pages web reliées entre elles selon une arborescence binaire (chaque parent a deux enfants), dans le cadre de cette étude ces pages web n'ont pas modifiés pendant 1 an (soit en avril 2005). L'étude est vraiment intéressante je vous laisse découvrir la suite à cette adresse : http://drunkmenworkhere.org

Recherche et reconnaissance de formes

L'art et la manière de rechercher simplement des photos de façon innovante sans passer par des tags, des mots clefs ou autres sottises sur le site de Flickr en dessinant simplement des formes. C'est le projet Retrievr développé par Christian Langreiter, un génie ! (Bah oui il fallait y penser !)
Bon certes les résultats ne sont pas toujours probants mais cela reste tout de même impressionnant.

page 2 de 2 -

Shortcuts

Who ?

My links