Les moteurs de recherche furent créés à l'explosion de l'Information. Une
réalité engendrée par la démocratisation d'internet au grand public. Ce nouveau
souffle propulse de plus en plus les moteurs de recherche au premier plan face
aux milliards de documents qui forment l'internet d'aujourd'hui. Mais cette
explosion apporte aussi de nouveaux problèmes auxquels la recherche
d'information est confrontée notamment la pertinence des résultats.
De manière générale, les algorithmes les plus utilisés dans les moteurs de
recherche sont souvent basés sur des calculs statistiques avec un peu de
sémantique mais disparate. La classification des documents utilise des méthodes
de vectorisation de documents. Cela permet de positionner un document dans un
espace vectoriel. Un mécanisme de poids sur les mots caractérise les documents
dans cet espace vectoriel. L'objectif de l'analyse et de l'indexation est
d'abord de trouver des concepts plus importants et représentatifs dans les
documents et de créer une représentation interne en utilisant ces concepts.
Pour la recherche, l'algorithme le plus souvent utilisé est : "Terme Frequency - Inverted Document
Frequency". Il combine deux critères, à savoir l'importance (fréquence
d'occurrences) du terme pour un document et le pouvoir de discrimination de ce
terme dans les autres documents. Google a
développé ses fameux algorithmes PageRank et TrustRank, permettant de mesurer
la popularité d'un document ainsi que le degré de confiance pour le classer
lors des résultats de recherche. Jusqu'à présent les résultats semblent
corrects.
Afin de rendre plus intelligent les résultats d'un corpus lors d'une recherche,
on peut s'attendre à des évolutions certaines et futures dans les moteurs de
recherche. Le but étant que le moteur de recherche comprenne la signification,
le sens des termes qui sont recherchés par les utilisateurs. En effet l'un des
problèmes actuels est que lors d'une recherche de mots dans les index des
moteurs de recherche est que ces derniers sont très ambigus, c'est-à-dire qu'un
mot peut désigner plusieurs sens. La conséquence est qu'un document contenant
un mot ne désigne pas nécessairement le même sens que ce même mot dans une
recherche.
Ainsi le traitement automatique du langage naturel (TALN)
sera l'une des armes de ces derniers. Jusqu'à présent proposé aux entreprises
ce traitement se fait de plus en plus attendre dans le domaine du grand public.
D'après un article du New-York Times (Entrepreneurs
See a Web Guided by Common Sense), l'intérêt commercial pour les années
avenirs commencerait déjà à émerger dans la Silicon Valley. Ainsi quiconque
proposerait un moteur de recherche répondant correctement à une requête du
style "Je souhaite acheter un écrant TFT de 19" pas cher et mon budget est de
150€. Si possible dans la région parisienne." détrônerait le géant
Google.
Enfin pour ma part, ce qui serait intéressant c'est que les moteurs de
recherche de demain s'adaptent aux profils des utilisateurs selon leurs
préoccupations et leurs goûts du moment.
Blog
Vers des moteurs de recherche de nouvelle génération
Par Régis Gaidot le vendredi, novembre 17 2006, 01:16
Exalead est dans les bacs !
Par Régis Gaidot le lundi, octobre 9 2006, 22:05
La nouvelle version du moteur de recherche Exalead vient d'être fraîchement lancée. Elle est
encore en statut bêta car le lancement de la version officielle prendra en
compte les remarques et les suggestions des utilisateurs. Par ailleurs un outil
de feedback (développé par la société
DIMELO) a été mis en place, afin que les utilisateurs puissent faire part aux
développeurs de leurs griefs ou de leurs idées afin d'améliorer le moteur de
recherche. Je vous invite donc à suivre l'évolution du moteur de recherche car
il va s'enrichir au cours des mois à venir par de nouvelles fonctionnalités
séduisantes .
A noter que le logo a de nouveau changé et je le trouve bien mieux que celui de
la preview (j'y ai participé et les échanges étaient vraiment
sympathiques).
Un fabuleux moteur de recherche de matière grise
Par Régis Gaidot le jeudi, octobre 5 2006, 10:03
Jusqu'à présent, les développeurs utilisaient souvent des outils tels que
les forums, les newsgroups, les portails ou tout simplement les moteurs de
recherches généralistes afin de répondre à leurs besoins.
Dorénavant ils pourront utiliser un moteur de recherche dédié à leurs usages.
En effet, Google vient de rendre publique son moteur de recherche qui était à
l'origine, pour des besoins internes.
Google Code Search développé au
sein de l'équipe Google Labs indexe les
lignes de codes publiques et disponibles à travers internet ainsi que celles
qui se trouvent dans les archives (ex : zip, tar.gz). Son index regroupe
notamment les immenses bibliothèques spécialisées des grandes universités
américaines et de sites open source tels que SourceForge.
En termes de requêtes, il est possible d'utiliser les expressions régulières
afin de limiter, par exemple la recherche sur un langage en particulier. Par
ailleurs en ce qui concerne des problématiques liées aux différentes licences,
Google propose dans les options avancées de limiter la recherche à une licence.
Ceci étant dit, il y a de bonnes chances que nous trouvions des algorithmes qui
ne devraient pas être lisibles...
Vu les nombreux projets open source présents sur internet, cet outil deviendra
très utile pour les programmeurs fainéants ou cherchant quelques lignes de
codes afin d'enrichir ou de développer leurs applications. Il deviendra donc un
véritable moteur de matière grise dans le domaine de la programmation.
A noter que divers moteurs de recherche spécialisés dans l'indexation des
lignes de code ont déjà été lancés sur internet, je pense notamment à koders et krugle. Mais vu l'architecture de Google, je ne
pense pas qu'ils puissent bénéficier d'un index aussi riche.
Enfin Google propose de plus en plus d'outils de recherche différents afin de
répondre aux exigences des internautes, je pense notamment au moteur d'images,
d'actualités, de vidéos... A l'aube où internet ne cesse de croître je pense
que leur approche semble être une excellente initiative. Le fait de proposer un
moteur de recherche spécifique à un domaine canalise nos recherches et élimine
ainsi les documents pouvant être inintéressants.
Exalead : les utilisateurs se sentiront moins perdus !
Par Régis Gaidot le mercredi, août 2 2006, 01:00
L'interface brouillon d'Exalead
cherchant à montrer toutes les fonctionnalités du moteur de recherche à subit
un lifting.complet (mot de
passe: beta). En effet, tout comme les principaux moteurs de recherche la mise
en page a été épurée de façon drastique, laissant place au coeur de la
recherche les résultats.
La marge de gauche se trouve maintenant à droite afin d'afficher les fameux
navigateurs permettant d'affiner la recherche. En terme de navigateurs
dynamiques, on retrouve une catégorisation selon le corpus retourné avec
notamment les termes associés, la localisation, la géolocalisation... Il est
dorénavant possible de rechercher des images et de filtrer les résultats selon
leurs tailles, leurs couleurs ou tout simplement le type de fichier. La motion
"preview" est décolérée du résultat de la recherche mais elle permet de
naviguer entre les documents trouvés.Cette catégorisation apporte réellement
une aide précieuse lors d'une recherche. C'est donc une interface qui en
séduira plus d'un!
Un effort qui portera certainement ces fruits. Cette nouvelle version est
devenue un sérieux concurrent aux principaux acteurs du marchés sous réserve
que leur index soit à la hauteur de ces derniers (freshness & co.).
Enfin, des fonctionnalités dans un esprit "Web 2.0" permettraient de se
démarquer des autres moteurs en apportant d'autres usages (Bookmarking des
résultats, abonnement à des flux RSS de recherche...).
Par ailleurs, on notera que le logo d'Exalead a changé de style. Je suis pas
très fan mais bon, les goûts et les couleurs...

Tendance du Web 2.0 et les moteurs de recherches
Par Régis Gaidot le mercredi, mai 17 2006, 17:27
Depuis quelques temps la tendance du "Web 2.0" apporte des idées innovantes
dans les interfaces des moteurs de recherche. En effet, la suggestion de mots
lorsque l'on effectue une recherche (ex : Google Suggest), le fait de pouvoir
visualiser des vignettes des sites internet directement dans les pages de
résultats... bref une panoplie de fonctionnalités intéressantes permettant
ainsi de rentre les interfaces en client léger plus abouties, intuitives,
intelligentes et par la même occasion agréables qu'un simple retour de
résultats (ex : titre et une partie du contenu).
Perfect Market Technologies, la société
qui gère le moteur de recherche américain "snap.com" (pas très connu) vient d'apporter une
nouvelle pierre à l'édifice, en proposant une interface agréable mais aussi
critiquable sur certains points. Par ailleurs je vous invite à lire sur le
blog de
FredCavazza son sentiment ainsi que le retour de certaines personnes à ce
sujet.
Ceci étant dit, n'oublions pas qu'il existe aussi, le moteur de recherche
d'Exalead qui apporte une tout autre
approche de la recherche, en la rendant intelligente via des "navigateurs". Ces
"navigateurs" permettent de filtrer les résultats (localisation du site, termes
associés...) afin de réduire le nombre de résultat et ainsi nous aider à mieux
trouver ce que nous désirons.
Enfin, l'engouement de la création de startups pendant la bulle internet autour
des moteurs de recherche repart de plus belle. Je pense que ce n'est pas encore
fini et nous allons avoir de plus en plus des moteurs de recherche ciblées pour
des profils d'utilisation différents (ex Wikio).
Comment fonctionne les robots de Yahoo, Google et de MSN ?
Par Régis Gaidot le lundi, mai 15 2006, 12:50
Une étude a été mise en place par des chercheurs allemands afin de comprendre le fonctionnement d'indexation et du crawl de sites internet des trois moteurs de recherche les plus connus (Yahoo, Google et MSN). Cette étude a été réalisée avec un corpus de 2,147,483,647 pages web reliées entre elles selon une arborescence binaire (chaque parent a deux enfants), dans le cadre de cette étude ces pages web n'ont pas modifiés pendant 1 an (soit en avril 2005). L'étude est vraiment intéressante je vous laisse découvrir la suite à cette adresse : http://drunkmenworkhere.org
Recherche et reconnaissance de formes
Par Régis Gaidot le jeudi, janvier 19 2006, 12:46
L'art et la manière de rechercher simplement des photos de façon innovante
sans passer par des tags, des mots clefs ou autres sottises sur le site de
Flickr en dessinant simplement des formes.
C'est le projet Retrievr
développé par Christian Langreiter, un
génie ! (Bah oui il fallait y penser !)
Bon certes les résultats ne sont pas toujours probants mais cela reste tout de
même impressionnant.
page 2 de 2 - billets suivants »