Home » Blog

Blog

Cuill, le prochain Google killer ?

Des anciens de Google ont décidé de se lancer dans l'aventure entrepreneuriale en lançant un nouveau moteur de recherche du nom de Cuill (prononcez cool). Actuellement en cours de développement Cuill sera disponible en 2008. D'après les bruits qui courent dans la Silicon Valley, ce projet disposerait d'une architecture et d'une technique d'indexation moins coûteuse (dix fois moins que celle de Google), tout en ayant une technologie d'analyse inspirée et proche du web sémantique. C'est donc un projet très ambitieux, quand on sait que les traitements sémantiques peuvent représenter des coûts monstrueux au niveau de l'indexation (process et stockage). Ce projet aurait tellement de potentiel qu'une rumeur circule stipulant que Google essayerait "désespérément" d'acquérir Cuill et par la même occasion de réembaucher les fondateurs.

A mon avis ce n'est pas un buzz, car les fondateurs sont de véritables références dans le domaine des moteurs de recherche:

  • Tom Costello a travaillé sur le projet WebFountain d’IBM (abandonnée à priori). Ce projet n'était pas un moteur de recherche destiné au grand public ; il consistait à indexer l'ensemble du web en 32 heures puis à procéder à des traitements innovants (analyse de contenu, théorie des graphes, sémantique) pour des besoins spécifiques de grandes entreprises.
  • Anna Paterson a travaillé sur les deux plus gros index de Google (TeraGoogle) et le projet Internet Archive. Elle est également l'auteur de l'article "Why Writing Your Own Search Engine is Hard", qui est par ailleurs une référence.
  • Russell Power a travaillé sur la partie search (ranking et detection de spam) des index TeraGoogle.

La "sémantique" au sens large ainsi que la fraicheur des index des moteurs de recherche sont les éléments clés de demain. Actuellement Google occupe la meilleur place mais qui sait ce que l'avenir nous réserve ?

De l'innovation dans le moteur de recherche d'Exalead

A la sauce "Web 2.0", Exalead poursuit son évolution auprès du grand public. Depuis ces dernières semaines, le moteur de recherche propose de nouvelles fonctionnalités pouvant faire trembler les leaders du marché. D'une simple page web à la vidéo, le moteur de recherche indexe et vous propose d'effectuer des recherches dans plusieurs sources différentes. La fameuse zapette thématique s'est enrichie de nouveaux axes de navigations, vous permettant, ainsi de rebondir sur les résultats retournés par le moteur. Rappelons que cette zapette est destinée à affiner le corpus de résultats ou à exclure des documents issus d'une recherche. Elle n'est donc pas un simple gadget mais apporte réellement un sens à votre recherche.

"Exalead devient physionomiste", en étroite collaboration avec LTU Technologies, une société spécialisée dans la reconnaissance de forme, le moteur de recherche d'image dispose dorénavant d'un filtre "Visage". Ce dernier vient compléter les critères déjà présents tels que la taille, la couleur, l'orientation (portrait et paysage) ou la résolution de l'image pour des fonds d'écrans. Ce filtre permet de limiter la recherche aux images cadrées sur les visages des personnes que vous recherchez. En stade bêta, il réside encore quelques bugs néanmoins mais LTU et Exalead poursuivent leurs développements. A noter qu'il y a un autre filtre permettant de contrôler les images à caractère pornographique. Cependant, il est moins mis en avant mais vous pouvez le configurer dans la page préférences (filtrage des contenus adulte). Vous pouvez même rechercher uniquement ce genre de contenu mais ne cherchez pas, je ne vous donnerais pas la recette. Enfin, ces nouvelles fonctionnalitées placent Exalead en tête sur ce type de recherche et si le partenariat technologique continue, on peut s'attendre à d'autres évolutions dans ce domaine. On pourrait citer comme exemple la clusterisation d'images similaires... et pourquoi pas, filtrer directement les résultats à partir d'une image de référence.

Wikipédia est l'encyclopédie collaborative incontournable sur internet. Qui ne la connait pas ? Elle fait partie des dix sites américains les plus visités. De nombreux moteurs de recherche mettent en avant le contenu de cette dernière. Prenons l'exemple de Google qui favorise largement les articles issus de l'encyclopédie selon ce que vous cherchez. Exalead a décidé de lancer un moteur de recherche vertical dédié. Accessible en cliquant sur l'onglet Wikipédia présent sur la page d'accueil, ce moteur enrichit considérablement la recherche dans l'encyclopédie. La zapette relookée pour l'occasion, en forme de nuage de tags, vous permet de naviguer d'une autre façon dans Wikipedia. Des couleurs spécifiques permettent de différencier ses tags selon leurs caractéristiques. Vous pouvez rebondir sur le corpus de résultats selon plusieurs filtres tels que des personnalités, des emplacements géographiques, des noms d'organisations ou des termes liés à votre recherche. Les thumbnails (miniatures) sont issus des illustrations des articles de l'encyclopédie. De part ces informations connexes, vous pouvez vous balader et découvrir de nouveaux articles susceptibles de vous intéresser. Devant cette nébuleuse, tout est possible, une simple recherche peut vous faire dériver sur d'autres sujets et ces autres sujets vers d'autres... et ainsi enrichir par la même occasion vos connaissances. Agréable, ce moteur apporte véritablement un plus par rapport à la recherche standard de MediaWiki.

Les utilisateurs ont pris à bras le corps le web en devenant des acteurs dans la création et le partage de contenu sur ce médium. Devant cette croissance très importante des données mises en ligne, la vidéo fait partie intégrante de ces nouveaux usages. Elle est par ailleurs l'un des médias le plus visualisé actuellement. Face cette masse, les moteurs de recherche semblent pour l'instant loin d'être efficaces sur la restitution de ces dernières lors d'une recherche. Seuls les moteurs de recherche spécifiques (et encore !) y parviennent mais cela reste laborieux. Afin de répondre à cette problématique Exalead a lancé un moteur de recherche dédié. L'avantage de ce moteur c'est qu'il ne se cantonne pas uniquement à l'indexation d'un site. Ce qui permet aux utilisateurs de pouvoir rechercher dans une seule et même interface homogénéisée des vidéos qui sont diffusées à travers le web. A ce jour, le moteur indexe les principales plates-formes d'hébergement comme YouTube, DailyMotion ou encore MetaCafé. Des traitements spécifiques ont été mis en places afin de récupérer les données saisies par les utilisateurs à savoir : les titres, les descriptions et les tags. L'interface permet de classer les résultats selon cinq critères dont la pertinence, le freshness, les notes attribuées, la durée ou encore la popularité. On retrouve bien évidemment la zapette qui permet de restreindre la recherche à une ou plusieurs plates-formes ou à la durée de la vidéo. On y retrouve également le nuage de tag de la même manière que celui de Wikipedia. Quand aux thumbnails, ils affichent des vignettes représentant la vidéo. Ce qui est dommage c'est que l'on aurait aimé avoir une interface semblable à celle de l'image et pourquoi pas des mini-previews animées à la place des vignettes figées. Certes nous somme encore loin des traitements de retranscription des données audio et vidéo vers texte dont je vous avez déjà parlé, mais cela reste néanmoins une première approche.

Malgré que je ne sois pas trop crédible et mal placé pour le dire... je vous invite vivement à utiliser le moteur et ne pas hésiter à donner vos feedbacks.

Billet connexe : Les moteurs de recherche multimédia débarquent !

Comment les internautes lisent les résultats de recherche

Le Journal du net a publié fin mars une étude sur le comportement des utilisateurs face aux résultats sur les moteurs de recherche. Elle a été réalisée auprès de 18 personnes d'âges variés et de milieux différents. L'eye-tracking, une technologie permettant d'enregistrer le parcours du regard sur un stimulus visuel, a été utilisée dans le cadre de cette dernière. On n'y apprend pas grand-chose, car cette étude ne fait que confirmer ce que nous savons déjà. Il en ressort que lorsque les utilisateurs font des recherches sur les moteurs, leurs yeux ont des réactions prévisibles sur la visualisation des résultats. C'est pour cela que les moteurs de recherche ont des interfaces relativement proches.

Pour ma part, je pense que nous avons été éduqués sur l'ergonomie par le pionner des moteurs de recherche. Certains profitent même de ces études pour placer des annonces publicitaires afin que nos yeux passent obligatoirement dessus et parfois en les dissimulant dans les résultats (bien souvent au début). Mais ce n'est pas pour autant que nous cliquons sur ces annonces. En effet, avec l'habitude, nous oublions même leurs présences.

Enfin cette étude a été menée par Edward Cutrell de Microsoft Research et Zhiwei Guan de l'Université de Washington. A noter que des études similaires ont déjà été réalisées en 2005 et 2006 à ce sujet.

Yahoo Alpha, le moteur de recherche personnalisé

Yahoo vient de lancer un nouveau service qui permet à des utilisateurs de créer sa propre page personnalisée de recherche. A la différence de Google Co-op qui est étroitement lié à la recherche web de Google, Yahoo Alpha ne se limite pas seulement à son moteur. En effet ce dernier permet de retourner en standard des résultats issus de Wikipedia, de Flickr ou de YouTube, mais aussi de construire ses propres modules de recherche sous réserve que ces derniers fournissent un flux RSS de résultats. La personnalisation permet de placer les différents éléments comme vous voulez (à la Netvibes). Il est également possible de partager sa page de recherche et de mettre des annonces publicitaires. Le dernier point laisse envisager que Yahoo projetterait de partager les revenus des annonces avec les utilisateurs.

Yahoo Alpha est en version bêta, mais semble vraiment prometteur.

Exalead plus proche des utilisateurs

Il y a quelques mois, Exalead avait lancé une plateforme d'échange de suggestion (motorisé par Feedback 2.0 de DIMELO, une start-up française) suite au lancement de la nouvelle interface épurée. Grace à cet outil, les utilisateurs peuvent soumettre leurs idées aux équipes Exalead afin que le moteur de recherche corresponde mieux à leurs attentes. Elle permet aussi de déceler de nouvelles fonctionnalités auxquelles les équipes d'Exalead n'auraient pas forcément pensées. Les différentes propositions sont ensuite votées par la communauté puis validées en interne sur la faisabilité et les deadlines. 

Figurez-vous qu'Exalead a ouvert deux blogs officiels (il était temps !) depuis le 25 mars. Leurs but est de constituer des espaces d'information permanents où vous pourrez commenter les billets comme bon vous semble. Il permet ainsi d'établir un contact privilégié avec les utilisateurs du moteur de recherche. Cela fait maintenant deux espaces mettant en relation directe les utilisateurs avec Exalead. Il est clair qu'Exalead est en retard face à Google (et loin d'en avoir autant !) mais vaut mieux tard que jamais. Par ailleurs il semblerait qu'un blog Google France serait en préparation.

Enfin, je vous invite à suivre ce blog car dans les prochaines semaines le moteur de recherche devrait s'enrichir de nouvelles fonctionnalités et cela serait dommage de les rater.

Les moteurs de recherche multimédia débarquent !

Parallèlement aux moteurs de recherche qui incluent de nouvelles fonctionnalités tels que les axes de navigation (ex: Exalead) et l'agrégation basique de résultats de textes, d'images et de vidéos (ex: AskX et Searchmash) avec des interfaces de plus en plus sexy, il existe des moteurs de recherche multimédia qui naissent jour après jour. En effet, depuis quelques mois nous assistons à une effervescence mais aussi à un véritable besoin sur la recherche de contenus multimédia. Ceci est dû au fait que nous (les "user generated content") produisons, utilisons et recherchons dorénavant sur ces derniers. Il n'y qu'à voir la popularité des sites de vidéos et de photos tels que Dailymotion, YouTube, vpod.tv ou Flickr qui l'atteste clairement. C'est un véritable défi parmi les plus passionnants à l'heure actuelle dans le domaine de la recherche. Internet contient des volumes de fichiers multimédia importants et surtout en constante évolution.

Ainsi des projets européens fleurissent en proposant/promettant de réaliser des moteurs de recherche dans les fichiers multimédias. Une prouesse technologique dans le sens où c'est tout notre univers numérique qui peut et pourra être recherchable. Les principaux moteurs de recherche ne permettent pas à ce jour de réaliser ce type de recherche. Au delà des expérimentations réalisées sur les recherches images comme Retrievr, on assiste réellement à un fiasco numérique et ce n'est pas pour me déplaire. Il n'y a donc plus de limites en terme de  technologies. Auparavant utilisées dans l'industrie, les reconnaissances de formes et vocales sont maintenant présentes sur internet. Cela repousse donc les limites actuelles qui à ce jour s'arrête à une recherche textuelle sur les textes présents sur nos sites internet. Ainsi de nouveaux moteurs de recherche voient le jour et sont au devant de la scène.

Les premiers se nomment Midomi et Nayio. A partir d'un simple micro vous pouvez rechercher dans un corpus musical (cela me rappelle un entretien que j'ai eu en septembre 2006 où j'évoquais cette idée !). La technologie de reconnaissance vocale de Midomi est une véritable innovation. En effet, baptisée MARS (Multimodal Adaptive Recognition System), elle permet d'analyser de nombreux paramètres sonores tels que la variation de tempo, la détection des pauses et respirations, ou l'intonation des voix. Tous les éléments sont  traités indépendamment ce qui permet une analyse plus fine sur ce que l'utilisateur souhaite trouver. Par exemple, MARS peut traiter les paroles de l'utilisateur si il chante, siffle ou fredonne une chanson.
Il serait certainement intéressant de mettre en place la recherche vocale sur les sites internet mais aussi sur des bornes dans les magasins tels que la FNAC ou Virgin Mégastore (Ouriel m'a devancé mais c'était bien sur les mêmes exemples que ceux sur lesquels je me suis appuyé). Qui n'a jamais rencontré des difficultés à trouver le nom de l'artiste ou le titre d'une chanson qu'ils découvrent par les médias ? Et pourquoi ne pas l'utiliser sur d'autres axes comme la commande vocale pour les voitures (GPS par exemple), les maisons (domotique), les téléphones portables... Enfin, à ce jour, 2 millions de titres sont répertoriés et peuvent être acheté.

Les trois autres, BlinkX, PodZinger et Pluggd,  proposent de rechercher en full text sur le contenu vidéo. Ils s'appuient sur le "SpeechToText" qui est une retranscription des données audio en texte. Ces moteurs sont particulièrement réservés à l'indexation de podcasts. Outre la recherche classique par termes, Pluggd se différencie des autres en permettant de se positionner à l'endroit de la vidéo où l'expression est dite (cela me rappelle aussi le fameux septembre 2006).

Polar Rose est moteur qui propose d'effectuer des recherches basées sur la reconnaissance faciale. Il est clair que le champ de recherche se limite pour l'instant aux photos afin de déceler des visages. En effet, pour le moment, la plupart des moteurs s'appuient sur la description (attribut alt), le nom du fichier et les textes qui sont autours des images (avec un calcul de distance). Mais ce n'est pas pour autant que les moteurs vous retournent des résultats pertinents. Les photos n'étant pas forcément bien renseignées, l'équipe de Polar Rose compte sur les utilisateurs (esprit communautaire on y est !) afin d'aider le moteur sur l'identification (base d'apprentissage).

Enfin, un consortium européen de neuf partenaires issus d'universités et d'entreprises (dont IBM) ont décidé de fédérer pour réaliser un moteur de recherche multimédia en P2P. Le projet se nomme SAPIR (Search on Audio-visual content using Peer-to-peer Information Retrieval). Son approche est différente contrairement aux moteurs de recherche classiques. En effet, son objectif est de créer un vaste réseau poste à poste, dans lequel chaque utilisateur représente un poste qui produira du contenu multimédia. Les fournisseurs de services joueront le rôle de postes supérieurs qui gèreront des index et offriront la recherche vocale et textuelle. SAPIR intégrera des technologies telles que la reconnaissance vocale, la reconnaissance de forme, la classification...

Avec ces nombreux projets, on peut s'attendre à de réelles innovations sur la recherche d'informations. Imaginez-vous qu'à l'aide de votre micro (et pourquoi pas à travers la pensée) vous recherchiez un sujet et que le moteur de recherche vous remonte dans une seule et même interface des résultats pertinents sur les textes, les vidéos et les fichiers musicaux présents dans votre univers numérique. On pourrait aussi s'attendre à ce que les reconnaissances de formes et vocales soient liées (VideoToText) afin de pouvoir par exemple, déceler dans un film les personnages et ce qu'ils se disent. Bref, seul l'avenir nous le dira. En attendant restez spectectateurs de ces nouvelles avancées car la compétition dans ce domaine sera rude. J'imagine que nous aurons de nombreux spectacles des plus passionnants.

Moteur de recherche européen flop ou pas flop ?

Le 26 avril 2005, la France et l'Allemagne avaient annoncé la mise en place du projet Quaero destiné à developper un moteur de recherche qui devrait permettre la recherche de documents textes, images, sons et vidéos. C'est un programme mobilisateur pour l'innovation industrielle de 250 M€ (sur 5 ans) dont le but est de contrer la domination des éditeurs américains dans ce domaine tels que Google. Il regroupe une collaboration d'entreprises européennes comme Thomson, France Télécom, Exalead (groupe industriel Qualis) et Deutsche Telekom mais aussi de l'INA et l'Inria. C'est donc un projet ambitieux mélangeant des cultures bien différentes. Le financement, un sujet épineux, devait fonctionner en partie sur des fonds publics-privés français et allemands mais jusqu'à ce jour seule l'Agence de l'innovation industrielle a promis 90 millions d'euros.
Alors que le projet Quaero a été discret pendant plusieurs mois, le 18 décembre 2006, nous apprenons officiellement que l'Allemagne a décidé de se retirer du projet. Ils annoncent par ailleurs qu'ils poursuivront leurs propres objectifs en travaillant sur un projet national dont le programme se nomme Theseus. L'Allemagne souhaite donc réaliser un moteur de recherche sémantique. Les ambitions de ce projet s'orientent sur le traitement automatique du langage naturel permettant de comprendre le sens d'une requête et des corpus indexés. Un objectif intéressant et attendu dont je vous avais déjà parlé auparavant. Il est a noté que la décision ne date pas d'hier, en effet les partenaires industriels allemands ­ Deutsche Telekom, SAP ou encore Bertelsmann souhaitaient se retirer depuis pas mal de temps (voir le début).
Cette séparation amène finalement à deux projets nationaux. Il semblerait que des divergences entre les différents participants aient été le moteur de cette séparation. D'après les dires de l'Agence de l'innovation industrielle, ces deux projets ne seront pas rivaux mais complémentaires. Cela remet forcément en cause le projet Quaero dont la dimension était européenne.

Quelques jours plus tard (fruit du hasard ?), la Commission Européenne annonce un financement de près de 8 M€ à un projet dont le nom est Pharos. Pharos est un moteur de recherche multimédia centré sur l'indexation de contenus audio et vidéos. Ce projet vise aussi à apporter la recherche contextuelle, la recherche  d'interactions vocales ainsi que la gestion des droits, de présence... Avec l'émergence de l'utilisation de podcast sur internet ce moteur a donc une place importante dans ce marché qui est encore niche. Ce projet est par ailleurs mené par la société norvégienne FAST Search & Transfer et implique douze autres partenaires dont le Centre de recherche L3S de l'Université d'Hannovre, Knowledge Media Institute of The Open University ou encore France Télécom (encore). Il est clair que l'ambition ultime de ce projet est portée sur les problématiques d'indexation de données multimédias et non aux textes. Mais on peut se demander si il ne réside pas une rivalité entre ces projets vu la similarité des objectifs.

Durant ces dernières années, Google a acquis une position plus ou moins dominante dans les usages des utilisateurs grâce à l'interface simplifiée et à la pertinence des résultats avec le fameux PageRank. Ce qui entraine un véritable danger dû au monopole dans la distribution de l'information sur internet. Imaginez vous que Google décide de ne plus indexer certains sites internet (déjà vu) ? Ainsi ce monopole pourrait nuire aux partages de connaissances et d'informations. Il devient naturel que des industriels souhaitent contrer ce géant en fédérant ensembles. Mais je ne pense pas qu'ils y arriveront ainsi. Cherchant à concurrencer Google, les européens finiront par se concurrencer entre-eux.

Wikiasari, un moteur de recherche plus humain

Wikipedia vient d'annoncer le lancement de Wikiasari, un moteur de recherche basé sur le même principe que Wikipedia à savoir collaboratif. Son ambition est de concurrencer Google. Wikiasari devrait s'appuyer sur les moteurs de recherche open source Lucene et Nutch d'Apache Software Foundation. La classification des résultats fera entrer le facteur humain (people-powered search results) contrairement aux autres moteurs. Selon Jimmy Wales, co-fondateur de Wikipedia, les algorithmes de recherche sont encore incapables de juger de façon pertinente la qualité d'une page web ou d'un site internet. Ceci dit, j'ai beaucoup de mal à imaginer comment va être traité cette masse d'information vu son opulence. Par ailleurs Wikiasari souhaite recruter un maximum de personnes afin de participer au développement du projet. Attendons de voir, le projet serait déjà en cours de finalisation, nous en saurons beaucoup plus au premier semestre 2007.

Ask se met à l'ajax

Après la recherche web, images, feeds, MonAsk... Ask revoit son interface et son nom de code AskX. Nouvelle charte graphique et fioritures ajax en tout genre sont au rendez-vous. On retrouve des idées de Searchmash (Google) et de Livesearch (Alltheweb) telles que les suggestions, les billets des blogs, l’encyclopédie Wikipedia. L'interface propose donc un mixage de résultats sur les recherches en les agrégeant dans une seule et même fenêtre de votre navigateur. Ce qui est drôle c'est que la disposition des différents éléments de l'interface se trouve exactement comme ceux des deux autres moteurs de recherche. Il n'y a donc pas trop d'originalité pour le moment.

L'année 2007 promet une guerre impitoyable entre les éditeurs afin de gagner des part du marché dans le domaine du search. Il faut savoir que les utilisateurs utilisent majoritairement les moteurs de recherche, au lieu des accès directs comme les favoris ou la saisie de l’url du site directement dans leur navigateur. Les interfaces des moteurs de recherche tentent à proposer une nouvelle approche de la recherche sur internet en étant beaucoup plus riche sur les résultats retounés. Si aujourd'hui Google est le leader de la recherche sur Internet, les choses peuvent évoluer et changer dans les jours à venir.

Un moteur de recherche gratuit destiné aux entreprises

Ce qui était officieux devient officiel, Yahoo et IBM s'unissent afin de proposer un moteur de recherche dédié aux entreprises. Contrairement à d'autres solutions payantes telles que celles de FastSearch Appliance de Google ou celles d'ExaleadIBM OmniFind Yahoo Edition peut être téléchargée gracieusement.

Cette solution permet d'indexer jusqu'à 500.000 documents par serveur et plus de 200 formats de fichiers sont supportés. L'indexation s'appuie sur la librairie open source Lucene d'Apache Software Foundation. Il est donc possible d'indexer des systèmes de fichiers, des sites intranet mais aussi des sites internet. Quand à l'interface de recherche, elle propose d'effectuer des recherches sur ce qui a été indexé mais aussi sur internet à traver le moteur de recherche Yahoo (son intérêt).
La solution repose sur le framework open source Struts écrit entièrement en Java, il est donc probable qu'une personnalisation puisse être réalisée (ajout des flux RSS des résultats par exemple).

Il est clair que cette solution semble séduisante, mais peut-elle répondre aux besoins des entreprises dans un processus métier ? Je pense que non car le mode "payant" amène certainement d'autres services (traitements linguistiques, thesaurus, ontologies, accompagnements...) auquels cette solution ne peut pas répondre. Ceci étant dit pour les PME ne souhaitant pas investir dans une solution payante, elle est trés intéressante.

- page 1 de 2

Shortcuts

Who ?

My links