Home » Blog

Blog

Mot clé - web sémantique

Cuill, le prochain Google killer ?

Des anciens de Google ont décidé de se lancer dans l'aventure entrepreneuriale en lançant un nouveau moteur de recherche du nom de Cuill (prononcez cool). Actuellement en cours de développement Cuill sera disponible en 2008. D'après les bruits qui courent dans la Silicon Valley, ce projet disposerait d'une architecture et d'une technique d'indexation moins coûteuse (dix fois moins que celle de Google), tout en ayant une technologie d'analyse inspirée et proche du web sémantique. C'est donc un projet très ambitieux, quand on sait que les traitements sémantiques peuvent représenter des coûts monstrueux au niveau de l'indexation (process et stockage). Ce projet aurait tellement de potentiel qu'une rumeur circule stipulant que Google essayerait "désespérément" d'acquérir Cuill et par la même occasion de réembaucher les fondateurs.

A mon avis ce n'est pas un buzz, car les fondateurs sont de véritables références dans le domaine des moteurs de recherche:

  • Tom Costello a travaillé sur le projet WebFountain d’IBM (abandonnée à priori). Ce projet n'était pas un moteur de recherche destiné au grand public ; il consistait à indexer l'ensemble du web en 32 heures puis à procéder à des traitements innovants (analyse de contenu, théorie des graphes, sémantique) pour des besoins spécifiques de grandes entreprises.
  • Anna Paterson a travaillé sur les deux plus gros index de Google (TeraGoogle) et le projet Internet Archive. Elle est également l'auteur de l'article "Why Writing Your Own Search Engine is Hard", qui est par ailleurs une référence.
  • Russell Power a travaillé sur la partie search (ranking et detection de spam) des index TeraGoogle.

La "sémantique" au sens large ainsi que la fraicheur des index des moteurs de recherche sont les éléments clés de demain. Actuellement Google occupe la meilleur place mais qui sait ce que l'avenir nous réserve ?

Ontologies sémiotique pour le Web socio sémantique

La thèse de Jean Pierre Cahier soutenue en décembre 2005 à l'université Technologique de Troyes a été publiée sur le site Archives Ouvertes. L'auteur montre ce que pourrait être un "Web socio sémantique", en s'appuyant sur l'hypothèse que la sémantique du Web qui sera la plus utile et efficace, sera celle qui sera co-crée et enrichie en permanence au sein de communautés. Il a donc écarté volontairement le sens philosophique des ontologies en étudiant une variante des ontologies de domaine de part le partage de connaissances. Cela signifie alors d'inventer de nouvelles formes pour que les utilisateurs participent à leur univers informationnel. La solution présentée par Jean Pierre Cahier est basée sur la co-construction des "Ontologies Sémiotiques".

Disponible au format PDF, c'est un document très intéressant qui fait tout de même plus de 300 pages... dont les plus intéressés dévoreront sans aucun problème.

Dbpedia, web structuré et web sémantique

Dbpedia est un projet mené par des chercheurs de deux universités allemandes (Universität Leipzig et Freie Universität Berlin). Son but est d'extraire les informations présentes dans les "infobox" de Wikipedia et de les transformer dans un format structuré/normalisé (RDF) en suivant une ontologie établie pour chaque type d'objet. Les informations extraites sont ensuite stockées afin de pouvoir les interroger par la suite, via le langage de requêtes RDF : SPARQL. A partir de là imaginez les possibilités que ce dernier vous offre ! L'avantage est qu'il y a un grand potentiel pour ce type d'approche mélangeant le coté collaboratif et un traitement visant à récupérer les efforts des différents contributeurs. Dbpedia dispose actuellement d'un ensemble de données de 91 millions de RDF triple, qui ont été extraites à partir de plusieurs langues dont le français, l'anglais et l'allemand.

Pour plus d'informations, je vous invite à lire l'excellent billet de Michael K. Bergman, "Did You Blink? The Structured Web Just Arrived".

Avez-vous peur de Google ?

Pas si anodine comme question quand on sait que c'est LE moteur préféré des internautes. En quelques années Google est devenu l'un des géants de l'internet ce qui lui a valu d'avoir des moyens financiers ainsi qu'une évolution imposante. A la fin de l'année 1998, partie d'un simple champ de recherche, Google a su attirer de nombreuses personnes qui étaient alors partagées entre Yahoo et Altavista entre autre. Les utilisateurs étaient agacés par les nombreuses bannières publicitaires "postérisées" dans les corpus de résultats et leurs maigres bandes passantes en patissaient. Des résultats souvent insatisfaisants basés sur des titres, des mots clefs,  des descriptions... qui ne permettaient pas d'obtenir des résultats en adéquation avec ce qu'ils cherchaient. Ils étaient alors souvent contraints à modifier leurs requêtes afin d'être récompensés.

Larry Page et Sergey Brin, les fondateurs de Google (The original Google computer storage, 1996), ont visé juste en proposant une approche différente fondée sur une analyse des relations entre les sites internet. L'algorithme appelé  PageRank est à la base du succès de Google. Cet algorithme permet d'évaluer la popularité des sites et donne un degré d’importance aux pages des sites internet. Jusqu'à présent, il permet d'obtenir des corpus de résultats pertinents. Les permiers revenus de Google provenaient des licences vendues aux portails web et aux autres moteurs de recherche tels que Yahoo, AOL et Netscape. C'est alors qu'en 2000, l'équipe de Google lanca un système de liens sponsorisés intrusif (Adwords) basé sur des enchères de mots clefs. Au fils des années, Google s'est diversifié  en développant et achetant d'autres applications/services.

Google a conquis le monde sans effort marketing ; simplement de bouche à oreille (à croire que c'est le même modèle que leur algorithme). La séduction est d'abord passée par les informaticiens et les technophiles, car dans la plus part des cas c'est souvent eux qui recommandent grâce à leurs expériences. Alors la popularité de Google s'est fait naturellement, ils n'ont pas eu besoin de faire de la publicité.

A ce jour, Google détient le monopole de la recherche sur internet et ceci sans avoir eu la même expérience que celle de Microsoft. Cette domination entraine des inquiétudes, c'est d'ailleurs pour cela que divers projets européens se sont lancés. La société est devenue une véritable base de connaissances sur les usages, les envies et les inspirations des utilisateurs. Même s'ils sont anonymisés (depuis peu), Google de part sa façade sympathique évoque pour certains des perspectives à la Big Brother. Effectivement, nous vivons dans une société du "paraître". Microsoft, par exempe, symbolise un système capitaliste cherchant à monétiser tout ce qu'ils produisent. Il est clair que Google ne cherche pas à avoir la même image que Microsoft. C'est donc pour cela que tout ses services sonts gratuits avec comme seul bémol la publicité. L'entreprise est donc devenue au fil des années une véritable régie publicitaire (Web, TV, mobile...) pouvant tout contrôler si elle le désire. Concernant la vie privée des utilisateurs, cela en donne une vision machiavélique, car tout notre univers numérique se retrouve exposé par les moteurs de recherche. C'est donc aux utilisateurs de contrôler leurs identités au risque d'avoir des surprises.

La chaîne Arte diffusera ce soir vers 22 heures, un documentaire "Faut-il avoir peur de Google ?" dans la cadre de la soirée Thema "Google, Apple, Microsoft...les nouveaux maîtres du monde". Ce documentaire réalisé par Stéphane Osmont et Sylvain Bergère retrace la fabuleuse histoire de la firme. Des intervenants, tel que mon ami Franck Poisson, ont été interviewés pour l'occasion. Par ailleurs, ce documentaire sera disponible sur le site internet d'Arte du 21 au 27 avril avec des bonus.

L'Interrogation des documents XML

Depuis ces neuf dernières années, l'XML (Extensible Markup Language) a su s'imposer dans tous les domaines liés à l'informatique. Son objectif est de définir un langage générique et structuré afin de répondre à un format d'échange (exemple: entre des applications) en favorisant l'interopérabilité. Comparé à d'autres langages (exemple: wiki), l'XML est une syntaxe qui se veut être générique et extensible. Il est ainsi possible de structurer une grande variété de contenus selon nos besoins. C'est par ailleurs un groupe de travail du consortium W3C réunissant de grands noms tels que James Clark et Jon Bosak qui ont rédigés les spécifications.
XML connait un succès exemplaire en partie dû à l'explosion/l'exposition de l'interconnexion des machines sur internet et aux usages que nous faisons à ce jour. Vous le convoitez, par ailleurs, dans de nombreuses applications internet s'appuyant autour du RSS, de l'Atom, du Podcast, de l'OpenSearch (pour ne citer qu'eux). Ainsi que des applications "lourdes" telles que l'OpenDocument d'OpenOffice.
Nicolas Toper, dans le cadre de son mémoire au CNAM, s'est initié à la rédaction d'une étude sur l'interrogation de documents XML et les cas d'utilisation couverts par tout langage de ce type. L'étude montre les différentes manières d'interroger des documents XML ainsi que leurs avantages et leurs limites. Elle est relativement intéressante je vous invite donc à la lire. Ceci étant dit, J'aurais bien aimé qu'il évoque RelaxNG, l'alternative à l'XML Schema mais c'est déjà pas mal.

Les moteurs de recherche multimédia débarquent !

Parallèlement aux moteurs de recherche qui incluent de nouvelles fonctionnalités tels que les axes de navigation (ex: Exalead) et l'agrégation basique de résultats de textes, d'images et de vidéos (ex: AskX et Searchmash) avec des interfaces de plus en plus sexy, il existe des moteurs de recherche multimédia qui naissent jour après jour. En effet, depuis quelques mois nous assistons à une effervescence mais aussi à un véritable besoin sur la recherche de contenus multimédia. Ceci est dû au fait que nous (les "user generated content") produisons, utilisons et recherchons dorénavant sur ces derniers. Il n'y qu'à voir la popularité des sites de vidéos et de photos tels que Dailymotion, YouTube, vpod.tv ou Flickr qui l'atteste clairement. C'est un véritable défi parmi les plus passionnants à l'heure actuelle dans le domaine de la recherche. Internet contient des volumes de fichiers multimédia importants et surtout en constante évolution.

Ainsi des projets européens fleurissent en proposant/promettant de réaliser des moteurs de recherche dans les fichiers multimédias. Une prouesse technologique dans le sens où c'est tout notre univers numérique qui peut et pourra être recherchable. Les principaux moteurs de recherche ne permettent pas à ce jour de réaliser ce type de recherche. Au delà des expérimentations réalisées sur les recherches images comme Retrievr, on assiste réellement à un fiasco numérique et ce n'est pas pour me déplaire. Il n'y a donc plus de limites en terme de  technologies. Auparavant utilisées dans l'industrie, les reconnaissances de formes et vocales sont maintenant présentes sur internet. Cela repousse donc les limites actuelles qui à ce jour s'arrête à une recherche textuelle sur les textes présents sur nos sites internet. Ainsi de nouveaux moteurs de recherche voient le jour et sont au devant de la scène.

Les premiers se nomment Midomi et Nayio. A partir d'un simple micro vous pouvez rechercher dans un corpus musical (cela me rappelle un entretien que j'ai eu en septembre 2006 où j'évoquais cette idée !). La technologie de reconnaissance vocale de Midomi est une véritable innovation. En effet, baptisée MARS (Multimodal Adaptive Recognition System), elle permet d'analyser de nombreux paramètres sonores tels que la variation de tempo, la détection des pauses et respirations, ou l'intonation des voix. Tous les éléments sont  traités indépendamment ce qui permet une analyse plus fine sur ce que l'utilisateur souhaite trouver. Par exemple, MARS peut traiter les paroles de l'utilisateur si il chante, siffle ou fredonne une chanson.
Il serait certainement intéressant de mettre en place la recherche vocale sur les sites internet mais aussi sur des bornes dans les magasins tels que la FNAC ou Virgin Mégastore (Ouriel m'a devancé mais c'était bien sur les mêmes exemples que ceux sur lesquels je me suis appuyé). Qui n'a jamais rencontré des difficultés à trouver le nom de l'artiste ou le titre d'une chanson qu'ils découvrent par les médias ? Et pourquoi ne pas l'utiliser sur d'autres axes comme la commande vocale pour les voitures (GPS par exemple), les maisons (domotique), les téléphones portables... Enfin, à ce jour, 2 millions de titres sont répertoriés et peuvent être acheté.

Les trois autres, BlinkX, PodZinger et Pluggd,  proposent de rechercher en full text sur le contenu vidéo. Ils s'appuient sur le "SpeechToText" qui est une retranscription des données audio en texte. Ces moteurs sont particulièrement réservés à l'indexation de podcasts. Outre la recherche classique par termes, Pluggd se différencie des autres en permettant de se positionner à l'endroit de la vidéo où l'expression est dite (cela me rappelle aussi le fameux septembre 2006).

Polar Rose est moteur qui propose d'effectuer des recherches basées sur la reconnaissance faciale. Il est clair que le champ de recherche se limite pour l'instant aux photos afin de déceler des visages. En effet, pour le moment, la plupart des moteurs s'appuient sur la description (attribut alt), le nom du fichier et les textes qui sont autours des images (avec un calcul de distance). Mais ce n'est pas pour autant que les moteurs vous retournent des résultats pertinents. Les photos n'étant pas forcément bien renseignées, l'équipe de Polar Rose compte sur les utilisateurs (esprit communautaire on y est !) afin d'aider le moteur sur l'identification (base d'apprentissage).

Enfin, un consortium européen de neuf partenaires issus d'universités et d'entreprises (dont IBM) ont décidé de fédérer pour réaliser un moteur de recherche multimédia en P2P. Le projet se nomme SAPIR (Search on Audio-visual content using Peer-to-peer Information Retrieval). Son approche est différente contrairement aux moteurs de recherche classiques. En effet, son objectif est de créer un vaste réseau poste à poste, dans lequel chaque utilisateur représente un poste qui produira du contenu multimédia. Les fournisseurs de services joueront le rôle de postes supérieurs qui gèreront des index et offriront la recherche vocale et textuelle. SAPIR intégrera des technologies telles que la reconnaissance vocale, la reconnaissance de forme, la classification...

Avec ces nombreux projets, on peut s'attendre à de réelles innovations sur la recherche d'informations. Imaginez-vous qu'à l'aide de votre micro (et pourquoi pas à travers la pensée) vous recherchiez un sujet et que le moteur de recherche vous remonte dans une seule et même interface des résultats pertinents sur les textes, les vidéos et les fichiers musicaux présents dans votre univers numérique. On pourrait aussi s'attendre à ce que les reconnaissances de formes et vocales soient liées (VideoToText) afin de pouvoir par exemple, déceler dans un film les personnages et ce qu'ils se disent. Bref, seul l'avenir nous le dira. En attendant restez spectectateurs de ces nouvelles avancées car la compétition dans ce domaine sera rude. J'imagine que nous aurons de nombreux spectacles des plus passionnants.

La cartographie dans les systèmes d'informations

La cartographie constitue un moyen de réaliser des études et des analyses à travers des représentations par des cartes. Cette dernière est par ailleurs souvent utilisée dans les systèmes d'information géographique (SIG). Vous devez certainement connaître les méta-moteurs de recherche tels que Kartoo ou Mapstan (existe plus officiellement) qui proposent de cartographier les résultats. Ces derniers présentent les résultats sous forme d'une carte reliant entre eux les documents voisins (similarité, proximité...) qui sont aussi regroupés selon leurs sites internet.

Imaginez-vous que l'on puisse réaliser cette même représentation selon les tendances du moment ? Ainsi, à travers un tel système, on pourrait mesurer les aspirations sur internet selon des termes, des concepts...  Je pense naturellement à la blogosphère car cela devient évident vu l'émergence de ces dernières années. Il est vrai qu'actuellement nous utilisons des tags permettant de mettre en avant des termes selon des ensembles de documents numériques. Quand aux "trackbacks", ils nous permettent de relier des billets sur nos blogs. Nous avons donc à notre disposition plusieurs façons de nous classifier à travers ce vaste réseau mais cela n'est pas automatique.

Justement, RTGI est une jeune entreprise qui dispose d'une solution permettant de réaliser cette tâche. Cette solution initiée à la base d'un projet universitaire de l'UTC est basée sur la topographie des réseaux de sites internet. Elle est par ailleurs utilisée sur le site Observatoire Présidentielle 2007, qui est un lieu de veille et d'analyse de blogs consacrés aux prochaines élections présidentielles.

La cartographie de cette solution est vraiment une belle réussite car elle nous permet géographiquement de connaitre le voisinage entre les blogs mais aussi les blogs les plus influants.



Pourquoi ne mettrions-nous pas en place un tel système sur la blogosphère ? Ainsi Technorati aurait un concurent direct avec une approche vraiment séduisante.

Vers des moteurs de recherche de nouvelle génération

Les moteurs de recherche furent créés à l'explosion de l'Information. Une réalité engendrée par la démocratisation d'internet au grand public. Ce nouveau souffle propulse de plus en plus les moteurs de recherche au premier plan face aux milliards de documents qui forment l'internet d'aujourd'hui. Mais cette explosion apporte aussi de nouveaux problèmes auxquels la recherche d'information est confrontée notamment la pertinence des résultats.

De manière générale, les algorithmes les plus utilisés dans les moteurs de recherche sont souvent basés sur des calculs statistiques avec un peu de sémantique mais disparate. La classification des documents utilise des méthodes de vectorisation de documents. Cela permet de positionner un document dans un espace vectoriel. Un mécanisme de poids sur les mots caractérise les documents dans cet espace vectoriel. L'objectif de l'analyse et de l'indexation est d'abord de trouver des concepts plus importants et représentatifs dans les documents et de créer une représentation interne en utilisant ces concepts. Pour la recherche, l'algorithme le plus souvent utilisé est : "Terme Frequency - Inverted Document Frequency". Il combine deux critères, à savoir l'importance (fréquence d'occurrences) du terme pour un document et le pouvoir de discrimination de ce terme dans les autres documents. Google a développé ses fameux algorithmes PageRank et TrustRank, permettant de mesurer la popularité d'un document ainsi que le degré de confiance pour le classer lors des résultats de recherche. Jusqu'à présent les résultats semblent corrects.

Afin de rendre plus intelligent les résultats d'un corpus lors d'une recherche, on peut s'attendre à des évolutions certaines et futures dans les moteurs de recherche. Le but étant que le moteur de recherche comprenne la signification, le sens des termes qui sont recherchés par les utilisateurs. En effet l'un des problèmes actuels est que lors d'une recherche de mots dans les index des moteurs de recherche est que ces derniers sont très ambigus, c'est-à-dire qu'un mot peut désigner plusieurs sens. La conséquence est qu'un document contenant un mot ne désigne pas nécessairement le même sens que ce même mot dans une recherche.
Ainsi le traitement automatique du langage naturel (TALN) sera l'une des armes de ces derniers. Jusqu'à présent proposé aux entreprises ce traitement se fait de plus en plus attendre dans le domaine du grand public. D'après un article du New-York Times (Entrepreneurs See a Web Guided by Common Sense), l'intérêt commercial pour les années avenirs commencerait déjà à émerger dans la Silicon Valley. Ainsi quiconque proposerait un moteur de recherche répondant correctement à une requête du style "Je souhaite acheter un écrant TFT de 19" pas cher et mon budget est de 150€. Si possible dans la région parisienne." détrônerait le géant Google.

Enfin pour ma part, ce qui serait intéressant c'est que les moteurs de recherche de demain s'adaptent aux profils des utilisateurs selon leurs préoccupations et leurs goûts du moment.

Le Web sémantique et les microformats au W3C !

Le consortium W3C vient de publier la première version de la spécification "Gleaning Resource Descriptions from Dialects of Languages" (GRDDL), littéralement et dans la langue de Molière "glanage des descriptions de ressources à partir des dialectes de langages". Cette spécification permet d'établir un lien important entre les communautés du Web sémantique et des microformats. En effet, à l'heure actuelle, de nombreuses applications et communautés innovantes (Web 2.0) sur le Web ont pour objectif de standardiser afin de partager des données entre elles (agendas électroniques, contact...).
GRDDL se veut être le pont permettant de convertir les données exprimées dans un format XML tel que XHTML en données pour le Web sémantique. Ainsi, les utilisateurs/développeurs transformeront les données qu'ils souhaitent partager en un format pouvant être utilisé et transformé de nouveau pour d'autres applications. Ce qui permettra d'accroître une valeur ajouté des pages internet en les portant vers le Web sémantique.
Enfin les initiateurs des microformats sont deux sociétés reconnues sur le web, Technorati et CommerceNet, ils ont par ailleurs publié des spécifications sur le site internet http://microformats.org dans la partie wiki.

Edit, 2006/10/26 : le consortium propose une série de Use Case (cas d'utilisation) afin de mieux comprendre le concept.

Composition de documents électroniques personnalisés basée sur des ontologies

Depuis sa création, internet a toujours eu comme vocation de faciliter le partage aux connaissances. Que cela soit pour de l'actualité, de l'éducation, de la formation, des sciences... Ce réseau est devenu un véritable outil de communication incontournable pour nous tous. Blog, wiki sont autant d'applications facilitant le partage à l'information, mais rares sont celles qui offrent la capacité de s'adapter aux contraintes exprimées par les utilisateurs. Alors une approche basée sur l'ontologie et la sémantique permettant de composer dynamiquement les pages assurerait un niveau d'adaptation pour les utilisateurs finaux.

Olivier Cueilliez, dans le cadre de son mémoire au CNAM, propose une étude sur les applications d'e-Learning et la mise en oeuvre d'un système capable de composer des documents en fonction des intentions des utilisateurs. Le mémoire est fort intéressant, à ce jour de nombreux contenu fleurissent sur internet et cette étude pourrait bien servir de base pour réaliser des applications internet vraiment accessible au niveau contenu.

- page 1 de 2

Shortcuts

Who ?

My links