Home » Blog

Blog

Tags | Timeline

Ask se met à l'ajax

Après la recherche web, images, feeds, MonAsk... Ask revoit son interface et son nom de code AskX. Nouvelle charte graphique et fioritures ajax en tout genre sont au rendez-vous. On retrouve des idées de Searchmash (Google) et de Livesearch (Alltheweb) telles que les suggestions, les billets des blogs, l’encyclopédie Wikipedia. L'interface propose donc un mixage de résultats sur les recherches en les agrégeant dans une seule et même fenêtre de votre navigateur. Ce qui est drôle c'est que la disposition des différents éléments de l'interface se trouve exactement comme ceux des deux autres moteurs de recherche. Il n'y a donc pas trop d'originalité pour le moment.

L'année 2007 promet une guerre impitoyable entre les éditeurs afin de gagner des part du marché dans le domaine du search. Il faut savoir que les utilisateurs utilisent majoritairement les moteurs de recherche, au lieu des accès directs comme les favoris ou la saisie de l’url du site directement dans leur navigateur. Les interfaces des moteurs de recherche tentent à proposer une nouvelle approche de la recherche sur internet en étant beaucoup plus riche sur les résultats retounés. Si aujourd'hui Google est le leader de la recherche sur Internet, les choses peuvent évoluer et changer dans les jours à venir.

La cartographie dans les systèmes d'informations

La cartographie constitue un moyen de réaliser des études et des analyses à travers des représentations par des cartes. Cette dernière est par ailleurs souvent utilisée dans les systèmes d'information géographique (SIG). Vous devez certainement connaître les méta-moteurs de recherche tels que Kartoo ou Mapstan (existe plus officiellement) qui proposent de cartographier les résultats. Ces derniers présentent les résultats sous forme d'une carte reliant entre eux les documents voisins (similarité, proximité...) qui sont aussi regroupés selon leurs sites internet.

Imaginez-vous que l'on puisse réaliser cette même représentation selon les tendances du moment ? Ainsi, à travers un tel système, on pourrait mesurer les aspirations sur internet selon des termes, des concepts...  Je pense naturellement à la blogosphère car cela devient évident vu l'émergence de ces dernières années. Il est vrai qu'actuellement nous utilisons des tags permettant de mettre en avant des termes selon des ensembles de documents numériques. Quand aux "trackbacks", ils nous permettent de relier des billets sur nos blogs. Nous avons donc à notre disposition plusieurs façons de nous classifier à travers ce vaste réseau mais cela n'est pas automatique.

Justement, RTGI est une jeune entreprise qui dispose d'une solution permettant de réaliser cette tâche. Cette solution initiée à la base d'un projet universitaire de l'UTC est basée sur la topographie des réseaux de sites internet. Elle est par ailleurs utilisée sur le site Observatoire Présidentielle 2007, qui est un lieu de veille et d'analyse de blogs consacrés aux prochaines élections présidentielles.

La cartographie de cette solution est vraiment une belle réussite car elle nous permet géographiquement de connaitre le voisinage entre les blogs mais aussi les blogs les plus influants.



Pourquoi ne mettrions-nous pas en place un tel système sur la blogosphère ? Ainsi Technorati aurait un concurent direct avec une approche vraiment séduisante.

Un moteur de recherche gratuit destiné aux entreprises

Ce qui était officieux devient officiel, Yahoo et IBM s'unissent afin de proposer un moteur de recherche dédié aux entreprises. Contrairement à d'autres solutions payantes telles que celles de FastSearch Appliance de Google ou celles d'ExaleadIBM OmniFind Yahoo Edition peut être téléchargée gracieusement.

Cette solution permet d'indexer jusqu'à 500.000 documents par serveur et plus de 200 formats de fichiers sont supportés. L'indexation s'appuie sur la librairie open source Lucene d'Apache Software Foundation. Il est donc possible d'indexer des systèmes de fichiers, des sites intranet mais aussi des sites internet. Quand à l'interface de recherche, elle propose d'effectuer des recherches sur ce qui a été indexé mais aussi sur internet à traver le moteur de recherche Yahoo (son intérêt).
La solution repose sur le framework open source Struts écrit entièrement en Java, il est donc probable qu'une personnalisation puisse être réalisée (ajout des flux RSS des résultats par exemple).

Il est clair que cette solution semble séduisante, mais peut-elle répondre aux besoins des entreprises dans un processus métier ? Je pense que non car le mode "payant" amène certainement d'autres services (traitements linguistiques, thesaurus, ontologies, accompagnements...) auquels cette solution ne peut pas répondre. Ceci étant dit pour les PME ne souhaitant pas investir dans une solution payante, elle est trés intéressante.

Qu'en est-il du Web 2.0 ?

Certains craignent et disent que ce n'est finalement qu'une nouvelle bulle qui va exploser avec le temps. D'autres l'utilise et créé de nouveaux usages en faisant des buzz, ou tout simplement en répondant à de réels besoins. Certaines start-ups n'ont même pas de business model mais qu'importe cela ne gêne pas vraiment les investisseurs. Les jugements se fondent via le potentiel que les start-ups peuvent dégager dans cette nouvelle ère de jeux. Une nouvelle ère du web est bien là ! Les anciens entrepreneurs reviennent au devant de la scène avec de nouvelles armes et d'autres sautent le pas. Le fait que le haut débit soit de plus en plus présent (merci Jean Michel Billaut) dans les foyers entraîne un nouveau départ sur l'utilisation d'internet de nos jours. Sans compter les nouvelles technologies qui ne sont pas si nouvelles que cela puisse paraître.

Le "Web 2.0" n'est pas une technologie mais l'aboutissement de nouvelle utilisations d'internet par les utilisateurs (User Generated Content). C'est un phénomène marquant l'histoire du net qui ouvre les portes aux utilisateurs. En effet les internautes à travers leurs blogs, wikis ou autres services deviennent producteurs de contenu au lieu d'être de simples lecteurs passifs. Ils interagissent aussi dans les applications internet de nouvelle génération. 

Des applications naissent chaque jour entraînant une vague d'utilisations dès le premier lancement. On y retrouve de tout : des pages personnalisées (NetVibes, WebWag...), des services collaboratifs, des multimédias, des vidéos (YouTube, Dailymotion...), des musiques (Jamendo...)... mais aussi des systèmes d'exploitations en ligne tel que EyeOS (dont je vous avais déjà parlé). Un bon niveau de maturité a permit d'aboutir à des résultats plus que satisfaisants. Cependant la concurrence est forte. Certains seront oubliés et d'autres exploseront, s'imposeront pour devenir plus ou moins leader sur le marché (schéma classique).

Eric Van der Vlist, qui intervenait autour du thème "Web 2.0, risques et perspectives" au sparklingPoint hier, vient de publier un excellent billet à ce sujet et sur les tenants de cette vague.

Vers des moteurs de recherche de nouvelle génération

Les moteurs de recherche furent créés à l'explosion de l'Information. Une réalité engendrée par la démocratisation d'internet au grand public. Ce nouveau souffle propulse de plus en plus les moteurs de recherche au premier plan face aux milliards de documents qui forment l'internet d'aujourd'hui. Mais cette explosion apporte aussi de nouveaux problèmes auxquels la recherche d'information est confrontée notamment la pertinence des résultats.

De manière générale, les algorithmes les plus utilisés dans les moteurs de recherche sont souvent basés sur des calculs statistiques avec un peu de sémantique mais disparate. La classification des documents utilise des méthodes de vectorisation de documents. Cela permet de positionner un document dans un espace vectoriel. Un mécanisme de poids sur les mots caractérise les documents dans cet espace vectoriel. L'objectif de l'analyse et de l'indexation est d'abord de trouver des concepts plus importants et représentatifs dans les documents et de créer une représentation interne en utilisant ces concepts. Pour la recherche, l'algorithme le plus souvent utilisé est : "Terme Frequency - Inverted Document Frequency". Il combine deux critères, à savoir l'importance (fréquence d'occurrences) du terme pour un document et le pouvoir de discrimination de ce terme dans les autres documents. Google a développé ses fameux algorithmes PageRank et TrustRank, permettant de mesurer la popularité d'un document ainsi que le degré de confiance pour le classer lors des résultats de recherche. Jusqu'à présent les résultats semblent corrects.

Afin de rendre plus intelligent les résultats d'un corpus lors d'une recherche, on peut s'attendre à des évolutions certaines et futures dans les moteurs de recherche. Le but étant que le moteur de recherche comprenne la signification, le sens des termes qui sont recherchés par les utilisateurs. En effet l'un des problèmes actuels est que lors d'une recherche de mots dans les index des moteurs de recherche est que ces derniers sont très ambigus, c'est-à-dire qu'un mot peut désigner plusieurs sens. La conséquence est qu'un document contenant un mot ne désigne pas nécessairement le même sens que ce même mot dans une recherche.
Ainsi le traitement automatique du langage naturel (TALN) sera l'une des armes de ces derniers. Jusqu'à présent proposé aux entreprises ce traitement se fait de plus en plus attendre dans le domaine du grand public. D'après un article du New-York Times (Entrepreneurs See a Web Guided by Common Sense), l'intérêt commercial pour les années avenirs commencerait déjà à émerger dans la Silicon Valley. Ainsi quiconque proposerait un moteur de recherche répondant correctement à une requête du style "Je souhaite acheter un écrant TFT de 19" pas cher et mon budget est de 150€. Si possible dans la région parisienne." détrônerait le géant Google.

Enfin pour ma part, ce qui serait intéressant c'est que les moteurs de recherche de demain s'adaptent aux profils des utilisateurs selon leurs préoccupations et leurs goûts du moment.

10 ans d'APRIL ça se fête !

À l'occasion des dix ans d'existence d'APRIL, l'association organise le samedi 18 novembre et le mardi 21 novembre 2006 à la Cité des Sciences et de l'Industrie à Paris deux journées de démonstrations et de débats autour du logiciel libre. Cette occasion est de revenir sur les dix années qui ont pas mal changé le monde du logiciel libre et sur les perspectives pour les prochaines années.

Enfin, ces deux journées se divisent en deux volets dont un grand public et un destiné aux professionnels. Je vous laisse découvrir les programmes.

Le Web sémantique et les microformats au W3C !

Le consortium W3C vient de publier la première version de la spécification "Gleaning Resource Descriptions from Dialects of Languages" (GRDDL), littéralement et dans la langue de Molière "glanage des descriptions de ressources à partir des dialectes de langages". Cette spécification permet d'établir un lien important entre les communautés du Web sémantique et des microformats. En effet, à l'heure actuelle, de nombreuses applications et communautés innovantes (Web 2.0) sur le Web ont pour objectif de standardiser afin de partager des données entre elles (agendas électroniques, contact...).
GRDDL se veut être le pont permettant de convertir les données exprimées dans un format XML tel que XHTML en données pour le Web sémantique. Ainsi, les utilisateurs/développeurs transformeront les données qu'ils souhaitent partager en un format pouvant être utilisé et transformé de nouveau pour d'autres applications. Ce qui permettra d'accroître une valeur ajouté des pages internet en les portant vers le Web sémantique.
Enfin les initiateurs des microformats sont deux sociétés reconnues sur le web, Technorati et CommerceNet, ils ont par ailleurs publié des spécifications sur le site internet http://microformats.org dans la partie wiki.

Edit, 2006/10/26 : le consortium propose une série de Use Case (cas d'utilisation) afin de mieux comprendre le concept.

Google recrute

Ce soir je viens de recevoir un email d'une personne qui est en charge de recruter des nouveaux ingénieurs pour Google. Son objectif est de renforcer les équipes déjà présentent sur Dublin et Zürich. Le but étant de participer à l'évolution des services de Google. L'environnement de travail est fortement orienté open source (GNU/linux & co.).

Alors si l'aventure (Les dix bonnes raisons de travailler chez Google) vous tente et que vous avez par ailleurs une expérience significative, un passage au "GLAT" (Google Labs Aptitude Test) sera peut être demandé... contactez-moi.

Pour ce qui est du centre de recherche basé sur Paris, il semble que cela ne soit pas encore fait.

Exalead est dans les bacs !

La nouvelle version du moteur de recherche Exalead vient d'être fraîchement lancée. Elle est encore en statut bêta car le lancement de la version officielle prendra en compte les remarques et les suggestions des utilisateurs. Par ailleurs un outil de feedback (développé par la société DIMELO) a été mis en place, afin que les utilisateurs puissent faire part aux développeurs de leurs griefs ou de leurs idées afin d'améliorer le moteur de recherche. Je vous invite donc à suivre l'évolution du moteur de recherche car il va s'enrichir au cours des mois à venir par de nouvelles fonctionnalités séduisantes .

A noter que le logo a de nouveau changé et je le trouve bien mieux que celui de la preview (j'y ai participé et les échanges étaient vraiment sympathiques).

Un fabuleux moteur de recherche de matière grise

Jusqu'à présent, les développeurs utilisaient souvent des outils tels que les forums, les newsgroups, les portails ou tout simplement les moteurs de recherches généralistes afin de répondre à leurs besoins.
Dorénavant ils pourront utiliser un moteur de recherche dédié à leurs usages. En effet, Google vient de rendre publique son moteur de recherche qui était à l'origine, pour des besoins internes.
Google Code Search développé au sein de l'équipe Google Labs indexe les lignes de codes publiques et disponibles à travers internet ainsi que celles qui se trouvent dans les archives (ex : zip, tar.gz). Son index regroupe notamment les immenses bibliothèques spécialisées des grandes universités américaines et de sites open source tels que SourceForge.

En termes de requêtes, il est possible d'utiliser les expressions régulières afin de limiter, par exemple la recherche sur un langage en particulier. Par ailleurs en ce qui concerne des problématiques liées aux différentes licences, Google propose dans les options avancées de limiter la recherche à une licence. Ceci étant dit, il y a de bonnes chances que nous trouvions des algorithmes qui ne devraient pas être lisibles...

Vu les nombreux projets open source présents sur internet, cet outil deviendra très utile pour les programmeurs fainéants ou cherchant quelques lignes de codes afin d'enrichir ou de développer leurs applications. Il deviendra donc un véritable moteur de matière grise dans le domaine de la programmation.

A noter que divers moteurs de recherche spécialisés dans l'indexation des lignes de code ont déjà été lancés sur internet, je pense notamment à koders et krugle. Mais vu l'architecture de Google, je ne pense pas qu'ils puissent bénéficier d'un index aussi riche.

Enfin Google propose de plus en plus d'outils de recherche différents afin de répondre aux exigences des internautes, je pense notamment au moteur d'images, d'actualités, de vidéos... A l'aube où internet ne cesse de croître je pense que leur approche semble être une excellente initiative. Le fait de proposer un moteur de recherche spécifique à un domaine canalise nos recherches et élimine ainsi les documents pouvant être inintéressants.

- page 4 de 9 -

Add to Netvibes Add to Google Homepage

Shortcuts

Who ?

My links