Depuis ces neuf dernières années, l'XML (Extensible Markup Language) a su
s'imposer dans tous les domaines liés à l'informatique. Son objectif est de
définir un langage générique et structuré afin de répondre à un format
d'échange (exemple: entre des applications) en favorisant l'interopérabilité.
Comparé à d'autres langages (exemple: wiki), l'XML est une syntaxe qui se
veut être générique et extensible. Il est ainsi possible de structurer une
grande variété de contenus selon nos besoins. C'est par ailleurs un groupe de
travail du consortium W3C
réunissant de grands noms tels que James Clark et Jon Bosak qui ont rédigés les
spécifications.
XML connait un succès exemplaire en partie dû à l'explosion/l'exposition de
l'interconnexion des machines sur internet et aux usages que nous faisons à ce
jour. Vous le convoitez, par ailleurs, dans de nombreuses applications internet
s'appuyant autour du RSS, de l'Atom, du Podcast, de l'OpenSearch (pour ne citer qu'eux). Ainsi que
des applications "lourdes" telles que l'OpenDocument d'OpenOffice.
Nicolas Toper,
dans le cadre de son mémoire au CNAM, s'est initié à la rédaction d'une étude sur
l'interrogation
de documents XML et les cas d'utilisation couverts par tout langage de ce
type. L'étude montre les différentes manières d'interroger des documents XML
ainsi que leurs avantages et leurs limites. Elle est relativement intéressante
je vous invite donc à la lire. Ceci étant dit, J'aurais bien aimé qu'il évoque
RelaxNG,
l'alternative à l'XML Schema mais c'est déjà pas
mal.
Blog
L'Interrogation des documents XML
Par Régis Gaidot le jeudi, mars 8 2007, 01:32 - Programmation
Vous souhaitez passer sur Windows Vista ?
Par Régis Gaidot le lundi, mars 5 2007, 02:00 - Autre
Vous êtes séduit par les interfaces et les interactions que propose Microsoft avec la dernière version de Windows mais votre PC ne vous permet pas d'en bénéficier ? Pourquoi ne pas basculer sur d'autres alternatives ? Savez-vous qu'il existe d'autres systèmes d'exploitation proposant des interfaces encore plus sexy et plus rapides qu'Aero de Microsoft Windows Vista ? J'ai nommé le couple GNU/Linux et Beryl ! Pour le fun voici une petite vidéo pour le plaisir des yeux montrant ce que l'on peut faire avec.
FOSDEM 2007 est déjà terminé
Par Régis Gaidot le lundi, février 26 2007, 01:07 - Humeur
La septième édition du
FOSDEM est terminée. J'ai
été vraiment impressionné par le nombre de personnes présentes. J'ai comme
l'impression que nous sommes de plus en plus nombreux et j'en suis plus que
ravi. Durant ces deux jours, je n'ai hélas pas pu assister à toutes les
conférences que j'avais prévu
(Linux Kernel d'Andrew Morton, LinuxBIOS de Ronald G Minnich, LPI
Certifications et exam de Klaus Behrla, Semantic KDE, Mozilla, Django, Java,
JSON...) du fait que je n'étais pas vraiment seul. J'ai rencontré énormément de
monde dont Myriam Schweingruber de la FSF Europe, nous avons échangé sur pas mal de
sujets concernant les actions que nous (APRIL) menions mais aussi d'autres sujets. Le
nouveau T-shirt d'APRIL a véritablement fait un tabac (hé Jérémie tu déchires
!). J'ai par ailleurs été plusieurs fois photographié mais de dos.
Enfin, pour ceux et celles qui n'ont pas pu être présents au FOSDEM, soyez
patient les vidéos ainsi que les slides seront
prochainement disponibles sur le site. En attendant quelques photos
"clusterisées" et
"tagées"
sur flickr.
Les moteurs de recherche multimédia débarquent !
Par Régis Gaidot le vendredi, février 9 2007, 01:32 - Moteur de recherche
Parallèlement aux moteurs de recherche qui incluent de nouvelles fonctionnalités tels que les axes de navigation (ex: Exalead) et l'agrégation basique de résultats de textes, d'images et de vidéos (ex: AskX et Searchmash) avec des interfaces de plus en plus sexy, il existe des moteurs de recherche multimédia qui naissent jour après jour. En effet, depuis quelques mois nous assistons à une effervescence mais aussi à un véritable besoin sur la recherche de contenus multimédia. Ceci est dû au fait que nous (les "user generated content") produisons, utilisons et recherchons dorénavant sur ces derniers. Il n'y qu'à voir la popularité des sites de vidéos et de photos tels que Dailymotion, YouTube, vpod.tv ou Flickr qui l'atteste clairement. C'est un véritable défi parmi les plus passionnants à l'heure actuelle dans le domaine de la recherche. Internet contient des volumes de fichiers multimédia importants et surtout en constante évolution.
Ainsi des projets européens fleurissent en proposant/promettant de réaliser des moteurs de recherche dans les fichiers multimédias. Une prouesse technologique dans le sens où c'est tout notre univers numérique qui peut et pourra être recherchable. Les principaux moteurs de recherche ne permettent pas à ce jour de réaliser ce type de recherche. Au delà des expérimentations réalisées sur les recherches images comme Retrievr, on assiste réellement à un fiasco numérique et ce n'est pas pour me déplaire. Il n'y a donc plus de limites en terme de technologies. Auparavant utilisées dans l'industrie, les reconnaissances de formes et vocales sont maintenant présentes sur internet. Cela repousse donc les limites actuelles qui à ce jour s'arrête à une recherche textuelle sur les textes présents sur nos sites internet. Ainsi de nouveaux moteurs de recherche voient le jour et sont au devant de la scène.
Les premiers se nomment Midomi et Nayio. A partir d'un simple micro vous pouvez
rechercher dans un corpus musical (cela me rappelle un entretien que j'ai eu en
septembre 2006 où j'évoquais cette idée !). La technologie de reconnaissance
vocale de Midomi est une véritable innovation. En effet, baptisée MARS
(Multimodal Adaptive Recognition System), elle permet d'analyser de nombreux
paramètres sonores tels que la variation de tempo, la détection des pauses et
respirations, ou l'intonation des voix. Tous les éléments sont traités
indépendamment ce qui permet une analyse plus fine sur ce que l'utilisateur
souhaite trouver. Par exemple, MARS peut traiter les paroles de l'utilisateur
si il chante, siffle ou fredonne une chanson.
Il serait certainement intéressant de mettre en place la recherche vocale sur
les sites internet mais aussi sur des bornes dans les magasins tels que la
FNAC ou Virgin Mégastore (Ouriel
m'a devancé mais c'était bien sur les mêmes exemples que ceux sur lesquels je
me suis appuyé). Qui n'a jamais rencontré des difficultés à trouver le nom de
l'artiste ou le titre d'une chanson qu'ils découvrent par les médias ? Et
pourquoi ne pas l'utiliser sur d'autres axes comme la commande vocale pour les
voitures (GPS par exemple), les maisons (domotique), les téléphones
portables... Enfin, à ce jour, 2 millions de titres sont répertoriés et peuvent
être acheté.
Les trois autres, BlinkX, PodZinger et Pluggd, proposent de rechercher en full text sur le contenu vidéo. Ils s'appuient sur le "SpeechToText" qui est une retranscription des données audio en texte. Ces moteurs sont particulièrement réservés à l'indexation de podcasts. Outre la recherche classique par termes, Pluggd se différencie des autres en permettant de se positionner à l'endroit de la vidéo où l'expression est dite (cela me rappelle aussi le fameux septembre 2006).
Polar Rose est moteur qui propose d'effectuer des recherches basées sur la reconnaissance faciale. Il est clair que le champ de recherche se limite pour l'instant aux photos afin de déceler des visages. En effet, pour le moment, la plupart des moteurs s'appuient sur la description (attribut alt), le nom du fichier et les textes qui sont autours des images (avec un calcul de distance). Mais ce n'est pas pour autant que les moteurs vous retournent des résultats pertinents. Les photos n'étant pas forcément bien renseignées, l'équipe de Polar Rose compte sur les utilisateurs (esprit communautaire on y est !) afin d'aider le moteur sur l'identification (base d'apprentissage).
Enfin, un consortium européen de neuf partenaires issus d'universités et d'entreprises (dont IBM) ont décidé de fédérer pour réaliser un moteur de recherche multimédia en P2P. Le projet se nomme SAPIR (Search on Audio-visual content using Peer-to-peer Information Retrieval). Son approche est différente contrairement aux moteurs de recherche classiques. En effet, son objectif est de créer un vaste réseau poste à poste, dans lequel chaque utilisateur représente un poste qui produira du contenu multimédia. Les fournisseurs de services joueront le rôle de postes supérieurs qui gèreront des index et offriront la recherche vocale et textuelle. SAPIR intégrera des technologies telles que la reconnaissance vocale, la reconnaissance de forme, la classification...
Avec ces nombreux projets, on peut s'attendre à de réelles innovations sur la recherche d'informations. Imaginez-vous qu'à l'aide de votre micro (et pourquoi pas à travers la pensée) vous recherchiez un sujet et que le moteur de recherche vous remonte dans une seule et même interface des résultats pertinents sur les textes, les vidéos et les fichiers musicaux présents dans votre univers numérique. On pourrait aussi s'attendre à ce que les reconnaissances de formes et vocales soient liées (VideoToText) afin de pouvoir par exemple, déceler dans un film les personnages et ce qu'ils se disent. Bref, seul l'avenir nous le dira. En attendant restez spectectateurs de ces nouvelles avancées car la compétition dans ce domaine sera rude. J'imagine que nous aurons de nombreux spectacles des plus passionnants.
FOSDEM 2007
Par Régis Gaidot le samedi, février 3 2007, 01:24 - Humeur
FOSDEM (Free and Open Source Developers' European Meeting), LE rendez-vous des développeurs européens du libre aura lieu comme chaque année à Bruxelles en Belgique. L'édition 2007 se tiendra sur le site du campus du Solbosh, dans les locaux de l'Université Libre (ça ne change pas), le week-end du 24 et 25 février. Le traditionnel "beer event" au Roy d’Espagne se fera le vendredi 23 au soir. Le but de cet événement est de rassembler les développeurs et les utilisateurs de logiciels libres dans un endroit pour discuter des dernières avancées du logiciel libre et open source ; ainsi que de promouvoir le développement et l'enrichissement des solutions libres et open source.
C'est l'occasion de rencontrer quelques "stars internationales" du libre dont notamment Andrew Morton, le bras droit de Linus Torvalds et principal mainteneur de la branche 2.6 du kernel Linux (qui est par ailleurs chez Google), Miguel de Icaza initiateur de Gnome et de Mono, Jim Gettys (One Laptop Per Child), Keith Packard (X.org Foundation) entre autres... et moi même (je plaisante!).
Enfin cet évènement ainsi que l'accès aux conférences et autres réunions sont totalements gratuits grâce aux sponsors. Cela n'empêche pas que vous pouvez donner de l'argent et/ou de votre temps. Autant vous dire que c'est l'un des rendez-vous à ne pas manquer mais j'imagine que vous l'avez deviné.
Candidats.fr, campagne pour les libertés numériques
Par Régis Gaidot le vendredi, février 2 2007, 20:20 - Humeur
Candidats.fr est un site lancé par notre association (APRIL). Son but est de faire prendre conscience aux candidats à l'élection présidentielle 2007 du nombre d'utilisateurs et des enjeux qui menacent les logiciels libres. Un questionnaire thématique a été mis en place avec la collaboration de la FFII France, Racketiciel et l'association EPI. L'objectif du questionnaire est de permettre aux candidats de répondre aux électeurs afin qu'ils connaissent les points de vue des candidats sur plusieurs sujets tels que la brevetabilité et l'interopérabilité. Leurs réponses seront par ailleurs mises en ligne au fur et à mesure de leur réception. C'est une initiative à ne pas prendre à la légère car nous avons eu droit au projet de loi DADVSI qui n'est guère satisfaisante actuellement.
Nous vous encourageons donc à soutenir l’initiative de candidats.fr, en participant au débat mais aussi en signant la déclaration d'utilisation. Celle-ci demande à ce que les droits des développeurs et des utilisateurs de logiciels libres soient pris en compte par le législateur et que les pouvoirs publics encouragent l’utilisation, la production, et la diffusion de logiciels libres.
A noter : fin février, une démarche similaire sera lancée pour les législatives.
La révolution (bottom-up !)
Par Régis Gaidot le vendredi, février 2 2007, 02:33 - Internet
Je ne suis pas du genre à relayer l'information sans y ajouter une réelle valeur mais celle-ci passera à la trappe. En effet cette vidéo montre les étapes franchies du texte simple à l'ère numérique (HTML, hyperlien, XML, blog, wiki, photo, vidéo, collaboratif, Web 2.0...). "Web 2.0... The Machine is Us/ing Us" est devenue une vidéo incontournable dans la blogosphère et j'imagine bien que vous l'avez déjà vu ailleurs... J'ajouterais que le jeu de mot est bien trouvé et que la vidéo est vraiment remarquable !
Solution Linux 2007
Par Régis Gaidot le lundi, janvier 8 2007, 21:17 - Humeur
Le salon "Solutions
Linux 2007" approche, il aura lieu au CNIT Paris La Défense du 30 au 1er
février 2007. Cet évènement est l'une des références européenne incontournable
dédiée aux libres. C'est donc un rendez-vous à ne pas manquer. Outre les
classiques exposants, ce sont plusieurs conférences qui sont organisées
(techniques, keynotes...), dont certaines seront libres d'accès. On peut noter
au programme une table ronde Mozilla/Xul, une journée autour de l'ObjectWeb et bien-sûr les thèmes
les plus classiques autour de GNU/Linux et des logiciels libres.
Comme les précédentes années notre association (APRIL) sera présente au sein du village associatif.
N'hésitez pas à venir nous voir pour discuter, échanger, connaître un peu mieux
l'association,
ses membres ainsi que nos projets. Par ailleurs notre association organise la
visite d'Eben
Moglen, qui est l'avocat de la Free Software Foundation, directeur du Software Freedom Law
Center, et dirige avec Richard Stallman le processus de révision de la GNU GPL. Eben Moglen
fera notamment l'intervention finale des keynotes le 30 janvier de 13 heure à
14 heures. Présent au stand d'APRIL n'hésitez pas à me saluer.
Moteur de recherche européen flop ou pas flop ?
Par Régis Gaidot le mercredi, décembre 27 2006, 20:54 - Moteur de recherche
Le 26 avril 2005, la France et l'Allemagne avaient annoncé la mise en place
du projet Quaero destiné à
developper un moteur de recherche qui devrait permettre la recherche de
documents textes, images, sons et vidéos. C'est un programme mobilisateur pour
l'innovation industrielle de 250 M€ (sur 5 ans) dont le but est de contrer la
domination des éditeurs américains dans ce domaine tels que Google. Il regroupe une collaboration
d'entreprises européennes comme Thomson, France Télécom, Exalead (groupe industriel Qualis) et Deutsche Telekom mais aussi de l'INA et l'Inria.
C'est donc un projet ambitieux mélangeant des cultures bien différentes. Le
financement, un sujet épineux, devait fonctionner en partie
sur des fonds publics-privés français et allemands mais jusqu'à ce jour seule
l'Agence de l'innovation industrielle a promis 90 millions
d'euros.
Alors que le projet Quaero a été discret pendant plusieurs mois, le 18 décembre
2006, nous apprenons officiellement que l'Allemagne a décidé de se retirer du
projet. Ils annoncent par ailleurs qu'ils poursuivront leurs propres objectifs
en travaillant sur un projet national dont le programme se nomme Theseus.
L'Allemagne souhaite donc réaliser un moteur de recherche sémantique. Les
ambitions de ce projet s'orientent sur le traitement automatique du langage
naturel permettant de comprendre le sens d'une requête et des corpus
indexés. Un objectif intéressant et attendu dont
je vous avais déjà parlé auparavant. Il est a noté que la
décision ne date pas d'hier, en effet les partenaires industriels allemands
Deutsche Telekom, SAP ou encore
Bertelsmann souhaitaient
se retirer depuis pas mal de temps (voir le début).
Cette séparation amène finalement à deux projets nationaux. Il semblerait que
des divergences entre les différents participants aient été le moteur de cette
séparation. D'après les dires de l'Agence de l'innovation industrielle, ces deux projets
ne seront pas rivaux mais complémentaires. Cela remet forcément en cause le
projet Quaero dont la dimension était européenne.
Quelques jours plus tard (fruit du hasard ?), la Commission Européenne annonce un financement de près de 8 M€ à un projet dont le nom est Pharos. Pharos est un moteur de recherche multimédia centré sur l'indexation de contenus audio et vidéos. Ce projet vise aussi à apporter la recherche contextuelle, la recherche d'interactions vocales ainsi que la gestion des droits, de présence... Avec l'émergence de l'utilisation de podcast sur internet ce moteur a donc une place importante dans ce marché qui est encore niche. Ce projet est par ailleurs mené par la société norvégienne FAST Search & Transfer et implique douze autres partenaires dont le Centre de recherche L3S de l'Université d'Hannovre, Knowledge Media Institute of The Open University ou encore France Télécom (encore). Il est clair que l'ambition ultime de ce projet est portée sur les problématiques d'indexation de données multimédias et non aux textes. Mais on peut se demander si il ne réside pas une rivalité entre ces projets vu la similarité des objectifs.
Durant ces dernières années, Google a acquis une position plus ou moins dominante dans les usages des utilisateurs grâce à l'interface simplifiée et à la pertinence des résultats avec le fameux PageRank. Ce qui entraine un véritable danger dû au monopole dans la distribution de l'information sur internet. Imaginez vous que Google décide de ne plus indexer certains sites internet (déjà vu) ? Ainsi ce monopole pourrait nuire aux partages de connaissances et d'informations. Il devient naturel que des industriels souhaitent contrer ce géant en fédérant ensembles. Mais je ne pense pas qu'ils y arriveront ainsi. Cherchant à concurrencer Google, les européens finiront par se concurrencer entre-eux.
Wikiasari, un moteur de recherche plus humain
Par Régis Gaidot le mardi, décembre 26 2006, 18:39 - Moteur de recherche
Wikipedia vient d'annoncer le lancement de Wikiasari, un moteur de recherche basé sur le même principe que Wikipedia à savoir collaboratif. Son ambition est de concurrencer Google. Wikiasari devrait s'appuyer sur les moteurs de recherche open source Lucene et Nutch d'Apache Software Foundation. La classification des résultats fera entrer le facteur humain (people-powered search results) contrairement aux autres moteurs. Selon Jimmy Wales, co-fondateur de Wikipedia, les algorithmes de recherche sont encore incapables de juger de façon pertinente la qualité d'une page web ou d'un site internet. Ceci dit, j'ai beaucoup de mal à imaginer comment va être traité cette masse d'information vu son opulence. Par ailleurs Wikiasari souhaite recruter un maximum de personnes afin de participer au développement du projet. Attendons de voir, le projet serait déjà en cours de finalisation, nous en saurons beaucoup plus au premier semestre 2007.
« billets précédents - page 3 de 9 - billets suivants »

