Moteur de recherche

Yahoo apporte des bananes au Web sémantique, 1ère partie

Annoncé, il y un peu plus de 2 mois, « l’écosystème de développement pour la recherche » de Yahoo est maintenant disponible sous le nom de SearchMonkey. Si, avec cette initiative, le but de Yahoo était de reprendre la main sur Google dans le domaine strict de la recherche, il me semble qu’une partie du chemin a été effectuée. Plutôt, que d’attaquer frontalement Google en mettant en œuvre de nouveaux algorithmes de recherche, par exemple, Yahoo a choisi un angle différent jusqu’alors complètement inexploité et, pourtant, oh ! combien important, à savoir la présentation des résultats.

Et, dans ce cadre, aiguillé certainement par le succès de facebook et de sa plate-forme de développement ouvert, le moteur de recherche a mis à disposition des développeurs une plate-forme pour mettre au point des applications qui agrémentent, selon la volonté des utilisateurs, les résultats de la recherche. Pour ce faire, il rend disponible les données de son index, soit les données structurées avec des microformats, RDFa et eRDF (embeded RDF, un système à peu près équivalent à RDFa) et déjà indexées, par défaut, par Yahoo, soit directement l’ensemble des données de la page Web à partir desquelles le développeur peut créer une extraction personnelle.

La plate-forme SearchMonkey comprend donc trois parties (et donc trois billets pour le présenter…) :

  • Une à destination des utilisateurs ;
  • Une à destination des développeurs ;
  • Une à destination des propriétaires de sites.

Du Web sémantique au web de données, 2ème partie : retour sur un des articles de Roger T. Pédauque

Dans un billet récent écrit à l'occasion des dix ans de XML, Jean-Michel Salaün regrettait que les pistes esquissés dans le second texte de l'initiative Roger T. Pédauque intitulé « Le texte en jeu. Permanences et transformations du document » n'aient pas été suivies. Et, pour cause me semble-t-il, si ce deuxième article, comme les deux autres d'ailleurs, apporte incontestablement des pistes de réflexion et certaines idées intéressantes, il comprend des contre-sens et des erreurs si manifestes qu'il n'est possible de s'en servir comme base de travail qu'après une critique attentive, sans compter sur le style que Jean-Michel Salaün lui-même dans le billet cité plus haut qualifie « d'un peu abscons » et que je qualifierais plus volontiers de charabia jargonnant.

A l'heure où le Web sémantique pointe avec plus de prégnance le bout de son nez, il n'est pas inutile de revenir sur ce texte, comme sur les deux autres, pour construire une nouvelle réflexion. C'était d'ailleurs leur but : susciter le débat et la réflexion, sans présager des évolutions futures et selon l'état de l'art du moment. Or, il semble bien qu'une nouvelle étape est sur le point d'être franchie, si ce n'est pas déjà le cas. A titre personnel, si, à l'époque de rédaction du texte, je n'étais pas en mesure de m'immiscer dans le débat, j'espère, aujourd'hui, pouvoir apporter ma pierre à l'édifice.

Avant d'entrer dans le vif du sujet, je voudrais rappeler, pour mémoire, que cette initiative avait été lancée par le réseau thématiques pluridisciplinaires dédié au document, le RTP-DOC d'où le pseudonyme Roger T. Pédauque pour signer les textes collectifs, placé sous le patronage de feu le département STIC du CNRS. L'objectif était de réfléchir selon une approche pluridisciplinaire à la notion de document dans le contexte des changements induits par le numérique.

RDFaiser votre blog, 1ère partie : la théorie

HTML, de même que XHTML, permet de structurer une page Web selon les principes d'un langage à balises. Les différentes balises indiquent de manière hiérarchique le rôle joué par chaque portion d'information dans le contexte de la page Web.

Ainsi, la structure d'un document HTML, comme tout document XML, ne décrit pas le contenu/le message de la page Web, mais reflète la structure de la page Web en elle-même. C'est pourquoi il me semble erroné de parler de « sémantisation », lorsqu'on encode en HTML ou, plus généralement, en XML.

Par exemple, soient les deux portions de code HTML suivants :

<div class="contenu">
       <p class="normal">
                Le <a href="http://barcamp.org/SemanticCampParis">SemanticWeb camp</a> se déroule à Paris
                le samedi 16 février 2008 à partir de 9h30.
        </p>
</div>

<div class="description">
         <ul>
                <li>
                        Le <strong>SemanticWeb camp</strong> se déroule à Paris
                        le <em>samedi 16 février 2008 à partir de 9h30</em>.
                </li>
         </ul>
</div>

Ces deux bouts de code HTML ne sont pas identiques du point de vue de la structure, pourtant, du point de vue du contenu, ils délivrent la même information, le même message. Si certains pourraient y voir une limitation de XML, il n'en est rien. Ce n'est tout simplement pas son rôle.

Google se met à FOAF

Alors que j'expliquais dans mon précédent billet en quoi FOAF constituait une réponse aux problèmes de contrôle des données personnelles et d'interopérabilité entre les services de réseaux sociaux, Google semble me donner raison avec la sortie d'une nouvelle API : Social graph API. Si Google a longtemps traîné des pieds avant de s'intéresser aux technologies du Web sémantique, nous étions beaucoup à penser qu'il ne leur faudrait pas énormément de temps le jour où il voudrait s'y mettre. Il semble que ce jour soit arrivé.

Qu'en est-il exactement ?

Pour faire simple, Social Graph API permet d'effectuer des requêtes sur les données indexées par Google et encodées avec FOAF, XFN (pour faire vite, l'équivalent de FOAF avec les microformats) et les profils publics de certains services comme MySpace. Grâce à cette API, vous pouvez, par exemple, retrouver les différentes personnes qui sont liées à vous par l'intermédiaire d'un FOAF ou d'un XFN, concaténer en un point unique les informations éparpillées entre vos différentes pages de profils des services auxquels vous êtes abonnés (cf. l'exemple de Plaxo Pulse)...

Naviguer et rechercher dans le Web of data

Preuve supplémentaire de la maturité du Web of data, nous disposons, à l'instar de son grand frère le Web, de navigateurs et de moteurs de recherche spécialisés ne requérant aucune compétence particulière.

Petite revue de détail, en commençant par les navigateurs.

  • A tout seigneur, tout honneur, le premier d'entre eux mis au point par Tim Berners-Lee et son équipe : Tabulator développé en Javascript (Attention, ne fonctionne qu'avec Firefox). Outre la possibilité de naviguer dans des sources en RDF, il offre un moteur SPARQL, la possibilité d'afficher les données géographiques sur une carte, les événements sur un agenda ou une frise chronologique. C'est certainement le plus complet, mais aussi le plus geeky.
  • Dans le même ordre d'idée et proposant des fonctionnalités à peu près équivalentes, OpenLink RDF browser, qui sert de démonstration au produit Virtuoso server qui intègre, entre autres, un RDF store et sparql end point, de l'éditeur Open link software.
  • Plus simple et plus accessible, Disco hyperdata Browser mis au point par l'équipe de Dbpedia (ces types ne s'arrêtent jamais). L'interface est, disons, épurée, mais efficace. Fonctionnalité intéressante, il intègre un cache qui permet de disposer de tous les triples consultés récemment par les utilisateurs pour naviguer dans les sources RDF.
  • Pour finir, celui qui me semble le plus prometteur : Zitgist browser mis au point par Frederik Giasson. Aussi simple que Disco, mais avec une interface très agréable.

De la polysémie de "catégorisation" en recherche d'informations

A l'occasion de la lecture de l'article d'Olivier Ertzcheid, Gabriel Gallezot et Eric Boutin sur les perspectives documentaires sur les moteurs de recherche, je suis tombé sur le mot « catégorisation », j'imagine, pour définir la fonctionnalités des « termes associés » d'Exalead. Il s'avère que ce terme est une source d'ambiguïté permanente dans le domaine de la recherche d'informations, faisant référence à plusieurs fonctionnalités et plusieurs technologies différentes. Je vous propose de faire le point afin d'y voir plus clair.

Le Web sémantique rencontre....

Preuve de la maturité des technologies et des standards du Web sémantique, les chercheurs et promoteurs du domaine vont à la rencontre d'autres communautés pour leur proposer de nouvelles applications, des idées, des tutoriaux, leurs expertises... Bref, des rencontres se produisent qui amènent des projets qui montrent chaque jour un peu plus la pertinence du modèle. Voici une petite sélection repérée ces derniers jours.

La pelote de retour de vacances

Il aura fallu que je sois bloqué chez moi pour finir de vider mon agrégateur de tout ce qui s'était accumulé avant et pendant les vacances. Et, pour finir définitivement cette opération qui m'aura pris pas mal de temps, voici quelques ressources qui ont plus particulièrement retenu mon attention.

Du côté du Web sémantique, les deux sujets à la une restent "linked data" et RDF/A.

Quelles sont les éléments d'une architecture documentaire ?

Dans une organisation, on crée et on échange de l'information. Mais on n'y accède pas de manière uniforme : selon les personnes qui veulent y accéder ou utiliser ces informations, selon leurs différentes fonctions dans l'organisation, ils auront besoin d'y accéder de manière différente, pour des besoins différents. Toutefois, l'information, elle, reste toujours la même : c'est sa présentation et son usage qui change, ce sont les différents services que l'on construit au-dessus de cette information qui doivent changer suivant les besoins.

La pelote spéciale RDFa et autres

Pour finir (provisoirement) avec les billets sur RDFa, je vous propose une petite pelote sur le sujet qui vous prouvera que c'est la techno qui monte et comme il faut vider l'agrégateur, j'y ajouterai deux-trois autres choses.

Pour ceux qui s'intéressent au RDFa, le site à ne pas louper : RDFa.info, tenu par Ben Adida (que je remercie au passage pour le billet et le commentaire sur ma ch'tite knowledge box), Mark Birbeck, Steven Pemberton et Michael Hausenblas. Ce blog centralise toutes les informations qui sortent à droite à gauche sur le sujet (et du coup, la principale source de cette pelote).

RDFa a fait parler de lui dans les différentes conférences dont je vous ai déjà parlé :

Syndiquer le contenu