<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0" xml:base="http://www.lespetitescases.net" xmlns:dc="http://purl.org/dc/elements/1.1/">
<channel>
 <title>TEI</title>
 <link>http://www.lespetitescases.net/index102</link>
 <description>The taxonomy view with a depth of 0.</description>
 <language>fr</language>
<item>
 <title>Du Web sémantique au web de données, 2ème partie : retour sur un des articles de Roger T. Pédauque</title>
 <link>http://www.lespetitescases.net/Du-Web-semantique-au-web-de-donnees-2</link>
 <description>&lt;p&gt;Dans un &lt;a href=&quot;http://blogues.ebsi.umontreal.ca/jms/index.php/2008/02/14/427-xml-10-ans-d-une-revolution-documentaire&quot;
            &gt;billet récent&lt;/a&gt; écrit à l&#039;occasion des dix ans de XML, Jean-Michel Salaün regrettait que les pistes esquissés dans
         le second texte de l&#039;initiative Roger T. Pédauque intitulé «&amp;nbsp;&lt;a
            href=&quot;http://archivesic.ccsd.cnrs.fr/sic_00001401/fr/&quot;&gt;Le texte en jeu. Permanences et transformations du
         document&lt;/a&gt;&amp;nbsp;» n&#039;aient pas été suivies. Et, pour cause me semble-t-il, si ce deuxième article, comme les deux
         autres d&#039;ailleurs, apporte incontestablement des pistes de réflexion et certaines idées intéressantes, il comprend des
         contre-sens et des erreurs si manifestes qu&#039;il n&#039;est possible de s&#039;en servir comme base de travail qu&#039;après une critique
         attentive, sans compter sur le style que Jean-Michel Salaün lui-même dans le billet cité plus haut qualifie
         «&amp;nbsp;d&#039;un peu abscons&amp;nbsp;» et que je qualifierais plus volontiers de charabia jargonnant. &lt;/p&gt;
      &lt;p&gt;A l&#039;heure où le Web sémantique pointe avec &lt;a href=&quot;http://www.lespetitescases.net/du-web-semantique-au-web-de-donnees-1&quot;
            &gt;plus de prégnance le bout de son nez&lt;/a&gt;, il n&#039;est pas inutile de revenir sur ce texte, comme sur les deux autres,
         pour construire une nouvelle réflexion. C&#039;était d&#039;ailleurs leur but&amp;nbsp;: susciter le débat et la réflexion, sans
         présager des évolutions futures et selon l&#039;état de l&#039;art du moment. Or, il semble bien qu&#039;une nouvelle étape est sur le
         point d&#039;être franchie, si ce n&#039;est pas déjà le cas. A titre personnel, si, à l&#039;époque de rédaction du texte, je n&#039;étais
         pas en mesure de m&#039;immiscer dans le débat, j&#039;espère, aujourd&#039;hui, pouvoir apporter ma pierre à l&#039;édifice.&lt;/p&gt;
      &lt;p&gt;Avant d&#039;entrer dans le vif du sujet, je voudrais rappeler, pour mémoire, que cette initiative avait été lancée par le
         réseau thématiques pluridisciplinaires dédié au document, le &lt;a href=&quot;http://rtp-doc.enssib.fr/&quot;&gt;RTP-DOC&lt;/a&gt; d&#039;où le
         pseudonyme Roger T. Pédauque pour signer les textes collectifs, placé sous le patronage de feu le département STIC du
         CNRS. L&#039;objectif était de réfléchir selon une approche pluridisciplinaire à la notion de document dans le contexte des
         changements induits par le numérique.&lt;/p&gt;
&lt;!--break--&gt;
      &lt;h1&gt;1- Retour sur la notion de texte et son analyse&lt;/h1&gt;
      &lt;p&gt;Si je souscris totalement à la méthodologie initiale annoncée, à savoir repartir de la notion de texte pour redéfinir le
         concept de document, il est erroné d&#039;affirmer que cette notion n&#039;a pas été étudiée par les chercheurs, en particulier les
         linguistes, lorsque les premières DTD ont été créés pour SGML au début des années 1990 en vue d&#039;encoder des textes . &lt;/p&gt;
      &lt;p&gt;Il existe des références incontournables dans la littérature anglo-saxonne, à commencer par l&#039;article fondamental de
         Steven DeRose, David Durand, Elli Mylonas et Allen Renear, «&amp;nbsp;&lt;a
            href=&quot;http://delivery.acm.org/10.1145/270000/264843/p1-derose.pdf?key1=264843&amp;amp;key2=4476372611&amp;amp;coll=&amp;amp;dl=ACM&amp;amp;CFID=15151515&amp;amp;CFTOKEN=6184618&quot;
            &gt;What is text, really&lt;/a&gt;&amp;nbsp;?&amp;nbsp;» paru en 1990 dans la revue &lt;i&gt;Journal of Computing in Higher
         education&lt;/i&gt;. Je vous engage à relire cet article, écrit au moment où l&#039;initiative de la &lt;a href=&quot;http://www.tei-c.org/&quot;
            &gt;TEI&lt;/a&gt; n&#039;en est qu&#039;à ses balbutiements, tant il reste encore d&#039;actualité&lt;a class=&quot;sdfootnoteanc&quot;
            name=&quot;sdfootnote1anc&quot; href=&quot;#sdfootnote1sym&quot;&gt;
            &lt;sup&gt;1&lt;/sup&gt;
         &lt;/a&gt;. Les auteurs démontrent la pertinence du modèle de construction hiérarchique de la structure logique d&#039;un texte
         qu&#039;ils nomment le modèle OHCO (Ordered hierarchy of content object) et qui constitue la base des langages à balise, de
         SGML et, donc de XML. A travers différents exemples, ils montrent l&#039;apport de ce modèle pour l&#039;exploitation informatique
         du texte.&lt;/p&gt;
      &lt;p&gt;Évidemment, le modèle du codex imprimé est encore très présent dans les idées exposées, mais cet article dont il faut se
         souvenir de la date de rédaction constitue une base indéfectible et citée encore régulièrement par les spécialistes de
         l&#039;encodage. Les auteurs ont précisé certaines idées dans un second article&amp;nbsp;: «&amp;nbsp;&lt;a
            href=&quot;http://www.stg.brown.edu/resources/stg/monographs/ohco.html&quot;&gt;Refining our Notion of What Text Really Is: The
            Problem of Overlapping Hierarchies&lt;/a&gt;&amp;nbsp;», revenant sur le problème bien connu de &lt;a
            href=&quot;http://www.lespetitescases.net/les-realites-dans-l-encodage-xml&quot;&gt;l&#039;overlapping&lt;/a&gt;, problématique absente,
         malheureusement, de l&#039;article de Roger.&lt;/p&gt;
      &lt;p&gt;De même, il n&#039;est pas une présentation, formation, tutoriel sur la TEI, sans retour initial sur la notion de textes. Il
         suffit pour s&#039;en convaincre de parcourir &lt;a href=&quot;http://www.tei-c.org/Support/Learn/tutorials.xml&quot;&gt;les documents mis à
            disposition sur le site du consortium&lt;/a&gt;. M&#039;inspirant modestement de ces documents pour &lt;a
            href=&quot;http://www.lespetitescases.net/la-tei-principes-et-fonctionnements&quot;&gt;ma présentation de la TEI à l&#039;ADBS&lt;/a&gt;, il y
         a quelques semaines, j&#039;avais proposé cette définition à la notion de texte&amp;nbsp;:&lt;/p&gt;
      &lt;p&gt;«&amp;nbsp;Un texte est la représentation sur un support d’une construction logique de phrases formant une
         unité.&amp;nbsp;»&lt;/p&gt;
      &lt;p&gt;Elle n&#039;est évidemment ni complète, ni parfaite, à commencer par l&#039;utilisation de la notion de phrase que je remplacerais
         par «&amp;nbsp;portions d&#039;information&amp;nbsp;». En effet, et c&#039;est une seconde erreur de l&#039;article de Roger, les DTD
         créées pour encoder le texte ne reposent pas sur le concept de phrases, mais sur un concept plus générique de divisions
         ou blocs d&#039;information, la fameuse balise &amp;lt;div&amp;gt; que l&#039;on retrouve aussi bien dans TEI, &lt;a
            href=&quot;http://www.docbook.org/&quot;&gt;docbook&lt;/a&gt; que HTML et, à un niveau de granularité plus restreint, au concept de
         chaînes de caractères référencées (inline element), qui prend la forme de la balise &amp;lt;rs&amp;gt; et dérivés
         (persName, geoName, hi, emph...) dans la TEI ou &amp;lt;span&amp;gt; en HTML. L&#039;erreur des auteurs de l&#039;article repose,
         mais peut-être que je me trompe, sur l&#039;idée que ces différentes &lt;a
            href=&quot;http://fr.wikipedia.org/wiki/Document_Type_Definition&quot;&gt;DTD&lt;/a&gt; ont été construites par des linguistes. Si on ne
         peut nier leur apport, il ne faut pas oublier que la TEI a été créée par des chercheurs issus de toutes les disciplines
         des sciences humaines, que Docbook a été créé par &lt;a href=&quot;http://norman.walsh.name/&quot;&gt;Norm Walsh&lt;/a&gt; qui, aux dernières
         nouvelles, n&#039;est pas linguiste, et que HTML a été créé par Tim Berners-Lee, qu&#039;on ne présente plus.&lt;/p&gt;
      &lt;p&gt;Ainsi, si le postulat de départ est bon, l&#039;état de l&#039;art ne semble pas complet&lt;a class=&quot;sdfootnoteanc&quot;
            name=&quot;sdfootnote2anc&quot; href=&quot;#sdfootnote2sym&quot;&gt;
            &lt;sup&gt;2&lt;/sup&gt;
         &lt;/a&gt; ce qui entraîne des fausses affirmations et, aussi, peut-être, une mauvaise interprétation du but et du rôle de XML
         dans l&#039;exploitation informatique des textes ce que viennent, d&#039;ailleurs, confirmer les deux problèmes suivants.&lt;/p&gt;
      &lt;h1&gt;2- La fausse croyance de la prévalence du fond sur la forme&lt;/h1&gt;
      &lt;p&gt;Voilà, un argument maintes fois entendu, l&#039;utilisation de XML étant basé sur la séparation entre la structure logique du
         texte (désigné par les termes «&amp;nbsp;fond&amp;nbsp;» et «&amp;nbsp;contenu&amp;nbsp;» dans l&#039;article) et sa structure
         physique (sa mise en forme), l&#039;apport de la forme (mise en page, graphisme, design) à l&#039;appréhension et à la
         compréhension du texte serait nié par les mécanismes d&#039;encodage. Il existerait une prévalence implicite du fond sur la
         forme. Il me semble que cet argument est le signe d&#039;une incompréhension des raisons qui ont poussé à cette séparation et
         d&#039;une méconnaissance du fonctionnement concret de XML.&lt;/p&gt;
      &lt;p&gt;Repartons, si vous le voulez bien, des buts qui ont vu la mise en place de la TEI, qui constitue la première DTD pour
         encoder les textes et une source d&#039;inspiration pour les suivantes. Le but initial était de partager une syntaxe et des
         règles communes de balisage en vue de l&#039;échange des corpus informatisés. Cette idée est d&#039;ailleurs toujours présente dans
         la TEI, puisque le guidelines a pour titre, &lt;a href=&quot;http://www.tei-c.org/release/doc/tei-p5-doc/en/html/index.html&quot;&gt;
            &lt;i&gt;Guidelines for Electronic text encoding and Interchange&lt;/i&gt;
         &lt;/a&gt;. Dans ce contexte, l&#039;encodage de la structuration logique du texte assurait l&#039;échange du texte dans une version
         facilement exploitable par des logiciels et des applications. &lt;b&gt;La séparation entre structure logique et structure
            physique ne relève donc pas d&#039;une quelconque posture épistémologique, mais constitue plutôt un moyen d&#039;assurer
            l&#039;échange et l&#039;exploitation du texte encodé dans des contextes différents&lt;a class=&quot;sdfootnoteanc&quot;
               name=&quot;sdfootnote3anc&quot; href=&quot;#sdfootnote3sym&quot;&gt;
               &lt;sup&gt;3&lt;/sup&gt;
            &lt;/a&gt;.&lt;/b&gt;&lt;/p&gt;
      &lt;p&gt;Pour autant, structure logique ne signifie pas forcément que les caractéristiques physiques d&#039;un texte ne sont pas
         encodées. Cela dépend tout simplement du &lt;a href=&quot;http://www.lespetitescases.net/encodage-en-question&quot;&gt;but poursuivi&lt;/a&gt;
         et des besoins de traitement du texte. C&#039;est d&#039;ailleurs la raison pour laquelle j&#039;ai conservé la notion de
         «&amp;nbsp;support&amp;nbsp;» dans ma définition du texte. La TEI offre précisément les moyens d&#039;encoder toutes les
         caractéristiques physiques du texte traité, dans la mesure où ils font partie intégrante de son appréhension et méritent,
         à ce titre, un traitement particulier. Citons, par exemple, le changement de ligne (&amp;lt;lb/&amp;gt;), le changement
         de page (&amp;lt;pb/&amp;gt;), le changement de mains dans un document manuscrit (&amp;lt;handSchift/&amp;gt;), ou encore
         les abréviations (&amp;lt;abbr&amp;gt;) pour rester dans le registre de la paléographie.&lt;/p&gt;
      &lt;p&gt;Par ailleurs, la TEI offre avec l&#039;attribut &lt;a
            href=&quot;http://www.tei-c.org/release/doc/tei-p5-doc/en/html/ref-att.global.html&quot;&gt;rend&lt;/a&gt; disponible pour tous les
         éléments la possibilité d&#039;indiquer le rendu/la mise en forme de la portion encodée. L&#039;attribut style joue exactement le
         même rôle pour HTML. De plus, toujours en HTML, toutes les pages possèdent un lien vers une feuille de style qui exprime
         la mise en forme de la page grâce au langage &lt;a href=&quot;http://fr.wikipedia.org/wiki/Feuilles_de_style_en_cascade&quot;&gt;CSS&lt;/a&gt;,
         format tout aussi pérenne, ouvert et libre que XML. Ce mécanisme de lien est très clairement exprimé dans les
         recommandations de HTML. D&#039;ailleurs, la montée en puissance, ces dernières années, du couple HTML-CSS est une preuve que
         la séparation n&#039;est pas vécue comme un abandon de la forme, mais plutôt comme un moyen de rationaliser le développement
         de sites Web, d&#039;en assurer un suivi, une maintenance et une évolution simplifiés, tout en économisant de la bande
         passante.&lt;/p&gt;
      &lt;p&gt;Enfin, un dernier exemple démontre l&#039;irrecevabilité de cet argument&amp;nbsp;: la mise au point récente et l&#039;utilisation
         de schémas XML pour décrire les documents issus d&#039;un traitement de texte. Dans ce cas, le fichier XML comprend des
         informations de mise en forme physique du texte ce qui démontre bien que cette séparation n&#039;est pas à faire sur le
         contenu lui-même, mais sur la structure logique. Or, dans ce cas, la mise en forme participe de la structure logique du
         texte, c&#039;est pourquoi la plupart des informations de mise en forme sont présents directement dans le fichier XML.&lt;/p&gt;
      &lt;h1&gt;3- XML et la grammatisation du document&lt;/h1&gt;
      &lt;p&gt;Cette connaissance approximative du rôle et du fonctionnement de XML apparaît de manière encore plus explicite dans la
         thèse qui sous-tend l&#039;ensemble de l&#039;article, à savoir les rapports entre XML et l&#039;évolution de la &lt;i&gt;grammatisation&lt;/i&gt;
         du document. &lt;/p&gt;
      &lt;p&gt;Les auteurs appliquent, à l&#039;évolution des langages documentaires utilisant XML, le concept de
         «&amp;nbsp;grammatisation&amp;nbsp;» forgé par Sylvain Auroux, à la suite de Jacques Derrida, et qui désigne la
         matérialisation de «&amp;nbsp;la substance d&#039;une expression en éléments matériels discrets et manipulables&amp;nbsp;». Ce
         faisant, ils distinguent trois postures dans l&#039;utilisation de la syntaxe XML marquant un contrôle de plus en plus accru
         du contenu du texte&amp;nbsp;:&lt;/p&gt;
      &lt;ul&gt;
         &lt;li&gt;«&amp;nbsp;DTD&amp;nbsp;», dont le but est d&#039;annoter et de manipuler des documents&amp;nbsp;; &lt;/li&gt;
         &lt;li&gt;«&amp;nbsp;Schémas&amp;nbsp;», dont le but est d&#039;échanger des données entre applications&amp;nbsp;; &lt;/li&gt;
         &lt;li&gt;«&amp;nbsp;RDF/S, Ontologies/OWL&amp;nbsp;» dont le but est d&#039;effectuer des inférences formelles sur le contenu.
         &lt;/li&gt;
      &lt;/ul&gt;
      &lt;p&gt;Or, cette analyse pose plusieurs problèmes. En premier lieu, elle traduit une confusion de taille entre la syntaxe XML et
        le modèle d&#039;encodage de l&#039;information sous-tendu par XML, à savoir un arbre. Si les deux premières postures utilisent à fois
         XML en tant que syntaxe et en tant que modèle, la troisième posture a pour base le modèle de graphes, sous-tendu par
         l&#039;utilisation de RDF, et &lt;b&gt;peut se traduire par une syntaxe XML, mais aussi d&#039;autres syntaxes&lt;/b&gt;&amp;nbsp;: Turtle,
         N-triples ou N3.&lt;/p&gt;
      &lt;p&gt;L&#039;information encodée grâce aux DTD et aux Schémas forme un arbre dont les nœuds sont constituées par les différents
         éléments ou balises utilisés. Dans le cas de RDF, l&#039;information encodée forme un graphe, selon le schéma
         «&amp;nbsp;sujet-prédicat-objet&amp;nbsp;» et constitue un modèle plus générique d&#039;encodage de l&#039;information, l&#039;arbre
         étant un type particulier de graphes.&lt;/p&gt;
      &lt;p&gt;Cette distinction entre modèle et syntaxe est d&#039;autant plus importante que les deux premières postures n&#039;ont pas le même
         rôle que la troisième. Les DTD et les &lt;a href=&quot;http://fr.wikipedia.org/wiki/Sch%C3%A9ma_XML&quot;&gt;schémas&lt;/a&gt; définissent un
         cadre ou une grammaire pour valider la structure de l&#039;information encodée en vue de son échange et/ou d&#039;une
         transformation, qui, au passage, ne pose aucun problème grâce à l&#039;utilisation de XSL&lt;a class=&quot;sdfootnoteanc&quot;
            name=&quot;sdfootnote4anc&quot; href=&quot;#sdfootnote4sym&quot;&gt;
            &lt;sup&gt;4&lt;/sup&gt;
         &lt;/a&gt;. &lt;a href=&quot;http://fr.wikipedia.org/wiki/RDF_Schema&quot;&gt;RDF schéma&lt;/a&gt; et &lt;a
            href=&quot;http://fr.wikipedia.org/wiki/Web_Ontology_Language&quot;&gt;OWL&lt;/a&gt; permettent de définir les relations entre différents
         types de ressources (document, page Web, objet, personne, concept...) pour échanger des données hétérogènes et y
         appliquer des inférences. Par exemple, une ontologie définie selon RDFS ou OWL permet de définir qu&#039;une ressource de type
         «&amp;nbsp;Personne&amp;nbsp;» entretient une relation de nature «&amp;nbsp;connaît&amp;nbsp;» avec une autre ressource
         de type «&amp;nbsp;Personne&amp;nbsp;». Ils ne servent en aucun cas à valider un document RDF. Ils offrent
         «&amp;nbsp;simplement&amp;nbsp;» un vocabulaire commun pour exprimer des prédicats sur des types de ressources.&lt;/p&gt;
      &lt;p&gt;De plus, la structuration d&#039;information en XML selon un cadre défini dans une DTD ou un schéma dépend d&#039;un contexte
         précis et se pense sur l&#039;ensemble de l&#039;information encodée. Ainsi, une même information peut être encodée de manière
         complètement différente tout en restant valide selon un schéma et sans que la nature du message soit différente. La
         structuration d&#039;information en RDF se conçoit, quant à elle, au plus proche de la donnée elle-même dans le contenu même
         du message véhiculé par l&#039;information.&lt;/p&gt;
      &lt;p&gt;De ce point de vue, le modèle exprime une idée tout à fait juste, à savoir que ces trois postures constituent une
         évolution dans l&#039;exploitation de différents niveaux de granularité de l&#039;information, pour en arriver à l&#039;exploitation par
         une machine du message véhiculé par l&#039;information. Pour autant, si les «&amp;nbsp;Schémas&amp;nbsp;» constituent bien une
         évolution des «&amp;nbsp;DTD&amp;nbsp;», offrant la possibilité de contrôler les types de données comme une date, une
         chaîne de caractères, un booléen.., la troisième posture relève d&#039;un paradigme différent et ne peut être assimilé à une
         évolution, mais plutôt à un complément. &lt;/p&gt;
      &lt;p&gt;D&#039;ailleurs, les deux aspects ont évolué de façon concomitante ces dernières années. La communauté XML a mis au point des
         technologies telles que &lt;a href=&quot;http://www.relaxng.org/&quot;&gt;Relax NG&lt;/a&gt; ou &lt;a href=&quot;http://www.schematron.com/&quot;
         &gt;schematron&lt;/a&gt; pour mieux contrôler et valider la structure des données, offrant les outils pour vérifier ce que les
         auteurs nomment la «&amp;nbsp;validité sémantique&amp;nbsp;», tandis que la communauté RDF a amélioré les moyens de
         définir une ontologie avec OWL mais aussi d&#039;autres systèmes d&#039;organisation des connaissances, comme les thésaurus avec &lt;a
            href=&quot;http://fr.wikipedia.org/wiki/SKOS&quot;&gt;SKOS&lt;/a&gt;. De même, deux langages de requêtes spécifiques ont été développées,
            &lt;a href=&quot;http://fr.wikipedia.org/wiki/Xquery&quot;&gt;Xquery&lt;/a&gt; pour XML et &lt;a href=&quot;http://fr.wikipedia.org/wiki/SPARQL&quot;
            &gt;SPARQL&lt;/a&gt; pour RDF ce qui démontre bien que les deux modèles sont différents.&lt;/p&gt;
      &lt;p&gt;Enfin, un aspect essentiel a été occulté dans cette analyse. A aucun moment, les auteurs n&#039;introduisent le rôle joué par
         le protocole &lt;a href=&quot;http://fr.wikipedia.org/wiki/Http&quot;&gt;HTTP&lt;/a&gt; et le concept des &lt;a
            href=&quot;http://fr.wikipedia.org/wiki/URI&quot;&gt;URI&lt;/a&gt; dans cette évolution. Or, l&#039;échange de données entre les applications
         n&#039;est possible que dans la mesure où nous disposons à la fois avec XML d&#039;une syntaxe indépendante des plates-formes et
         des logiciels, mais aussi d&#039;une couche de transport, un protocole de communication commun, HTTP et dans ce réseau, un
         moyen normalisé d&#039;identifier et de localiser une ressource grâce aux URI. Ainsi, XML schéma représente bien une évolution
         naturelle dans les outils de validation et de contrôle de l&#039;information encodée, mais il ne saurait être dissocié de
         HTTP, s&#039;il est conçu dans le cadre des échanges de données entre applications. Or, si les grands éditeurs (IBM, Sun,
         Microsoft, Oracle, SAP et consorts) se sont rués sur XML et en ont fait la base des architectures SOA, c&#039;est précisément,
         parce que le couple HTTP+XML constituait la réponse à la problématique des &lt;a
            href=&quot;http://fr.wikipedia.org/wiki/Intergiciel&quot;&gt;middlewares&lt;/a&gt; et de &lt;a
            href=&quot;http://fr.wikipedia.org/wiki/Enterprise_Application_Integration&quot;&gt;l&#039;EAI&lt;/a&gt;, très en vogue à l&#039;époque et
         largement remis en cause aujourd&#039;hui.&lt;/p&gt;
      &lt;h1&gt;4- Le Web sémantique ne se limite pas aux ontologies&amp;nbsp;!&lt;/h1&gt;
      &lt;p&gt;La confusion évoquée précédemment provient certainement d&#039;une mauvaise interprétation des buts poursuivis par le Web
         sémantique et, dans ce cadre, du rôle précis de RDF et des ontologies. De ce point de vue, cet article constitue un bon
         exemple des méprises &lt;a href=&quot;http://www.lespetitescases.net/du-web-semantique-au-web-de-donnees-1&quot;&gt;dont je parlais dans
            un précédent billet&lt;/a&gt;. &lt;/p&gt;
      &lt;p&gt;Ainsi, pour les auteurs, le Web sémantique vise à «&amp;nbsp;construire un métalangage, fondé sur les ontologies,
         représentant de façon formelle le contenu des documents qui pourra donc servir de base à des modélisations
         informatiques&amp;nbsp;». Or, les ontologies ne constituent pas la base du Web sémantique, mais elles y participent,
         constituant une des briques. C&#039;est RDF, dont il est fait malheureusement trop peu allusion dans l&#039;article, qui constitue
         la base des technologies du web sémantique. En limitant le Web sémantique aux ontologies, les auteurs ont naturellement
         porté le débat sur les problématiques déjà connus dans l&#039;intelligence artificielle, à savoir, pour faire court, la
         dangerosité de modéliser l&#039;ensemble des connaissances du monde selon une ontologie imposée et unique ce qui réduit
         inévitablement le sens porté par un texte à une interprétation. De ce point de vue, la partie intitulée
         «&amp;nbsp;Questionner le Web sémantique&amp;nbsp;» est un conglomérat de tous les fantasmes véhiculés par cette idée
         d&#039;ontologie universelle.&lt;/p&gt;
      &lt;p&gt;Or, comme le rappelle James Hendler dans &lt;a href=&quot;http://www.mindswap.org/blog/2007/11/21/shirkyng-my-responsibility/&quot;
            &gt;cette réponse à Clay Shirky&lt;/a&gt;, au contraire de systèmes traditionnelles de représentation de la connaissance (les
         bases de connaissances auxquels fait allusion l&#039;article) centralisés et imposant de partager la même définition des
         concepts communs, le Web sémantique est plus flexible et n&#039;impose pas l&#039;utilisation d&#039;une seule ontologie, les mécanismes
         étant suffisamment puissants pour introduire des inférences entre deux données qui n&#039;utilisent pas la même ontologie.
         Cette puissance est offerte par le modèle de base qui sous-tend tout l&#039;édifice du Web sémantique, à savoir RDF. Ainsi,
         contrairement à ce qu&#039;affirment l&#039;article et les tenants du concept de Web socio-sémantique, &lt;a
            href=&quot;http://www.slideshare.net/fabien_gandon/le-web-smantique-nest-pas-antisocial-version-de-2006&quot;&gt;le Web sémantique
            n&#039;est pas anti-social&lt;/a&gt; et ne dépendrait pas d&#039;une communauté ou d&#039;un contexte social donné et imposé.&lt;/p&gt;
      &lt;p&gt;Même si les technologies du Web sémantique offrent le moyen de représenter «&amp;nbsp;de manière formelle des contenus
            &lt;i&gt;[nda&amp;nbsp;: est-ce à assimiler à la notion de texte&amp;nbsp;?]&lt;/i&gt; via les ontologies&amp;nbsp;» en vue d&#039;une
         exploitation par une machine, le but initial du Web sémantique est plutôt d&#039;échanger à une très large échelle des données
         de nature hétérogènes, ce que ne permet pas XML qui impose l&#039;utilisation de schémas identiques ou une transformation
         préalable, et, éventuellement, grâce aux systèmes des ontologies, d&#039;y appliquer des mécanismes simples d&#039;inférence.
         Ainsi, le Web sémantique ne s&#039;intéresse pas directement au texte en lui-même, mais aux données qui le décrivent ou le
         caractérisent, ce qu&#039;on appelle communément les métadonnées, ou à des données précises à l&#039;intérieur du texte comme le
         permet RDFa.&lt;/p&gt;
      &lt;h1&gt;5- Évolution du Web sémantique depuis l&#039;écriture de l&#039;article&lt;/h1&gt;
      &lt;p&gt;L&#039;article constitue un bon point de repère pour évaluer l&#039;évolution du Web sémantique et son appropriation. Les
         différentes briques et technologies du Web sémantique sont habituellement représentées sous la forme d&#039;un cake. Or, au
         gré des recherches, ce cake évolue et la dernière version est largement différente de la version proposée par l&#039;article.&lt;/p&gt;
      &lt;p&gt;&lt;img src=&quot;http://www.w3.org/2007/03/layerCake.png&quot; alt=&quot;layer cake of semantic Web&quot;/&gt;
&lt;/p&gt;&lt;p&gt;Dans cette
         nouvelle version, à la base, nous trouvons toujours les URI qui permettent d&#039;identifier les ressources (sujet ou,
         éventuellement, objet d&#039;un triple) et les prédicats. RDF est le modèle de base pour l&#039;échange des données et peut
         éventuellement s&#039;appuyer sur XML, dans le cas de l&#039;utilisation de la syntaxe RDF/XML. Au-dessus, on trouve SPARQL pour
         effectuer des requêtes, RDFS et OWL pour définir des vocabulaires RDF, assimilables à des ontologies et RIF, un langage
         de définition de règles. XML schema et les namespaces ont complètement disparus du cake, englobés dans la brique XML.&lt;/p&gt;
      &lt;p&gt;De même, si, à terme, les technologies du Web sémantique devrait améliorer la recherche d&#039;information par une meilleure
         caractérisation des données et des relations qu&#039;elles entretiennent entre elles, nous savons aujourd&#039;hui que cela n&#039;est
         pas son but initial, mais plutôt une conséquence. Ainsi, à une vision top-down qui a longtemps été l&#039;axe privilégié par
         les recherches sur le Web sémantique, il se substitue peu à peu, entre autres par l&#039;écosystème initié par le Web 2.0, une
         approche bottom-up dans lequel ce sont les annotations portés par l&#039;utilisateur ou les données structurés qu&#039;ils génèrent
         qui sont exploitées par les technologies du Web sémantique. De ce point de vue, Dbpedia est un exemple parfait. Partant
         du contenu mis à disposition sur wikipedia, le projet Dbpedia vise à mettre à disposition cette masse d&#039;informations en
         RDF pour une meilleure exploitation par les machines de ce gisement de données.&lt;/p&gt;
      &lt;h1&gt;6- Retour sur l&#039;exemple donnée en annexe de l&#039;article&lt;/h1&gt;
      &lt;p&gt;En annexe du document, un exemple illustre les trois postures abordés dans l&#039;article. Malheureusement, il comprend un
         certain nombre d&#039;erreurs. Ainsi, le manque de maîtrise des technologies dont il est fait preuve pourrait expliquer en
         partie les contre-sens de l&#039;article. &lt;/p&gt;
      &lt;p&gt;L&#039;exemple utilisant une DTD ne pose pas de problèmes particuliers, si ce n&#039;est qu&#039;il aurait mérité un balisage plus fin.
         Si, à première vue, le schéma semble bien défini dans le second exemple, sa déclaration est complètement
         fausse. Dans le cas d&#039;un schéma, il ne faut pas utiliser de doctype, le schéma étant déclaré dans l&#039;élément racine du
         fichier XML. De plus, il est obligatoire de déclarer l&#039;espace de nom par défaut correspondant au schéma XML ce qui nous
         donne&amp;nbsp;: &lt;/p&gt;
      &lt;div class=&quot;codeblock&quot;&gt;&lt;code&gt;&amp;lt;?xml version=&amp;quot;1.0&amp;quot; encoding=&amp;quot;UTF-8&amp;quot;?&amp;gt;&lt;br /&gt;&amp;lt;CRH &lt;br /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; xmlns=&amp;quot;http://www.rogerpedauque.fr/casclinique/ns/&amp;quot;&lt;br /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; xmlns:xsi=&amp;quot;http://www.w3.org/2001/XMLSchema-instance&amp;quot;&lt;br /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; xsi:schemaLocation=&amp;quot;http://www.rogerpedauque.fr/casclinique/ns/ &lt;a href=&quot;http://www.rogerpedauque.fr/casclinique/ns/casclinique.xsd&amp;quot;&amp;gt;&lt;br /&gt;&quot; title=&quot;http://www.rogerpedauque.fr/casclinique/ns/casclinique.xsd&amp;quot;&amp;gt;&lt;br /&gt;&quot;&gt;http://www.rogerpedauque.fr/casclinique/ns/casclinique.xsd&amp;quot;&amp;gt;&lt;br /&gt;&lt;/a&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; [...]&lt;br /&gt;&amp;lt;/CRH&amp;gt;&lt;br /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; &lt;/code&gt;&lt;/div&gt;
      &lt;p&gt;L&#039;exemple de RDF est complètement faux et démontre une incompréhension totale de son fonctionnement&amp;nbsp;: les
         espaces de noms ne sont pas déclarés, il met en lumière la confusion entre le modèle XML et le modèle RDF. Voici
         approximativement ce qu&#039;il pourrait obtenir&amp;nbsp;:&lt;/p&gt;
      &lt;div class=&quot;codeblock&quot;&gt;&lt;code&gt;&amp;lt;?xml version=&amp;quot;1.0&amp;quot; encoding=&amp;quot;UTF-8&amp;quot;?&amp;gt;&lt;br /&gt;&amp;lt;rdf:RDF &lt;br /&gt;&amp;nbsp;&amp;nbsp; xmlns:rdf=&amp;quot;http://www.w3.org/1999/02/22-rdf-syntax-ns#&amp;quot; &lt;br /&gt;&amp;nbsp;&amp;nbsp; xmlns:rdfs=&amp;quot;http://www.w3.org/2000/01/rdf-schema#&amp;quot;&lt;br /&gt;&amp;nbsp;&amp;nbsp; xmlns:med=&amp;quot;http://www.rogerpedauque.fr/casclinique/&amp;quot;&amp;gt;&lt;br /&gt;&amp;nbsp;&amp;nbsp; &amp;lt;rdf:Description rdf:about=&amp;quot;urn:hopital-toto:patient/1050&amp;quot;&amp;gt;&lt;br /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; &amp;lt;med:poids&amp;gt;78&amp;lt;/med:poids&amp;gt;&lt;br /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; &amp;lt;med:taille&amp;gt;169&amp;lt;/med:taille&amp;gt;&lt;br /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; &amp;lt;med:tension&amp;gt;14-8&amp;lt;/med:tension&amp;gt;&lt;br /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; &amp;lt;med:saturation&amp;gt;98&amp;lt;/med:saturation&amp;gt;&lt;br /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; &amp;lt;med:symptome_constate rdf:resource=&amp;quot;urn:hopital-toto:symptome/030&amp;quot;/&amp;gt;&lt;br /&gt;&amp;nbsp;&amp;nbsp; &amp;lt;/rdf:Description&amp;gt;&lt;br /&gt;&amp;nbsp;&amp;nbsp; &amp;lt;rdf:Description rdf:about=&amp;quot;urn:hopital-toto:symptomes/030&amp;quot;&amp;gt;&lt;br /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; &amp;lt;rdfs:label&amp;gt;Douleurs thoraciques&amp;lt;/rdfs:label&amp;gt;&lt;br /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; &amp;lt;med:maladie rdf:resource=&amp;quot;urn:hopital-toto:maladie/100&amp;quot;/&amp;gt;&lt;br /&gt;&amp;nbsp;&amp;nbsp; &amp;lt;/rdf:Description&amp;gt;&lt;br /&gt;&amp;nbsp;&amp;nbsp; &amp;lt;rdf:Description rdf:about=&amp;quot;urn:hopital-toto:maladie/100&amp;quot;&amp;gt;&lt;br /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; &amp;lt;rdfs:label&amp;gt;Péricardite&amp;lt;/rdfs:label&amp;gt;&lt;br /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; &amp;lt;med:symptome rdf:resource=&amp;quot;urn:hopital-toto:symptome/030&amp;quot;/&amp;gt;&lt;br /&gt;&amp;nbsp;&amp;nbsp; &amp;lt;/rdf:Description&amp;gt;&lt;br /&gt;&amp;lt;/rdf:RDF&amp;gt;&lt;br /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; &lt;/code&gt;&lt;/div&gt;
      &lt;p&gt;
         &lt;img src=&quot;images/graphe.png&quot; alt=&quot;Graphe correspondant au code RDF/XML&quot; /&gt;
      &lt;/p&gt;
      &lt;h1&gt;En guise de conclusion&lt;/h1&gt;
      &lt;p&gt;Outre les contre-sens relevés, il me semble que l&#039;analyse et la réflexion n&#039;ont pas été menées à son terme. C&#039;est finalement le plus
         frustrant dans cet article, ses conclusions ne sont pas à la hauteur de ses ambitions. Ainsi, il n&#039;aboutit à aucune
         définition concrète et simple de la notion de texte au point même que l&#039;interrogation initiale disparaît peu à peu et,
         lorsqu&#039;il aborde les pistes les plus intéressantes, il ne la poursuit pas. Or, une phrase et une idée me paraît essentiel
         dans cet article&amp;nbsp;: «&amp;nbsp;On peut se demander dans ce modèle &lt;i&gt;[nda&amp;nbsp;: le Web sémantique]&lt;/i&gt; si la
         notion de &lt;i&gt;document&lt;/i&gt; a encore un sens&amp;nbsp;». Voilà, précisément, la question essentielle à se poser&amp;nbsp;!&lt;/p&gt;
      &lt;h2 class=&quot;notes&quot;&gt;Quelques notes en passant&lt;/h2&gt;
      &lt;div id=&quot;sdfootnote1&quot;&gt;
         &lt;p class=&quot;sdfootnote&quot;&gt;&lt;a class=&quot;sdfootnotesym&quot; name=&quot;sdfootnote1sym&quot; href=&quot;#sdfootnote1anc&quot;&gt;1&lt;/a&gt;Les auteurs de l&#039;article
            étaient d&#039;ailleurs pour la plupart impliqués dans l&#039;élaboration de la TEI.&lt;/p&gt;
      &lt;/div&gt;
      &lt;div id=&quot;sdfootnote2&quot;&gt;
         &lt;p class=&quot;sdfootnote&quot;&gt;&lt;a class=&quot;sdfootnotesym&quot; name=&quot;sdfootnote2sym&quot; href=&quot;#sdfootnote2anc&quot;&gt;2&lt;/a&gt;Pour connaître certains
            des auteurs de l&#039;article de Roger, je sais pertinemment qu&#039;il connaisse parfaitement les deux articles d&#039;Allen Renear
            et alii.&lt;/p&gt;
      &lt;/div&gt;
      &lt;div id=&quot;sdfootnote3&quot;&gt;
         &lt;p class=&quot;sdfootnote&quot;&gt;&lt;a class=&quot;sdfootnotesym&quot; name=&quot;sdfootnote3sym&quot; href=&quot;#sdfootnote3anc&quot;&gt;3&lt;/a&gt;Le principe est le même
            pour LaTeX et je ne crois pas avoir entendu cet argument le concernant, tant il tomberait très rapidement à l&#039;eau vu
            le profil des développeurs originaux de ce logiciel.&lt;/p&gt;
      &lt;/div&gt;
      &lt;div id=&quot;sdfootnote4&quot;&gt;
         &lt;p class=&quot;sdfootnote&quot;&gt;&lt;a class=&quot;sdfootnotesym&quot; name=&quot;sdfootnote4sym&quot; href=&quot;#sdfootnote4anc&quot;&gt;4&lt;/a&gt;p. 22, les auteurs
            affirment&amp;nbsp;: «&amp;nbsp;en l&#039;état actuel de la technologie, peu de langages transformationnels sont capables
            de garantir l&#039;invariance de niveau 1 (le résultat ne sera pas nécessairement bien formé) et aucun ne préserve le
            niveau 2 [nda&amp;nbsp;: la validité de l&#039;encodage de l&#039;information selon un schéma]&amp;nbsp;», alors que XSL qui
            date de 1999 garantit précisément ces deux niveaux de validité...&lt;/p&gt;
      &lt;/div&gt;</description>
 <comments>http://www.lespetitescases.net/Du-Web-semantique-au-web-de-donnees-2#comments</comments>
 <category domain="http://www.lespetitescases.net/taxonomy/term/69">Structuration</category>
 <category domain="http://www.lespetitescases.net/index308">RDF</category>
 <category domain="http://www.lespetitescases.net/index354">XML</category>
 <category domain="http://www.lespetitescases.net/causeries">Causeries</category>
 <category domain="http://www.lespetitescases.net/taxonomy/term/76">Indexation</category>
 <category domain="http://www.lespetitescases.net/index360">Moteur de recherche</category>
 <category domain="http://www.lespetitescases.net/index379">OWL</category>
 <category domain="http://www.lespetitescases.net/index102">TEI</category>
 <category domain="http://www.lespetitescases.net/index361">Validation</category>
 <category domain="http://www.lespetitescases.net/index364">XHTML</category>
 <category domain="http://www.lespetitescases.net/taxonomy/term/68">Xquery</category>
 <category domain="http://www.lespetitescases.net/index368">XSLT</category>
 <pubDate>Tue, 04 Mar 2008 02:13:18 +0100</pubDate>
 <dc:creator>got</dc:creator>
 <guid isPermaLink="false">1058 at http://www.lespetitescases.net</guid>
</item>
<item>
 <title>La TEI : principes et fonctionnements</title>
 <link>http://www.lespetitescases.net/la-tei-principes-et-fonctionnements</link>
 <description>&lt;p&gt;&lt;a href=&quot;http://www.adbs.fr&quot;&gt;L&#039;ADBS&lt;/a&gt; m&#039;a donné l&#039;occasion, la semaine dernière, de me replonger avec grand plaisir dans la &lt;a href=&quot;http://www.lespetitescases.net/index102&quot;&gt;TEI&lt;/a&gt; à l&#039;occasion d&#039;un &lt;a href=&quot;http://www.adbs.fr/site/evenements/5a7/index.php#24jan2008&quot;&gt;5 à 7&lt;/a&gt;. Le but ce cette séance était d&#039;en présenter le principe et le fonctionnement. &lt;a href=&quot;http://www.lespetitescases.net/files/adbs-TEI.ppt&quot;&gt;Ma présentation&lt;/a&gt; s&#039;attache donc à montrer les particularités de la TEI et en quoi elle constitue une solution générique à l&#039;encodage des textes en repartant des buts poursuivis par l&#039;encodage et de la démarche particulière de sa conception.&lt;/p&gt;
&lt;p&gt;Je me suis inspiré pour la mettre au point des documents, en particulier une &lt;a href=&quot;http://www.tei-c.org/Talks/2005/Sofia/talk-intro.pdf&quot;&gt;présentation&lt;/a&gt; de Lou Burnard, Sebastian Rahtz et Matthew Driscoll faite à l&#039;occasion d&#039;une &lt;a href=&quot;http://www.tei-c.org/Talks/2005/Sofia/&quot;&gt;formation à Sofia&lt;/a&gt;, mis à disposition sur &lt;a href=&quot;http://www.tei-c.org&quot;&gt;le nouveau site du consortium TEI&lt;/a&gt; dévoilé à l&#039;occasion de &lt;a href=&quot;http://www.lib.umd.edu/dcr/events/teiconference/&quot;&gt;son 20ème anniversaire&lt;/a&gt; et de la sortie en version finale de la nouvelle version, &lt;a href=&quot;http://www.tei-c.org/release/doc/tei-p5-doc/en/html/index.html&quot;&gt;la P5&lt;/a&gt;.&lt;/p&gt;
&lt;p&gt;
Après toutes ces mois à m&#039;intéresser à RDF, cela a aussi été une opportunité pour préciser dans mon esprit les différences entre RDF et XML et d&#039;affiner mes réflexions sur le concept de texte et de document. Mais, c&#039;est une autre histoire que j&#039;espère pouvoir partager avec vous dans les semaines qui viennent, &lt;a href=&quot;http://figoblog.org/node/1907&quot;&gt;s&#039;il me reste un peu de temps&lt;/a&gt; ;-)
&lt;/p&gt;
&lt;p&gt;
Bonne lecture !
&lt;/p&gt;
&lt;!--break--&gt;</description>
 <comments>http://www.lespetitescases.net/la-tei-principes-et-fonctionnements#comments</comments>
 <category domain="http://www.lespetitescases.net/causeries">Causeries</category>
 <category domain="http://www.lespetitescases.net/index102">TEI</category>
 <enclosure url="http://www.lespetitescases.net/files/adbs-TEI.ppt" length="2251264" type="application/vnd.ms-powerpoint" />
 <pubDate>Mon, 28 Jan 2008 20:51:53 +0100</pubDate>
 <dc:creator>got</dc:creator>
 <guid isPermaLink="false">1019 at http://www.lespetitescases.net</guid>
</item>
<item>
 <title>Un peu de lecture</title>
 <link>http://www.lespetitescases.net/un-peu-de-lecture</link>
 <description>&lt;p class=&quot;texte&quot;&gt;En attendant que je réussisse à émerger, ce qui ne devrait pas tarder (un billet est en train de mûrir, je vous le promets), je propose à ceux que ma prose manquerait un peu de lecture. Tout d&#039;abord, sur Archives SIC, l&#039;archive ouverte spécialisée en sciences de l&#039;information et de la communication, je me suis enfin décidé à y déposer &lt;a href=&quot;http://archivesic.ccsd.cnrs.fr/index.php?b_type=browse_author&amp;amp;halsid=441adba51418b9b016d32d3f301f92af&amp;amp;submit=1&amp;amp;which_firstletter=p&amp;amp;which_author=Poupeau,Gautier&quot;&gt;mes articles et mes communications&lt;/a&gt; (enfin une partie). Certains sont « inédits », en particulier les deux derniers sur &lt;a href=&quot;http://archivesic.ccsd.cnrs.fr/index.php?halsid=441adba51418b9b016d32d3f301f92af&amp;amp;view_this_doc=sic_00137230&amp;amp;version=1&quot;&gt;l&#039;utilisation du Web sémantique pour mettre en lumière les réseaux sociaux dans les sources historiques&lt;/a&gt; et sur &lt;a href=&quot;http://archivesic.ccsd.cnrs.fr/index.php?halsid=441adba51418b9b016d32d3f301&quot;&gt;un modèle conceptuel pour encoder les chartes à partir de ODD&lt;/a&gt;, d&#039;autres traînent déjà à droite à gauche, ainsi que sur ce blog. Sur le site de TELMA, vous trouverez &lt;a href=&quot;http://www.cn-telma.fr/veille/support-cours-urfist/&quot;&gt;le support de la formation&lt;/a&gt; que j&#039;ai faite à l&#039;URFIST sur les enjeux éditoriaux et techniques de la diffusion en ligne des sources historiques ainsi que quelques ressources sur le modèle OAIS. Ce diaporama qui comprend une centaine de diapos constitue en quelque sorte une synthèse de mes six années de travail à l&#039;École des chartes. &lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;Bon, je vous laisse, il faut que je termine ma dernière édition électronique pour l&#039;École des chartes, un superbe travail mis au point par Frédéric Duval et Françoise Vielliard sur les traductions d&#039;oeuvre classique faite au Moyen Âge, c&#039;est du très lourd (allez, en avant-première, je ne résiste pas à vous en donner l&#039;URL : &lt;a href=&quot;http://elec.enc.sorbonn&quot;&gt;http://elec.enc.sorbonne.fr/miroir/&lt;/a&gt;) et il faut que je prépare mon intervention à &lt;a href=&quot;http://blogbbf.enssib.fr/?2007/03/23/148-le-debat-du-bbf-au-salon-du-livre-2007&quot;&gt;la table ronde organisée lundi matin par le BBF au salon du livre sur les wikis&lt;/a&gt;. Si certains d&#039;entre vous sont présents lundi au salon, n&#039;hésitez pas à venir me voir, ce sera avec plaisir de discuter un peu avec vous.&lt;/p&gt;</description>
 <comments>http://www.lespetitescases.net/un-peu-de-lecture#comments</comments>
 <category domain="http://www.lespetitescases.net/taxonomy/term/69">Structuration</category>
 <category domain="http://www.lespetitescases.net/index355">Web sémantique</category>
 <category domain="http://www.lespetitescases.net/causeries">Causeries</category>
 <category domain="http://www.lespetitescases.net/index531">Conservation</category>
 <category domain="http://www.lespetitescases.net/index685">Digital humanities</category>
 <category domain="http://www.lespetitescases.net/index94">Édition électronique</category>
 <category domain="http://www.lespetitescases.net/taxonomy/term/76">Indexation</category>
 <category domain="http://www.lespetitescases.net/index102">TEI</category>
 <category domain="http://www.lespetitescases.net/taxonomy/term/72">Wiki</category>
 <pubDate>Sat, 24 Mar 2007 15:41:51 +0100</pubDate>
 <dc:creator>got</dc:creator>
 <guid isPermaLink="false">865 at http://www.lespetitescases.net</guid>
</item>
<item>
 <title>Pour commencer l&#039;année en douceur</title>
 <link>http://www.lespetitescases.net/pour-commencer-l-annee-en-douceur</link>
 <description>&lt;p class=&quot;texte&quot;&gt;Comme il est de bon ton de commencer l&#039;année en vous présentant les meilleurs vœux, je n&#039;échappe pas à la règle et je vous souhaite à tous une bonne et heureuse année 2007. Pour ma part, elle risque d&#039;être décisive en de nombreux points, mais j&#039;espère qu&#039;elle sera un peu moins « bougeante » que 2006.&lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;Pour bien commencer l&#039;année et comme il fallait que je blogue (Manue me donne envie en bloguant à côté de moi ;-) ), je vous propose les supports d&#039;un cours sur la TEI que j&#039;ai donné à l&#039;ENSSIB aux futurs conservateurs au mois de décembre dernier. Pour les besoins du cours, j&#039;avais rassemblé sur une page de ce site tous les liens et tous les fichiers dont nous avions besoin pour les trois séances de TD qui faisaient suite à un cours magistral par Lou Burnard lui-même, s&#039;il vous plaît ! A la suite du cours, j&#039;ai complété cette page avec un lien vers le &lt;a href=&quot;http://lespetitescases.net/enssib/cours_ENSSIB_TEI.ppt&quot;&gt;diaporama&lt;/a&gt; et vers les corrigés des exercices. C&#039;est brut de décoffrage, mais je me suis dit que ça pourrait toujours servir, ne serait-ce qu&#039;aux élèves qui ont suivi ce cours&lt;a class=&quot;footnotecall&quot; id=&quot;bodyftn0&quot; href=&quot;#ftn0&quot;&gt;1&lt;/a&gt; et que je remercie au passage pour les bons moments que j&#039;ai passé en leur compagnie pendant ces trois jours à l&#039;ENSSIB : &lt;a href=&quot;http://lespetitescases.net/enssib/&quot;&gt;TD sur la TEI. ENSSIB (18-20 janvier 2006)&lt;/a&gt;.&lt;/p&gt;&lt;h2 class=&quot;notes&quot;&gt;Quelques notes en passant&lt;/h2&gt;&lt;p class=&quot;notebaspage&quot;&gt;&lt;a id=&quot;ftn0&quot; class=&quot;FootnoteSymbol&quot; href=&quot;#bodyftn0&quot;&gt;1&lt;/a&gt; Je dédicace ce billet à la personne (élève-conservateur ?) qui est arrivée sur ce blog à partir d&#039;un moteur de recherche avec la requête : « enssib tei poupeau site »&lt;/p&gt;</description>
 <comments>http://www.lespetitescases.net/pour-commencer-l-annee-en-douceur#comments</comments>
 <category domain="http://www.lespetitescases.net/index102">TEI</category>
 <category domain="http://www.lespetitescases.net/geekeries">Geekeries</category>
 <pubDate>Thu, 04 Jan 2007 07:37:48 +0100</pubDate>
 <dc:creator>got</dc:creator>
 <guid isPermaLink="false">784 at http://www.lespetitescases.net</guid>
</item>
<item>
 <title>Des nouvelles du monde XML</title>
 <link>http://www.lespetitescases.net/des-nouvelles-du-monde-xml</link>
 <description>&lt;p class=&quot;texte&quot;&gt;J&#039;ai à nouveau mon agrégateur rempli de billets sauvegardés vu que ces derniers temps, j&#039;ai plus fait le tri que lire réellement ce qui y passait. Il y a un moment où il faut se résoudre à vider tout cela. Commençons par les billets autour de XML.&lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;Il semble que le &lt;a href=&quot;http://relaxng.org/&quot;&gt;format Relax NG&lt;/a&gt;, norme ISO, s&#039;impose définitivement face à &lt;a href=&quot;http://www.w3.org/XML/Schema&quot;&gt;XML schema&lt;/a&gt; pour définir des grammaires XML. Après le billet de Elliote Rusty Harold, « &lt;a href=&quot;http://cafe.elharo.com/xml/relax-wins/&quot;&gt;Relax wins&lt;/a&gt; », faisant état des nombreuses grammaires ayant choisi Relax NG (c&#039;est aussi le cas de &lt;a href=&quot;http://www.tei-c.org/P5/&quot;&gt;la P5 de la TEI&lt;/a&gt;), Tim Bray, à l&#039;origine de XML et employé de chez Sun, &lt;a href=&quot;http://www.tbray.org/ongoing/When/200x/2006/11/27/Choose-Relax&quot;&gt;déclare sur son blog&lt;/a&gt; qu&#039;il s&#039;agit d&#039;un moment important dans la vie de XML et avoue que XML schema « craint » (« &lt;em&gt;XML schema suck&lt;/em&gt; »). &lt;a href=&quot;http://www.snee.com/bobdc.blog/2006/11/schema_language_victory_and_ow.html&quot;&gt;Bob du Charme revient aussi sur cet événement important&lt;/a&gt;. Cela sent le &lt;em&gt;mea culpa&lt;/em&gt; et c&#039;est une bonne nouvelle, tant XML schema fut décrié dans la communauté. Si vous voulez en savoir plus sur Relax NG, vous pouvez consulter librement en ligne &lt;a href=&quot;http://books.xmlschemata.org/relaxng/page2.html&quot;&gt;le livre sur le sujet en anglais d&#039;Eric Van der Vlist&lt;/a&gt; (Eric, à quand une traduction en français ?) paru aux éditions O&#039;Reilly.&lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;Eliot Kimber, de retour de XML 2006 (je vais y revenir) a écrit un &lt;a href=&quot;http://drmacros-xml-rants.blogspot.com/2006/12/adobe-mars-looks-interesting.html&quot;&gt;post très intéressant&lt;/a&gt; sur un format actuellement à l&#039;étude chez Adobe , &lt;a href=&quot;http://labs.adobe.com/wiki/index.php/Mars&quot;&gt;Mars&lt;/a&gt;, une grammaire XML pour décrire les documents PDF. Conscient de l&#039;importance des standards basés sur XML pour le futur de la gestion de l&#039;information numérique et sa conservation, Adobe répond, à mon avis, à travers cette proposition au format bureautique basé sur XML, &lt;a href=&quot;http://www.odfalliance.org/&quot;&gt;Open Format Document&lt;/a&gt;, le format d&#039;Open Office entre autres et &lt;a href=&quot;http://www.ecma-international.org/memento/TC45.htm&quot;&gt;Open XML&lt;/a&gt;, le format promu par Microsoft, qui &lt;a href=&quot;http://www.lemondeinformatique.fr/actualites/lire-open-xml-est-officiellement-une-norme-ecma-21574.html&quot;&gt;vient d&#039;ailleurs de devenir officiellement une norme ECMA&lt;/a&gt;, avant de passer à l&#039;ISO (?), ainsi qu&#039;à la critique récurrente faite à PDF des problèmes qu&#039;il peut poser sur le long terme. D&#039;ailleurs, ce format est basé sur le même principe, un fichier zip comprenant des fichiers XML. Les formats utilisés sont nombreux. Parmi ces derniers, on notera l&#039;utilisation massive de SVG, le format vectoriel mis au point au W3C. Je vous conseille la lecture de la &lt;a href=&quot;http://labs.adobe.com/wiki/index.php/Mars:FAQ&quot;&gt;FAQ&lt;/a&gt; et du &lt;a href=&quot;http://download.macromedia.com/pub/labs/mars/mars_reference.pdf&quot;&gt;guide&lt;/a&gt;.&lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;Du côté du W3C, une nouvelle recommandation assez prometteuse est actuellement à l&#039;étude : &lt;a href=&quot;http://www.w3.org/TR/xproc/&quot;&gt;Xproc&lt;/a&gt;. Il s&#039;agit d&#039;un langage pour standardiser les interactions, entrées et sorties autour de documents XML, incluant la validation, la transformation, l&#039;interrogation, l&#039;inclusion... Bref, tout ce que vous pouvez effectuer avec des fichiers XML. Le principe me fait furieusement penser à celui des pipelines du &lt;a href=&quot;http://cocoon.apache.org/&quot;&gt;framework Cocoon&lt;/a&gt; pour ceux qui connaissent. A travers un document XML, vous exprimez les différentes étapes et moyens par lesquels vous voulez interagir avec un ou des document(s) XML. La lecture du &lt;a href=&quot;http://www.tkachenko.com/blog/archives/000640.html&quot;&gt;billet de Oleg Tkachenko&lt;/a&gt; pourra vous en apprendre plus.&lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;L&#039;interrogation &lt;em&gt;full-text&lt;/em&gt; de documents XML commence à avoir le vent en poupe. Ça me semble logique, vu que Xquery va atteindre, enfin, dans les jours/semaines qui viennent le statut de recommandation, cette partie constitue la prochaine brique essentielle pour le monde XML. Alors que &lt;a href=&quot;http://www.w3.org/TR/xquery-full-text/&quot;&gt;les ajouts indispensables à Xquery sont à l&#039;étude au W3C&lt;/a&gt;, j&#039;y ai déjà fait allusion, les annonces des implémentations de XQFT (Xquery Full Text) comme le montre &lt;a href=&quot;http://portal.acm.org/citation.cfm?id=1142588&amp;amp;jmp=cit&amp;amp;coll=GUIDE&amp;amp;dl=GUIDE&amp;amp;CFID=5476471&amp;amp;CFTOKEN=14522096&quot;&gt;cet article de l&#039;ACM&lt;/a&gt; se succèdent au point qu&#039;IBM en propose &lt;a href=&quot;http://www.research.ibm.com/journal/sj/452/amer.html&quot;&gt;une étude sur son site&lt;/a&gt;. XQFT va devenir, à n&#039;en pas douter, un enjeu stratégique et industriel très rapidement et les cellules R&amp;amp;D des éditeurs de moteur de recherche feraient bien d&#039;étudier tout cela très vite.&lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;La conférence annuelle &lt;a href=&quot;http://2006.xmlconference.org/&quot;&gt;XML 2006&lt;/a&gt; a eu lieu du 5 au 7 décembre 2006 à Boston. Cette conférence a marqué les 10 ans de XML. Si vous voulez en savoir plus, je vous renvoie aux nombreux compte-rendus sur le sujet dans la blogosphère : en français par &lt;a href=&quot;http://xmlfr.org/actualites/tech/061213-0001&quot;&gt;Eric Van der Vlist&lt;/a&gt;, en anglais par Eliotte Rusty Harold sur &lt;a href=&quot;http://www.cafeconleche.org/&quot;&gt;Cafe con Leche&lt;/a&gt;, par &lt;a href=&quot;http://blogs.msdn.com/mikechampion/archive/2006/12/08/xml-2006-observations.aspx&quot;&gt;Mike Champion&lt;/a&gt;, par &lt;a href=&quot;http://copia.ogbuji.net/blog/2006-12-08/xml2006-are-we-there-yet&quot;&gt;Uche Ogbuji&lt;/a&gt;, par &lt;a href=&quot;http://www.oreillynet.com/xml/blog/2006/12/fake_realtime_blog_from_xml_20.html&quot;&gt;Rike Jellife&lt;/a&gt;.&lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;J&#039;ai fait allusion dans un &lt;a href=&quot;http://lespetitescases.net/les-realites-dans-une-page-web-html&quot;&gt;précédent billet&lt;/a&gt; à l&#039;attribut &lt;em&gt;role&lt;/em&gt; et aux possibilités qu&#039;ouvrirait son implémentation. Il semble que le W3C veut le mettre en avant, puisqu&#039;une &lt;a href=&quot;http://www.w3.org/TR/xhtml-role/&quot;&gt;Working draft&lt;/a&gt; vient de sortir à ce sujet : « XHTML role attribute. A module to support role classification of elements ».&lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;Norman Walsh, le père de Docbook entre autres choses, propose sur son site &lt;a href=&quot;http://norman.walsh.name/2005/projects/xslflickr&quot;&gt;des feuilles de style XSL 2&lt;/a&gt; pour accéder au Web services de Flick&#039;r. Cela pourrait constituer une solution simple à implémenter pour interroger les Web services. A surveiller de près.&lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;Et pour finir et faire la transition avec le Web sémantique qui fera certainement l&#039;objet d&#039;une autre pelote de liens, je vous recommande la lecture de ce &lt;a href=&quot;http://www.snee.com/bobdc.blog/2006/12/rdf_versus_xquery.html&quot;&gt;billet de Bob du Charme&lt;/a&gt; qui propose une étude des possibilités du couple XML/Xquery par rapport au couple RDF/Sparql. Ce billet fait suite à un courriel de Lee Feigenbaum sur la &lt;em&gt;mailing-list&lt;/em&gt; du &lt;a href=&quot;http://www.w3.org/2001/sw/sweo/&quot;&gt;groupe d&#039;intérêt du W3C dédié à l&#039;apprentissage du Web sémantique&lt;/a&gt;. Le billet de Bob du Charme présente l&#039;intérêt de replacer les différentes technologies dans leurs contextes et montre en quoi elles répondent chacune à des utilisations précises et différentes.&lt;/p&gt;</description>
 <comments>http://www.lespetitescases.net/des-nouvelles-du-monde-xml#comments</comments>
 <category domain="http://www.lespetitescases.net/taxonomy/term/69">Structuration</category>
 <category domain="http://www.lespetitescases.net/index657">Sparql</category>
 <category domain="http://www.lespetitescases.net/causeries">Causeries</category>
 <category domain="http://www.lespetitescases.net/index102">TEI</category>
 <category domain="http://www.lespetitescases.net/taxonomy/term/68">Xquery</category>
 <category domain="http://www.lespetitescases.net/index368">XSLT</category>
 <pubDate>Fri, 15 Dec 2006 22:26:04 +0100</pubDate>
 <dc:creator>got</dc:creator>
 <guid isPermaLink="false">775 at http://www.lespetitescases.net</guid>
</item>
<item>
 <title>Les réalités dans l&#039;encodage XML</title>
 <link>http://www.lespetitescases.net/les-realites-dans-l-encodage-xml</link>
 <description>&lt;p class=&quot;texte&quot;&gt;Depuis que nous nous sommes revus&lt;a class=&quot;footnotecall&quot; id=&quot;bodyftn1&quot; href=&quot;#ftn1&quot;&gt;1&lt;/a&gt; à&lt;a href=&quot;http://www.allc-ach2006.colloques.paris-sorbonne.fr/&quot;&gt; Digital Humanities en juillet&lt;/a&gt;, &lt;a href=&quot;http://www.uottawa.ca/academic/arts/lettres/vanden.html&quot;&gt;Christian Vandendorpe&lt;/a&gt;&lt;a class=&quot;footnotecall&quot; id=&quot;bodyftn2&quot; href=&quot;#ftn2&quot;&gt;2&lt;/a&gt; et moi débattons du problème de l&#039;encodage en XML des caractéristiques physiques d&#039;un document. Cette discussion qui a trouvé une première issue à Victoria, ainsi que la préparation d&#039;une communication sur l&#039;encodage des chartes médiévales pour le &lt;a href=&quot;http://bfm.ens-lsh.fr/article.php3?id_article=294&quot;&gt;Consortium des corpus de français médiéval&lt;/a&gt;, m&#039;ont amené à réfléchir à un des problèmes que je rencontrais dans l&#039;encodage en XML, en particulier des éditions critiques : mettre en lumière les différents niveaux/types de renseignements qu&#039;on peut trouver dans un document.&lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;Nous sommes bien d&#039;accord que le XML est basé sur l&#039;idée de séparer le contenu de la mise en forme des données. Cela permet d&#039;assurer l&#039;interopérabilité entre les différents outils et plate-formes permettant de l&#039;exploiter et de le traiter. &lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;Cette règle a peut-être tendance à nous faire oublier qu&#039;un document se compose à la fois de données et d&#039;un support. La conservation en bibliothèque a pour but d&#039;assurer l&#039;intégrité de ce couple et les chercheurs en histoire du livre ont montré que la mise en forme avait de l&#039;importance dans l&#039;organisation et l&#039;appréhension de l&#039;information. Lorsqu&#039;on encode l&#039;édition d&#039;un texte manuscrit, il n&#039;est donc pas inutile d&#039;encoder certaines informations qui relèvent de caractéristiques physiques du document source&lt;a class=&quot;footnotecall&quot; id=&quot;bodyftn0&quot; href=&quot;#ftn0&quot;&gt;3&lt;/a&gt; : changement de lignes, de pages ou de mains, dans le cas d&#039;un manuscrit, les abréviations... Dans ce cas, les informations encodées n&#039;ont rien à voir avec le rendu à l&#039;écran. Elles font partie intégrante du document source transcrit. Ces informations physiques deviennent alors des informations logiques et elles relèvent &lt;a href=&quot;http://lespetitescases.net/encodage-en-question&quot;&gt;des buts fixés par l&#039;encodeur&lt;/a&gt;.&lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;Or, même si leurs études croisées avec le texte du document en lui-même sont fondamentales, nous sommes d&#039;accord que ces deux types d&#039;informations ne sont pas de même nature, c&#039;est ce que j&#039;appelle &lt;strong&gt;une réalité&lt;/strong&gt;. Dans le cas de l&#039;édition d&#039;un manuscrit, le document encodé est composé d&#039;au moins deux réalités :&lt;/p&gt;&lt;ol style=&quot;list-style-type:disc&quot;&gt;&lt;li&gt;&lt;p class=&quot;texte&quot;&gt;les caractéristiques physiques du support du texte ;&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p class=&quot;texte&quot;&gt;le texte en lui-même, les données brutes.&lt;/p&gt;&lt;/li&gt;&lt;/ol&gt;&lt;p class=&quot;texte&quot;&gt;La mise en lumière des réalités encodées permet de mieux appréhender le balisage et évite les erreurs dans le choix de balises. Cela permet de prendre conscience des différents niveaux d&#039;informations contenues dans le document et aider à son analyse et son traitement. Mon exemple se limite à deux réalités, mais d&#039;autres exemples sont plus complexes. Dans le cas de l&#039;édition critique d&#039;une charte, par exemple, l&#039;encodage de l&#039;édition critique de la charte reflète l&#039;événement relaté dans la charte (une donation par exemple), l&#039;analyse du chercheur, le texte qui relate l&#039;événement et le support physique avec la prise en compte pour ces deux dernières réalités qu&#039;il existe plusieurs supports du texte différents (original et copies).&lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;Mais, revenons à mon exemple et à son encodage. Encoder ces deux réalités posent le problème de l&#039;&lt;em&gt;overlapping&lt;/em&gt;. En XML, les balises ne peuvent pas se chevaucher. Si j&#039;encode les caractéristiques physiques et la structure logique du texte, un paragraphe peut commencer sur une page et finir sur une autre, on ne peut pas écrire :&lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;&amp;lt;page&amp;gt;&amp;lt;p&amp;gt;Blabla&amp;lt;/page&amp;gt;&amp;lt;page&amp;gt; blabla&amp;lt;/p&amp;gt;&amp;lt;/page&amp;gt;&lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;Dans ce genre de cas, la TEI préconise l&#039;utilisation de « milestone », c&#039;est à dire des balises vides qui donnent une information sur le point précis, dans notre exemple, le changement de pages :&lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;&amp;lt;p&amp;gt;Blabla &amp;lt;pb/&amp;gt; blabla&amp;lt;/p&amp;gt;&lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;Mais, bien souvent et en TEI en particulier, l&#039;encodage de la structure logique prend le pas sur les caractéristiques physiques. Après tout, on pourrait vouloir encoder en priorité les caractéristiques physiques et simplement à titre d&#039;appui la structure logique. Il serait intéressant, me semble-t-il, de permettre la réciproque ou mettre au même plan les deux réalités. &lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;C&#039;est pourquoi certains font d&#039;autres propositions : encodage dans deux fichiers séparés des deux réalités ou utiliser les namespaces pour différencier les deux arbres en mettant de côté le problème de l&#039;overlapping, le multi-hierarchical XML, dont j&#039;ai parlé &lt;a href=&quot;http://lespetitescases.net/causeries-sur-la-tei-a-l-autre-bout-du-monde&quot;&gt;dans mon précédent billet&lt;/a&gt;.&lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;Ces deux solutions n&#039;apportent pas de réponses entièrement satisfaisantes. Dans le cas de deux fichiers séparés, il faut quand même mettre au point un système de pointeurs qui permet de synchroniser les deux niveaux d&#039;informations dans les deux fichiers différents qui se traduira bien souvent par l&#039;ajout de balises. Au final, je ne sais pas si cela facilite véritablement le processus. Quant à la deuxième solution, elle propose une utilisation des &lt;em&gt;namespaces&lt;/em&gt; qui n&#039;est pas conventionnel, ce qui pourrait poser des problèmes au cas où les deux réalités utilisent le même schéma, donc le même &lt;em&gt;namespace&lt;/em&gt;. Pourtant, cette dernière solution a le mérite de mettre le doigt sur un autre problème en proposant d&#039;ailleurs une réponse. Le XML n&#039;offre aucun moyen de mettre en lumière une des réalités encodées, ce qui permettrait de repérer rapidement et facilement une des réalités et, ainsi, en optimiser son traitement, son interrogation et son indexation. C&#039;est particulièrement crucial dans le cas où les différentes réalités sont encodées avec les mêmes balises comme dans une page Web. C&#039;est ce cas que je vous propose d&#039;étudier dans le prochain billet.&lt;/p&gt;&lt;h2 class=&quot;notes&quot;&gt;Quelques notes en passant&lt;/h2&gt;&lt;p class=&quot;notebaspage&quot;&gt;&lt;a id=&quot;ftn1&quot; class=&quot;FootnoteSymbol&quot; href=&quot;#bodyftn1&quot;&gt;1&lt;/a&gt; J&#039;ai pour la première fois eu l&#039;honneur de rencontrer Christian Vandendorpe à un colloque organisé à l&#039;ENSSIB : &lt;a href=&quot;http://www.interdisciplines.org/defispublicationweb/language/fr&quot;&gt;les défis de la publications sur le Web&lt;/a&gt;.&lt;/p&gt;&lt;p class=&quot;notebaspage&quot;&gt;&lt;a id=&quot;ftn2&quot; class=&quot;FootnoteSymbol&quot; href=&quot;#bodyftn2&quot;&gt;2&lt;/a&gt; Christian Vandendorpe, que je remercie pour nos discussions et nos échanges, spécialiste de la théorie du texte et de l&#039;hypertexte est l&#039;auteur d&#039;un très bon livre sur l&#039;hypertexte, &lt;a href=&quot;http://www.amazon.fr/papyrus-lhypertexte-mutations-texte-lecture/dp/2707131350/sr=11-1/qid=1162587985/ref=sr_11_1/403-2430200-9602055&quot;&gt;&lt;em&gt;Du papyrus à l&#039;hypertexte&lt;/em&gt;&lt;/a&gt;, dont je recommande à tous la lecture.&lt;/p&gt;&lt;p class=&quot;notebaspage&quot;&gt;&lt;a id=&quot;ftn0&quot; class=&quot;FootnoteSymbol&quot; href=&quot;#bodyftn0&quot;&gt;3&lt;/a&gt; Il existe un champ de recherche spécialisé par cette question : la critique génétique des textes dont le &lt;a href=&quot;http://www.item.ens.fr/contenus/presentation/PRESaccueil.htm&quot;&gt;laboratoire ITEM&lt;/a&gt; est le spécialiste.&lt;/p&gt;</description>
 <comments>http://www.lespetitescases.net/les-realites-dans-l-encodage-xml#comments</comments>
 <category domain="http://www.lespetitescases.net/taxonomy/term/69">Structuration</category>
 <category domain="http://www.lespetitescases.net/index354">XML</category>
 <category domain="http://www.lespetitescases.net/causeries">Causeries</category>
 <category domain="http://www.lespetitescases.net/index348">Édition critique</category>
 <category domain="http://www.lespetitescases.net/index102">TEI</category>
 <pubDate>Sun, 05 Nov 2006 11:06:01 +0100</pubDate>
 <dc:creator>got</dc:creator>
 <guid isPermaLink="false">748 at http://www.lespetitescases.net</guid>
</item>
<item>
 <title>Victoria, le Canada et la TEI, suite et fin</title>
 <link>http://www.lespetitescases.net/victoria-le-canada-et-la-tei-suite-et-fin</link>
 <description>&lt;p class=&quot;texte&quot;&gt;Comme toutes les bonnes choses ont une fin, je m&#039;apprête dans quelques heures à quitter &lt;a href=&quot;http://flickr.com/photos/lespetitescases/283311841/&quot;&gt;Victoria&lt;/a&gt; et à reprendre l&#039;avion pour rentrer à Paris, des &lt;a href=&quot;http://flickr.com/photos/lespetitescases/283311839/&quot;&gt;souvenirs&lt;/a&gt;, des idées, des pensées pleins la tête, comme à chaque fois que je repars d&#039;un colloque. &lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;Comme certains d&#039;entre vous ont eu l&#039;air d&#039;apprécier mon &lt;a href=&quot;http://lespetitescases.net/causeries-sur-la-tei-a-l-autre-bout-du-monde&quot;&gt;précédent billet&lt;/a&gt; (Merci encore Jean-Paul), je m&#039;en vais vous conter la fin de ces journées. En fait, cela va aller assez vite (j&#039;en vois certains qui sont rassurés dans la salle). Je n&#039;ai pas vraiment assisté à un SIG, pris par l&#039;écriture de mon précédent billet et la perspective de la poster session. D&#039;ailleurs, cette dernière s&#039;est bien déroulée, le poster que j&#039;avais fait a été apprécié (encore merci à Nico et Manue pour leur coup de main). Notre projet de numérisation des &lt;a href=&quot;http://elec.enc.sorbonne.fr/cartulaires/&quot;&gt;cartulaires numérisés&lt;/a&gt; a fait l&#039;admiration des différents bibliothécaires présents qui se sont succédés pour savoir comment nous utilisions METS. Quant aux geeks de la TEI et aux chercheurs, c&#039;est surtout &lt;a href=&quot;http://theleme.enc.sorbonne.fr/dossiers/&quot;&gt;theleme&lt;/a&gt;, notre manuel en ligne de sciences auxiliaires qui a retenu leur attention. Quant aux autres posters, je n&#039;ai pas vraiment eu le temps de les voir et pour la plupart ils correspondent aux interventions dont je vous ai parlé.&lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;Je vous fais grâce des interventions de rigueur dans la vie d&#039;une association, pour arriver à la keynote de clôture. Greg Crane, responsable de la &lt;a href=&quot;http://www.perseus.tufts.edu/&quot;&gt;bibliothèque numérique Perseus&lt;/a&gt;, nous a présenté sa vision de la « vie intellectuelle à l&#039;âge de Google ». Après avoir analysé notre monde actuel et les problèmes des sciences humaines aujourd&#039;hui par rapport à celui-ci, analyses que je partage avec lui, il a présenté ce qui représente sa solution, c&#039;est à dire son projet. Son idée est simple, nous devons absolument faire de la masse, pour être présent, marquer notre territoire et montrer aux tutelles que l&#039;investissement en sciences humaines est rentable. Pour cela, il faut aller discuter avec Google, Microsoft ou Yahoo pour récupérer l&#039;OCR et y appliquer un balisage structuré en TEI, mais très lâche. &lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;Soyons honnêtes, c&#039;est très impressionnant, son sytème a l&#039;air de bien fonctionner. Mais, j&#039;avoue que son discours m&#039;a gêné. Est-ce que notre métier doit être le même que celui de Google ou Yahoo ? Est-ce-qu&#039;il faudrait que nous allions jouer sur leurs terrains ? Ou est-ce-que nous pouvons mettre en avant une véritable différence et la cultiver ? J&#039;avoue que je n&#039;ai pas les réponses à ces questions. Pour autant, j&#039;ai vu dans cette keynote la différence culturelle qui peut exister entre les chercheurs nords-américains et nous autres Européens (je partageais cette analyse avec ma collègue et amie du King&#039;s college Elena Pierrazo). Au final, je ne crois pas qu&#039;il faille blâmer ou regretter cette position, après tout, c&#039;est certainement cette vision qui sera celle de demain, mais, au bout du compte, je suis persuadé qu&#039;il faut que toutes les positions coexistent : les googles qui font les grandes masses, les bibliothèques qui en font moins, mais avec des qualités de numérisation et de métadonnées plus importantes, les chercheurs qui font de la transformation de masse de l&#039;OCR en XML structuré ou encore les chercheurs qui encodent très finement leurs corpus en TEI. Oui, il y a de la place pour tout le monde et aucune des différentes visions n&#039;est meilleure que l&#039;autre, elles se complètent tout simplement.&lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;Cette keynote a marqué la fin de l&#039;assemblée générale, mais je n&#039;en avais pas fini pour autant, puisque j&#039;ai eu la chance d&#039;assister le lendemain (cad hier) au TEI board, le conseil d&#039;administration restreint  de la TEI. On n&#039;imagine pas, lorsqu&#039;on utilise la TEI, l&#039;énergie, l&#039;argent, les discussions et les débats qu&#039;il faut pour faire vivre un standard comme celui-ci. J&#039;avais parfois l&#039;impression que dans cette chambre d&#039;hôtel transformée en salle de réunion se jouait l&#039;avenir d&#039;un des standards les plus importants de notre discipline. Heureusement, les gens qui sont à la tête de la TEI ont conscience des enjeux. Pour autant, il faut quand même avoir conscience de l&#039;extrême fragilité du modèle, le TEI consortium, indispensable pour maintenir les guidelines, en faire la promotion... vit en très grande partie aux adhésions des institutions. Alors, si, dans votre institution ou au cours d&#039;un projet, vous utilisez la TEI, pensez que votre projet vit grâce au consortium et à toutes ces personnes et &lt;a href=&quot;http://www.tei-c.org/Consortium/TEIprospectusA4.pdf&quot;&gt;adhérez au consortium&lt;/a&gt;. C&#039;est, me semble-t-il un échange de bon procédé et qui, en plus, vous permettra d&#039;assister à l&#039;assemblée générale annuelle et de rencontrer cette formidable et très sympathique communauté.&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;MAJ (05/11/2006)&lt;/strong&gt; : Vous pouvez aussi consulter les &lt;a href=&quot;http://reqfd.wordpress.com/tei2006/&quot;&gt;notes de Sharon Goetz&lt;/a&gt; beaucoup plus précises que les miennes. Merci Sharon !&lt;/p&gt;</description>
 <comments>http://www.lespetitescases.net/victoria-le-canada-et-la-tei-suite-et-fin#comments</comments>
 <category domain="http://www.lespetitescases.net/causeries">Causeries</category>
 <category domain="http://www.lespetitescases.net/index685">Digital humanities</category>
 <category domain="http://www.lespetitescases.net/index362">Numérisation</category>
 <category domain="http://www.lespetitescases.net/index102">TEI</category>
 <pubDate>Mon, 30 Oct 2006 16:48:13 +0100</pubDate>
 <dc:creator>got</dc:creator>
 <guid isPermaLink="false">743 at http://www.lespetitescases.net</guid>
</item>
<item>
 <title>Causeries sur la TEI à l&#039;autre bout du monde</title>
 <link>http://www.lespetitescases.net/causeries-sur-la-tei-a-l-autre-bout-du-monde</link>
 <description>&lt;p class=&quot;texte&quot;&gt;Après &lt;a href=&quot;http://figoblog.org/document1503.php&quot;&gt;Manue&lt;/a&gt;, c&#039;est à mon tour de traverser l&#039;Atlantique pour assister à un événement annuel en relation avec ma communauté. J&#039;ai même poussé le vice à traverser le continent nord américain d&#039;est en ouest jusqu&#039;à &lt;a href=&quot;http://www.victoria.ca/&quot;&gt;Victoria&lt;/a&gt;, &lt;a href=&quot;http://maps.google.com/maps?f=q&amp;amp;hl=fr&amp;amp;q=victoria,+canada&amp;amp;sll=37.0625,-95.677068&amp;amp;sspn=29.163842,59.941406&amp;amp;ie=UTF8&amp;amp;z=7&amp;amp;ll=48.605674,-123.079834&amp;amp;spn=3.036803,7.492676&amp;amp;om=1&quot;&gt;ville située au Canada&lt;/a&gt; dans la région de la Colombie britannique sur la côte pacifique à quelques centaines de kilomètres de Vancouver et ainsi rejoindre mes camarades, amis et collègues de la &lt;a href=&quot;http://www.tei-c.org/&quot;&gt;TEI&lt;/a&gt; pour &lt;a href=&quot;http://etcl.uvic.ca/public/tei2006/index.php&quot;&gt;l&#039;assemblée générale annuelle des membres du consortium&lt;/a&gt;.&lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;Après un périple de 16 heures, deux lignes de métro, un &lt;a href=&quot;http://flickr.com/photos/lespetitescases/280730007/&quot;&gt;RER&lt;/a&gt;, &lt;a href=&quot;http://flickr.com/photos/lespetitescases/281431158/&quot;&gt;trois&lt;/a&gt; &lt;a href=&quot;http://flickr.com/photos/lespetitescases/281431153/&quot;&gt;avions&lt;/a&gt; et un bus pour finir, j&#039;ai pour la première fois de ma vie mis le pied hors d&#039;Europe et, même si le colloque ne me laisse pas le temps d&#039;apprécier pleinement la ville, le peu que j&#039;en ai vu ne me déçoit pas. Quant aux 12 heures d&#039;avion, qui, je dois l&#039;avouer, m&#039;inquiétaient, ça a été l&#039;occasion de &lt;a href=&quot;http://flickr.com/photos/lespetitescases/280730012/&quot;&gt;survoler&lt;/a&gt; le Groënland, &lt;a href=&quot;http://flickr.com/photos/lespetitescases/280730009/&quot;&gt;instant magique&lt;/a&gt; que je ne suis pas près d&#039;oublier. &lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;Mais, trêves de bavardages, je n&#039;ai pas fait plusieurs milliers de kilomètres pour faire du tourisme (franchement quelle idée !!...), mais pour travailler (c&#039;est bien plus sérieux ! ;-) ). L&#039;assemblée générale de la TEI est l&#039;occasion d&#039;entendre des communications assez théoriques sur l&#039;encodage, la TEI, son évolution, ses défauts, XML, son évolution, ses défauts et comment améliorer tout ça. Je dois avouer que c&#039;est souvent fumeux et que la langue de Shakespeare ne m&#039;aide pas, mais il y a parfois quelques bonnes idées, comme cette tentative de &lt;a href=&quot;http://www.holoweb.net/~liam/&quot;&gt;Liam Quin du W3C&lt;/a&gt; de détendre les chercheurs que nous sommes sur les questions que nous nous posons avant d&#039;encoder un texte. Il appelle cela l&#039;anxiété du balisage, auquel il ajoute l&#039;anxiété de la trace qu&#039;on veut laisser, l&#039;analyse était bonne, mais les propositions décevantes. Je retiendrais aussi les idées de John Lavagnino du king&#039;s college qui a expliqué en quoi le langage de la TEI évoluait et comment l&#039;étude de cette évolution, même inconsciente, pouvait aider à mieux organiser le guidelines.&lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;Heureusement, les communications ne se limitent pas à des papiers théoriques et à des keynotes et nous avons eu le droit à quelques rapports d&#039;expériences. &lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;Stéphan Sinclair, développeur &lt;a href=&quot;http://huco.ualberta.ca/huco-cgi/TempAddress_DoNotBookmark/hyperpo.cgi?&amp;amp;delta_iLang=fr&quot;&gt;d&#039;hyperpro&lt;/a&gt;, un outil d&#039;analyse lexicale en ligne sur lequel j&#039;étais tombé il y a quelques mois, et Anthony Sapp nous ont présenté leurs recherches dans le domaine de la visualisation d&#039;informations. Ils nous ont présenté plusieurs interfaces dont deux ont retenu mon attention. La première est une expérience assez novatrice de lecture (non, je rassure &lt;a href=&quot;http://vagabondages.blogspot.com/2006/10/in-words-we-trust.html&quot;&gt;mes lecteurs fans de Thursday next&lt;/a&gt;, il ne s&#039;agit pas d&#039;&lt;a href=&quot;http://www.amazon.fr/puits-histoires-perdues-Jasper-Fforde/dp/2265082848/ref=sr_11_1/403-2430200-9602055?ie=UTF8&quot;&gt;Ultraworld&lt;/a&gt;) des pièces de théâtre, puisque vous pouvez visualiser sur un ascenseur dans une colonne à droite la répartition des tirades des différents personnages, dans une colonne adjacente, le texte en lui même et dans une dernière partie une animation du mouvement des personnages représentées sous forme de rond. Mon explication ne me semble pas clair, désolé... La seconde est un &lt;a href=&quot;http://mandala.humviz.org/&quot;&gt;outil de représentation de l&#039;information sous forme de mandala&lt;/a&gt;. Il représente graphiquement les interactions entre différentes informations que vous déterminez non pas simplement sous forme de graphes, comme avec &lt;a href=&quot;http://www.ontopia.net/omnigator/models/index.jsp&quot;&gt;omnigator&lt;/a&gt; dont &lt;a href=&quot;http://www.lespetitescases.net/le-rdf-avenir-du-patrimoine-sur-le-web-y&quot;&gt;j&#039;ai déjà parlé&lt;/a&gt;, mais aussi sous forme de mandala. L&#039;outil reste à creuser, mais l&#039;idée est assez intéressante.&lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;En vrac, nous avons eu une présentation d&#039;un projet de visualisation géographique de corpus encodés en TEI par l&#039;université de Bergen, une présentation du logiciel &lt;a href=&quot;http://www.cdlib.org/inside/projects/xtf/&quot;&gt;XTF&lt;/a&gt;, un framework de publication de document XML mis au point par la bibliothèque de l&#039;université de Californie dont &lt;a href=&quot;http://figoblog.org/document1539.php&quot;&gt;Manue a parlé justement cette semaine&lt;/a&gt; et qui me fait furieusement penser à &lt;a href=&quot;http://adnx.org/sdx/&quot;&gt;SDX&lt;/a&gt; et la présentation par Béatrice Pincemin (oui, je ne suis pas le seul Français et ça fait bien plaisir !) &lt;a href=&quot;http://www-lli.univ-paris13.fr/ressources/&quot;&gt;du corpus des droits de l&#039;Homme en TEI&lt;/a&gt; et la démonstration d&#039;un &lt;a href=&quot;http://www.ryerson.ca/1890s/yellowbook.htm&quot;&gt;projet en cours sur le livre &lt;/a&gt;&lt;a href=&quot;http://www.ryerson.ca/1890s/yellowbook.htm&quot;&gt;&lt;em&gt;the yellow book&lt;/em&gt;&lt;/a&gt;&lt;span style=&quot;font-style:normal;&quot;&gt; qui propose des documents en Word au téléchargement et un tourne-page en flash ce qui a eu pour effet de rayer définitivement le projet de ma mémoire. Deux autres projets ont retenu plus particulièrement mon attention :&lt;/span&gt;&lt;/p&gt;&lt;ol style=&quot;list-style-type:disc&quot;&gt;&lt;li&gt;&lt;p class=&quot;texte&quot; style=&quot;font-style:normal;&quot;&gt;L&#039;inévitable communication sur les problèmes de l&#039;overlapping et sur les moyens de représenter deux arbres XML dans un seul fichier XML (c&#039;est à dire un seul arbre..), en particulier pour permettre la description physique d&#039;un ouvrage et sa description logique. La solution proposée, cette fois-ci, est séduisante, mais cela s&#039;arrête là. Michael Best et Peter van Hardenberg de l&#039;université de Victoria proposent d&#039;utiliser les namespaces pour différencier les deux arbres, de mettre en place chacun des arbres séparemment et ensuite de les mixer dans un seul fichier. Du point de vue de la représentation de l&#039;information, c&#039;est assez intéressant. Mais, outre le fait qu&#039;un namespace XML a pour utilité d&#039;indiquer quels schémas XML sont utilisés dans le fichier XML, leurs propositions est limité par les outils de traitement des fichiers XML, en particulier Xpath qui ne prévoit pas ce genre de cas.&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p class=&quot;texte&quot; style=&quot;font-style:normal;&quot;&gt;Le second est une recherche en cours en Allemagne pour la mise en place d&#039;un &lt;a href=&quot;http://www.textgrid.de/&quot;&gt;Grid autour des textes&lt;/a&gt;. Ils ont mis au point une interface visiblement open-source pour permettre aux auteurs de travailler et l&#039;architecture en grid permet de décentraliser les données, et ainsi d&#039;augmenter les capacités de stockage et d&#039;interrogation. Ça m&#039;a fait penser à &lt;a href=&quot;http://lespetitescases.net/l-edition-electronique-ne-se-limite-pas-aux-revues-et-a-l-edition#c735&quot;&gt;la proposition&lt;/a&gt; de &lt;a href=&quot;http://www.stephanepouyllau.org/&quot;&gt;Stéphane Pouyllau&lt;/a&gt; sur un data center pour les SHS en France mixé avec la réflexion de &lt;a href=&quot;http://www.homo-numericus.net/blog/ecrire_auteur.php3?id_auteur=1&quot;&gt;Pierre Mounier&lt;/a&gt; sur &lt;a href=&quot;http://www.homo-numericus.net/blog/SHS-2.html&quot;&gt;SHS 2.0&lt;/a&gt;. C&#039;est à dire comment centraliser tout en décentralisant...&lt;/p&gt;&lt;/li&gt;&lt;/ol&gt;&lt;p class=&quot;texte&quot; style=&quot;font-style:normal;&quot;&gt;Ce matin (oui, il est 8h du matin ici et la journée n&#039;est pas encore vraiment commencé) a lieu la réunion des &lt;a href=&quot;http://www.tei-c.org/Activities/SIG/&quot;&gt;SIG&lt;/a&gt;, des groupes d&#039;intérêts particuliers qui doivent aider au développement de la TEI et la poster session pendant laquelle je vais présenter un poster sur les projets de l&#039;École des chartes dans le domaine des sources historiques (encodées en TEI évidemment !), avant d&#039;affronter cet après-midi les interventions de rigueur dans la vie d&#039;une association, bilan moral, financier et élections... Bref, encore une longue journée en perspective !&lt;/p&gt;</description>
 <comments>http://www.lespetitescases.net/causeries-sur-la-tei-a-l-autre-bout-du-monde#comments</comments>
 <category domain="http://www.lespetitescases.net/causeries">Causeries</category>
 <category domain="http://www.lespetitescases.net/index102">TEI</category>
 <pubDate>Sat, 28 Oct 2006 20:58:34 +0200</pubDate>
 <dc:creator>got</dc:creator>
 <guid isPermaLink="false">738 at http://www.lespetitescases.net</guid>
</item>
<item>
 <title>En quoi la TEI constitue aujourd&#039;hui une bonne solution ?</title>
 <link>http://www.lespetitescases.net/en-quoi-la-tei-constitue-aujourd-hui-une-bonne-solution-y</link>
 <description>&lt;p class=&quot;texte&quot;&gt;Parmi les grammaires XML existantes, il en existe trois qui se détachent pour encoder des textes : &lt;a href=&quot;http://www.docbook.org/&quot;&gt;Docbook&lt;/a&gt; mis au point par &lt;a href=&quot;http://nwalsh.com/&quot;&gt;Norm Walsh&lt;/a&gt; dont le but est d&#039;encoder les manuels techniques, &lt;a href=&quot;http://www.w3.org/TR/xhtml2/&quot;&gt;XHTML 2&lt;/a&gt; (eh ! oui) qui me semble une solution simple et efficace, améliorant les défauts de hiérarchisation de l&#039;information que présentait HTML puis XHTML 1 et &lt;a href=&quot;http://www.tei-c.org/&quot;&gt;TEI&lt;/a&gt; dont la vocation initiale est d&#039;encoder les textes en sciences humaines et en littérature entre autres. Je mets de côté &lt;a href=&quot;http://www.ecma-international.org/news/TC45_current_work/TC45-2006-50.htm&quot;&gt;Open XML&lt;/a&gt; et &lt;a href=&quot;http://opendocument.us/&quot;&gt;Open Document&lt;/a&gt; qui sont les grammaires utilisées respectivement par Microsoft Office et &lt;a href=&quot;http://www.openoffice.org/&quot;&gt;Open Office&lt;/a&gt; dont le but ne me semble pas exactement le même que celles citées précédemment.&lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;A la différence des deux autres, TEI occupe une place à part de par sa nature et son fonctionnement, en particulier avec &lt;a href=&quot;http://www.tei-c.org/P5/&quot;&gt;la nouvelle version dite P5&lt;/a&gt; qui ouvre des perspectives très importantes et pourraient bien réconcilier un certain nombre de communautés qui, pour des raisons diverses, bonnes ou mauvaises, ne l&#039;utilisaient pas. En expliquant justement ce qui fait la particularité de TEI et les nouvelles possibilités de P5, je voudrais montrer en quoi elle constitue aujourd&#039;hui une bonne solution et répondre ainsi à la question qu&#039;on me pose souvent : pourquoi devrais-je choisir la TEI ?&lt;/p&gt;&lt;h1 id=&quot;heading1&quot;&gt;La TEI : guide, schéma, DTD ou usine à gaz ?&lt;/h1&gt;&lt;p class=&quot;texte&quot;&gt;Le but de la TEI n&#039;est absolument pas hégémonique, le consortium, qui en a la charge depuis 1987, composé de chercheurs et de bibliothécaires du monde entier ne gagne rien si le nombre d&#039;utilisateurs augmente. Son but est plutôt d&#039;offrir des solutions efficaces pour répondre aux besoins d&#039;encodage de l&#039;information en vue de son exploitation bien-sûr, mais surtout en vue de son échange et de son partage. Je ne vais pas expliquer les avantages d&#039;un standard dans ce cas, il me semble que vous en êtes tous conscients.&lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;Dans &lt;a href=&quot;http://lespetitescases.net/la-modularite-de-la-tei&quot;&gt;mon premier billet sur la TEI&lt;/a&gt;, j&#039;ai expliqué en quoi elle ne constituait pas une DTD en tant que tel, mais un framework. C&#039;est plus que jamais le cas avec cette nouvelle version. Le processus de mise en place de la TEI n&#039;y est pas étranger. Le schéma XML (quelque soit le format utilisé pour le décrire : DTD, XML schema ou RelaxNG) n&#039;est qu&#039;une conséquence du &lt;a href=&quot;http://www.tei-c.org/release/doc/tei-p5-doc/html/&quot;&gt;guide proposé par le consortium&lt;/a&gt; qui s&#039;attache à définir, repérer et donc normaliser les différentes informations sur lesquelles se rejoint une communauté suffisamment importante d&#039;utilisateurs. Vu les problématiques concernées par la TEI, il n&#039;est pas étonnant de se retrouver avec plus de &lt;a href=&quot;http://www.tei-c.org/release/doc/tei-p5-doc/html/REFTAG.html&quot;&gt;450 éléments&lt;/a&gt; et c&#039;est là que le bat blesse.&lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;Le problème se pose alors aussi bien pour les concepteurs de la TEI que pour les utilisateurs : comment maintenir une telle librairie de plus de 400 éléments ? Comment apprendre et s&#039;approprier la TEI ? Est-ce-que la TEI n&#039;est pas une énorme usine à gaz ? Même avec ces 450 éléments, la TEI ne comprend pas la balise que je cherche, j&#039;en veux pas.... Bref, il est évident que nous sommes face à un outil puissant, assez complet, mais difficile à prendre en main, fruit de compromis entre différentes personnes dans une communauté et même différentes communautés. Heureusement, le consortium TEI a pris les choses en main, en inventant un format pour décrire sa propre grammaire issue de la TEI appelé ODD (One document does it all) et l&#039;outil pour générer une DTD; un XML schema et/ou un schéma RelaxNG à partir de ce fichier : &lt;a href=&quot;http://tei.oucs.ox.ac.uk/Roma/&quot;&gt;Roma&lt;/a&gt;. Avec ces deux outils, la TEI mérite plus que jamais son appellation de framework.&lt;/p&gt;&lt;h1 id=&quot;heading2&quot;&gt;Vous avez dit bizarre&lt;a class=&quot;footnotecall&quot; id=&quot;bodyftn1&quot; href=&quot;#ftn1&quot;&gt;1&lt;/a&gt;, non j&#039;ai dit &#039;ODD&#039;&lt;/h1&gt;&lt;p class=&quot;texte&quot;&gt;Dans la précédente version, la TEI proposait le modèle de la pizza pour construire une DTD issue de TEI. Le modèle s&#039;appuyait sur le classement des différents éléments de la TEI en trois groupes : un module-noyau (« core tagset »), différents modules de base (« base tagset ») et différents modules additionnels (« additional tagset »), répondant à des besoins particuliers comme &lt;a href=&quot;http://www.tei-c.org/release/doc/tei-p5-doc/html/TS.html&quot;&gt;l&#039;encodage de transcriptions de corpus oraux&lt;/a&gt;, &lt;a href=&quot;http://www.tei-c.org/release/doc/tei-p5-doc/html/DI.html&quot;&gt;l&#039;encodage de dictionnaires&lt;/a&gt; ou encore &lt;a href=&quot;http://www.tei-c.org/release/doc/tei-p5-doc/html/TC.html&quot;&gt;d&#039;apparat critique&lt;/a&gt; pour ne donner que quelques exemples&lt;a class=&quot;footnotecall&quot; id=&quot;bodyftn0&quot; href=&quot;#ftn0&quot;&gt;1&lt;/a&gt;. Dans ce modèle, il était possible de retenir un ou plusieurs modules en plus du core et d&#039;un module de base. Par ailleurs, &lt;a href=&quot;http://www.tei-c.org/Lite/&quot;&gt;une DTD dite TEILite&lt;/a&gt; rassemblant tous les éléments de base pour encoder un texte était mise à la disposition des utilisateurs. Dans ce modèle, ce n&#039;était donc pas les ingrédients de la pizza que vous choisissiez, mais les ingrédients des différentes parts.&lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;La nouvelle version abandonne le système de la pizza, mais conserve &lt;a href=&quot;http://tei.oucs.ox.ac.uk/Oxford/2006-09-methNet/Materials/catalogue.xhtml&quot;&gt;les systèmes de modules&lt;/a&gt;, en y ajoutant en plus la notion de &lt;a href=&quot;http://www.tei-c.org/release/doc/tei-p5-doc/html/REFCLA.html&quot;&gt;classes d&#039;éléments&lt;/a&gt;. Ces classes renvoient au comportement de l&#039;élément dans votre grammaire : où je peux placer mon élément ? quels attributs sont disponibles pour cet élément ? Un élément peut appartenir à une ou plusieurs classes. Grâce au format ODD qui est en fait un fichier XML utilisant une grammaire dérivée de la TEI, vous allez alors pouvoir choisir les modules que vous voulez utiliser, mais en plus vous allez pouvoir : &lt;/p&gt;&lt;ol style=&quot;list-style-type:disc&quot;&gt;&lt;li&gt;&lt;p class=&quot;texte&quot;&gt;changer le nom d&#039;un élément (le traduire en français par exemple, personnellement je suis contre cette pratique, mais chacun fait comme il veut) ;&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p class=&quot;texte&quot;&gt;supprimer les éléments qui ne vous intéressent pas ;&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p class=&quot;texte&quot;&gt;changer le comportement d&#039;un élément, c&#039;est à dire le changer de classes ;&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p class=&quot;texte&quot;&gt;Ajouter un attribut et le rattacher à une classe ;&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p class=&quot;texte&quot;&gt;ajouter un nouvel élément en le reliant à une classe, un module et/ou même un élément ;&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p class=&quot;texte&quot;&gt;contraindre la valeur d&#039;un attributs ou d&#039;un élément.&lt;/p&gt;&lt;/li&gt;&lt;/ol&gt;&lt;p class=&quot;texte&quot;&gt;Bref, vous allez construire votre grammaire XML adaptée à vos besoins, en vous appuyant sur la TEI, et tous les changements par rapport à la « TEI canonique », c&#039;est à dire les éléments et les attributs, leurs noms, leurs comportements et leurs sémantiques décrits dans le guide, seront indiqués dans ce fichier ODD. Cerise sur le gâteau, ODD vous permet aussi de fournir la sémantique de chaque élément de votre grammaire à partir duquel vous pouvez générer une documentation complète. Pour les &lt;em&gt;hard-coders&lt;/em&gt;, il est possible d&#039;écrire directement son fichier ODD en XML, &lt;a href=&quot;http://www.tei-c.org/release/doc/tei-p5-doc/html/TD.html&quot;&gt;la documentation est disponible&lt;/a&gt;, mais je vous rassure, il est possible de le faire avec &lt;a href=&quot;http://tei.oucs.ox.ac.uk/Roma/&quot;&gt;Roma&lt;/a&gt;, une interface en ligne &lt;em&gt;user-friendly&lt;/em&gt; (il reste encore des améliorations à apporter, mais c&#039;est de mieux en mieux) qui vous permettra aussi de générer à partir d&#039;un fichier ODD ou de votre « customisation en ligne » un schéma dans votre syntaxe préféré : DTD, XML schema ou RelaxNG. Évidemment, RelaxNG offre plus de possibilités de contraintes, en particulier sur les valeurs.&lt;/p&gt;&lt;h1 id=&quot;heading3&quot;&gt;Quid de l&#039;interopérabilité avec ODD ?&lt;/h1&gt;&lt;p class=&quot;texte&quot;&gt;Mais, j&#039;entends déjà la question qui vous taraude : « c&#039;est bien joli, c&#039;est très souple, mais quid de l&#039;interopérabilité ? ». Question légitime, que je me suis d&#039;ailleurs posé. En fait, cette question se situe à trois niveaux. Au niveau d&#039;une communauté précise d&#039;utilisateurs partageant le même type de textes et les mêmes besoins, ODD va permettre de fixer le schéma de façon encore plus précise, répondant à des besoins spécifiques et surtout de le documenter. &lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;Plaçons-nous maintenant au niveau de la communauté des utilisateurs de TEI, dans ce cas, il faut en revenir à la TEI telle qu&#039;elle est décrite dans le guide. Or, le fichier ODD comprend toutes les spécifications de votre grammaire et les modifications par rapport à la « TEI canonique ». Ainsi, si vous avez ajouté un élément, vous l&#039;aurez rattaché à un des éléments génériques de la TEI et il sera même possible de faire référence à une règle de transformation dans un fichier XSL cité dans le fichier ODD. Bref, dans ce cas, tout est la disposition pour migrer le fichier encodé selon cette grammaire vers un fichier « canoniquement valide » avec la TEI qui devient un format pivot d&#039;échanges permettant la mise en place d&#039;outils qu&#039;on pourra partager. Enfin, même si certains éléments ont été changés, il existe quand même de grandes chances que les éléments décrivant la structure globale (les éléments de macro-structures) soit toujours les mêmes. Dans ce cas, l&#039;interopérabilité n&#039;est pas garantie à 100%, mais vous pourrez au moins travailler sur la structure générale du texte encodé.&lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;Avec la mise en place de ODD et de Roma, la TEI se révèle encore plus proche des besoins des utilisateurs et se positionne comme une solution incontournable pour l&#039;encodage de textes. Elle fait montre d&#039;une maturité dont peu de schémas XML peuvent se vanter. Avec &lt;a href=&quot;http://lespetitescases.net/encodage-en-question&quot;&gt;le précédent billet sur l&#039;encodage&lt;/a&gt;, j&#039;espère que vous êtes maintenant « armés » pour faire vos choix.&lt;/p&gt;&lt;h1 id=&quot;heading4&quot;&gt;Quelques ressources pour finir&lt;/h1&gt;&lt;p class=&quot;texte&quot;&gt;Si vous voulez en savoir plus sur ODD, quelques ressources (en anglais exclusivement) :&lt;/p&gt;&lt;ol style=&quot;list-style-type:disc&quot;&gt;&lt;li&gt;&lt;p class=&quot;texte&quot;&gt;Lou Burnard, &lt;a href=&quot;http://www.tei-c.org.uk/Talks/2004/Wuerzburg/Odds/index0.html&quot;&gt;One document does it all&lt;/a&gt;, diaporama sur ODD&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p class=&quot;texte&quot;&gt;Lou Burnard et Sebastian Rahtz, &lt;a href=&quot;http://www.mulberrytech.com/Extreme/Proceedings/xslfo-pdf/2004/Burnard01/EML2004Burnard01.pdf&quot;&gt;Relax NG with son of ODD&lt;/a&gt;, Extreme Markup Languages 2004, Montréal, Québec, 2-6 août 2004.&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p class=&quot;texte&quot;&gt;Syd Bauman et Julia Flanders, &lt;a href=&quot;http://www.mulberrytech.com/Extreme/Proceedings/html/2004/Bauman01/EML2004Bauman01.html&quot;&gt;Odd customizations&lt;/a&gt;, idem.&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p class=&quot;texte&quot;&gt;Laurent Romary, &lt;a href=&quot;http://tei.oucs.ox.ac.uk/Oxford/2006-09-methNet/RomaJourney.ppt&quot;&gt;Uncovering the TEI and ODD&lt;/a&gt;, a pedagogical strip-tease, diaporama ppt.&lt;/p&gt;&lt;/li&gt;&lt;/ol&gt;&lt;h2 class=&quot;notes&quot;&gt;Quelques notes en passant&lt;/h2&gt;&lt;p class=&quot;notebaspage&quot;&gt;&lt;a id=&quot;ftn1&quot; class=&quot;FootnoteSymbol&quot; href=&quot;#bodyftn1&quot;&gt;1&lt;/a&gt; Pour mes lecteurs non anglophones, ODD est l&#039;acronyme de Document does it all dans le cadre de la TEI mais le mot signifie aussi bizarre en anglais.&lt;/p&gt;&lt;p class=&quot;notebaspage&quot;&gt;&lt;a id=&quot;ftn0&quot; class=&quot;FootnoteSymbol&quot; href=&quot;#bodyftn0&quot;&gt;1&lt;/a&gt; Si vous voulez en savoir plus, cf le billet cité plus haut : &lt;a href=&quot;http://lespetitescases.net/la-modularite-de-la-tei&quot;&gt;la modularité de la TEI&lt;/a&gt;.&lt;/p&gt;</description>
 <comments>http://www.lespetitescases.net/en-quoi-la-tei-constitue-aujourd-hui-une-bonne-solution-y#comments</comments>
 <category domain="http://www.lespetitescases.net/taxonomy/term/69">Structuration</category>
 <category domain="http://www.lespetitescases.net/causeries">Causeries</category>
 <category domain="http://www.lespetitescases.net/index102">TEI</category>
 <category domain="http://www.lespetitescases.net/index364">XHTML</category>
 <pubDate>Wed, 11 Oct 2006 21:24:26 +0200</pubDate>
 <dc:creator>got</dc:creator>
 <guid isPermaLink="false">726 at http://www.lespetitescases.net</guid>
</item>
<item>
 <title>Qu΄est-ce-qu΄on encode ?</title>
 <link>http://www.lespetitescases.net/encodage-en-question</link>
 <description>&lt;p class=&quot;texte&quot;&gt;Lorsqu&#039;on encode un fichier en XML, bien souvent, on ne prend pas le temps, avant de se lancer à proprement parler dans le codage, de réfléchir à une question simple, mais pourtant essentielle : qu&#039;est-ce-qu&#039;on veut encoder ? Cette question a l&#039;air anodine, mais la réponse peut faire varier de façon très importante la structure du fichier et le choix des balises. Je voudrais essayer de montrer avec ce billet l&#039;impact de cette question dans les stratégies d&#039;encodage.&lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;Avant de continuer et après tous ces semaines à parler de RDF, il est peut-être utile de rappeler que le XML, dans son utilisation première, est un langage à balises permettant de caractériser une portion d&#039;informations à l&#039;intérieur d&#039;un document. A l&#039;inverse de RDF, dont le but est de décrire l&#039;information en elle-même, c&#039;est à dire son sens, XML permet de décrire la structure de l&#039;information dans le contexte d&#039;un document précis. Ainsi, une même portion d&#039;informations peut être encodée de différentes façons dans deux cas différents avec la même grammaire XML, alors qu&#039;elle a le même sens. A travers cette définition et les &lt;a href=&quot;http://lespetitescases.net/rdf-pour-les-nuls&quot;&gt;billets&lt;/a&gt; &lt;a href=&quot;http://lespetitescases.net/index308&quot;&gt;précédents&lt;/a&gt; sur RDF, j&#039;espère que la différence apparaît mieux. &lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;L&#039;extensibilité de XML est infinie, il est possible d&#039;encoder chaque mot voire chaque lettre si vous le souhaitez. Évidemment, si vous utilisez une grammaire XML, vos possibilités seront restreintes par celle-ci. Mais, certaines grammaires comme la TEI&lt;a class=&quot;footnotecall&quot; id=&quot;bodyftn1&quot; href=&quot;#ftn1&quot;&gt;1&lt;/a&gt; ouvrent ces possibilités. &lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;Lorsque je suis en face d&#039;un nouveau texte à encoder, je me pose toujours la même question : quelles informations sont utiles à encoder ? L&#039;encodage représentant un travail fastidieux, il est inutile de surcharger le choix de balises ce qui complique souvent inutilement le fichier XML. Deux critères me permettent de faire mes choix :&lt;/p&gt;&lt;ol style=&quot;list-style-type:disc&quot;&gt;&lt;li&gt;&lt;p class=&quot;texte&quot;&gt;Pour quels informations l&#039;auteur ou l&#039;éditeur veut-il voir une mise en avant dans le résultat final mis en page que ce soit en papier ou avec un navigateur Web ? Pourquoi ces informations-là ? (exemple : un titre d&#039;ouvrages ou un mot étranger sont habituellement mis en avant pour faire apparaître leurs particularités, on va le rendre graphiquement en italique)&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p class=&quot;texte&quot;&gt;Quels informations veulent-ils ensuite utiliser pour dresser des listes, des index ou mettre en place des interrogations ?&lt;/p&gt;&lt;/li&gt;&lt;/ol&gt;&lt;p class=&quot;texte&quot;&gt;La plupart du temps, ces deux critères/questions me permettent de résoudre 95% des choix de balises pour les portions informations à encoder à l&#039;intérieur d&#039;un paragraphe, ce qu&#039;on appellerait les micro-structures. Ces questions se limitent bien souvent à dresser un rapport entre le temps d&#039;encodage et les possibilités d&#039;exploitation souhaitées de cet encodage. &lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;Pour autant, ces deux questions ne résolvent pas le problème de la structure générale du fichier, ce qu&#039;on pourrait appeler les macro-structures. Dans ce cas, la question essentielle est : qu&#039;est-ce-qu&#039;on encode ? accompagnés d&#039;une série de questions : quelle est la nature du document encodée ? Quel est le but poursuivi par l&#039;encodage de ce document en XML ? Quel stratégie d&#039;encodage je vais adopter ? Pour bien comprendre les enjeux de cette question, je vous propose deux exemples, un avec HTML et l&#039;autre avec TEI.&lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;Pendant des années, nous avons utilisé les tableaux HTML pour construire nos pages Web. Si on y réfléchit bien, ce principe, qui était dû à une mauvaise compréhension et prise en charge de CSS par les différents outils (éditeurs ou navigateurs), mais aussi à l&#039;utilisation abusive de mauvais éditeurs WYSIWYG, revenait en réalité à encoder le graphisme et non la structure de la page Web en HTML. Dans ce cas, on ne se posait pas la question (d&#039;ailleurs on ne se posait aucune question), le rendu final à l&#039;écran constituait le but unique poursuivi. &lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;Aujourd&#039;hui, heureusement, les choses ont changé et on applique assez scrupuleusement la séparation de la mise en forme et du contenu, paradigme au cœur de XML. La structure du code HTML reflète (ou du moins est censé refléter) la structure d&#039;une page Web. D&#039;ailleurs, on pourrait tout à fait mettre en lumière un modèle pour toutes les pages Web, puisqu&#039;elles sont en gros constituées de trois parties/divisions :&lt;/p&gt;&lt;ol style=&quot;list-style-type:disc&quot;&gt;&lt;li&gt;&lt;p class=&quot;texte&quot;&gt;Un « cartouche » contenant les informations sur la page : nom du site, titre de la page..., bref, en quelque sorte les métadonnées, même si elles sont visibles ;&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p class=&quot;texte&quot;&gt;Un ou des menus de navigation qui sont en fait des listes de liens ;&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p class=&quot;texte&quot;&gt;Le contenu proprement dit de la page Web.&lt;/p&gt;&lt;/li&gt;&lt;/ol&gt;&lt;p class=&quot;texte&quot;&gt;La construction du code source d&#039;une page Web en HTML impose donc cette réflexion de base sur les stratégies d&#039;encodage. Elle aurait d&#039;ailleurs peut-être permis une prise de conscience plus tôt de ce qui apparaît aujourd&#039;hui comme une évidence, à savoir l&#039;utilisation de CSS pour le graphisme et la mise en forme de la page Web.&lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;Cette question sur le but poursuivi par l&#039;encodage se pose de façon encore plus criante dans l&#039;utilisation de la TEI. Comprenant pas moins de 450 éléments, la TEI est, en outre, très générique. Il est donc possible d&#039;encoder un même document de plusieurs manières différentes. Dans le cadre de mon travail à l&#039;École des chartes, nous sommes amenés à encoder des textes de nature différente en TEI. Il serait pour nous inconcevables d&#039;utiliser la même structure TEI pour encoder un inventaire de manuscrits, l&#039;édition d&#039;un manuscrit littéraire ou encore l&#039;édition d&#039;un chartrier (ensembles des actes, c&#039;est à dire pour faire vite des papiers administratifs, d&#039;une institution laïque ou ecclésiastique au Moyen Âge et à l&#039;époque moderne). &lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;D&#039;ailleurs, revenons quelques instants sur les sources historiques. Dans ce cas, certains nous reprochent de ne pas assez travailler sur la source en elle-même. Mais, notre but n&#039;est pas d&#039;encoder la source, mais l&#039;édition critique de la source qu&#039;a mis au point le chercheur. Cela signifie que la structure du fichier TEI ne reflète pas la structure de la source ce qui dans nombreux cas est d&#039;ailleurs pratiquement impossible à faire, mais la structure d&#039;une édition de sources, c&#039;est à dire non seulement le texte de la source transcrit, mais aussi ce qu&#039;on appelle l&#039;apparat critique : analyse du chercheur, notes de bas de page, collations (le fait d&#039;indiquer les différences entre les copies manuscrites d&#039;un même texte)... C&#039;est pourquoi, je ne fais pas un fichier TEI par acte, c&#039;est à dire par source, mais un fichier TEI pour l&#039;ensemble de l&#039;édition d&#039;un chartrier, car cela correspond à un ensemble documentaire logique et au but poursuivi par l&#039;encodage (et par la publication, d&#039;ailleurs).&lt;/p&gt;&lt;p class=&quot;texte&quot;&gt;Alors, la prochaine fois que vous avez un problème pour encoder votre document XML, faire votre choix de balises en TEI par exemple, arrêtez-vous quelques instants, levez le nez de votre machine et demandez-vous : « Mais au fait qu&#039;est-ce-que je suis en train d&#039;encoder ? ». La réponse devrait vous mettre sur la voie.&lt;/p&gt;&lt;h2 class=&quot;notes&quot;&gt;Quelques notes en passant&lt;/h2&gt;&lt;p class=&quot;notebaspage&quot;&gt;&lt;a id=&quot;ftn1&quot; class=&quot;FootnoteSymbol&quot; href=&quot;#bodyftn1&quot;&gt;1&lt;/a&gt; Pour ceux qui ne suivent pas ou qui sont de nouveaux lecteurs de ce blog, la &lt;a href=&quot;http://www.tei-c.org/&quot;&gt;TEI, Text encoding initiative&lt;/a&gt;, est un guide de balisage mis au point par un consortium indépendant et servant à encoder en XML les textes issues de la recherche en sciences humaines ou à vocation littéraire. Si vous voulez en savoir plus, le &lt;a href=&quot;http://lespetitescases.net/index102&quot;&gt;mot-clef/tag TEI&lt;/a&gt; sur ce blog devrait vous renseigner.&lt;/p&gt;</description>
 <comments>http://www.lespetitescases.net/encodage-en-question#comments</comments>
 <category domain="http://www.lespetitescases.net/taxonomy/term/69">Structuration</category>
 <category domain="http://www.lespetitescases.net/causeries">Causeries</category>
 <category domain="http://www.lespetitescases.net/index348">Édition critique</category>
 <category domain="http://www.lespetitescases.net/index102">TEI</category>
 <category domain="http://www.lespetitescases.net/index364">XHTML</category>
 <pubDate>Wed, 13 Sep 2006 23:01:40 +0200</pubDate>
 <dc:creator>got</dc:creator>
 <guid isPermaLink="false">711 at http://www.lespetitescases.net</guid>
</item>
</channel>
</rss>
