Les petites cases

Des supports pour former à la question de la donnée

Nouvelle année que je vous souhaite excellente après cette année 2020 si particulière à tant d’égards et nouvelles perspectives... Cela fait maintenant six ans que je travaille à l’Institut national de l’audiovisuel ;  six années qui ont été l’occasion de mener un magnifique projet de déploiement d’une infrastructure technique de stockage et traitement des données et d’outils de fouille de données et de textes, de modélisation et refonte des données de gestion des collections et de développement d’une culture de la donnée partagée au sein de l’établissement ; six années dont on voit aujourd’hui un premier aboutissement.

Ces six années de développement et de réflexion ont aussi été l’occasion pour moi de donner de très nombreuses formations initiales et continues autour de la question de la donnée dans différents établissements : bien-sûr l’organisme de formation de l’INA, l’ENSSIB et l’Ecole nationale des chartes. Au départ, elles étaient orientées autour des technologies du Web sémantique et elles ont peu à peu évolué vers la question des données en général pour essayer d’embrasser aujourd’hui toutes les composantes de la gouvernance des données.

J’apprécie énormément d’enseigner, de former, de partager mes réflexions sur les sujets sur lesquels je travaille, cela permet de formaliser les idées et de les mettre en ordre. Malgré tout, même si je pense que la formation fait partie intégrante de mon travail, elle n’est pas mon activité principale. Comme j’ai la chance de pouvoir choisir (mesdames et messieurs les enseignantes et enseignants, je vous admire !!), que je ne souhaite pas ressentir de la lassitude, que je souhaite que cela reste un plaisir, j’ai décidé pour cette nouvelle année de faire une pause et de laisser peu à peu la place aux personnes que j’ai formées, qui m’ont accompagné dans cette aventure des dernières années et/ou que j’ai pu croiser, à toi lecteur, peut-être !

Mais, avant de passer la main (au moins pour un temps ?), je vous propose deux choses :

  • tout d’abord, je place en licence CC-BY tous mes supports de formations, vous les trouverez tous dans ce répertoire partagé sur Google drive : https://drive.google.com/drive/folders/1Uk-p8JYGDeEFAcOW9Qom-bj0p_-0Z7-d?usp=sharing N’hésitez pas, c’est là pour ça ;-) Dans la suite de ce billet, je détaille rapidement ces différents supports ;
  • par ailleurs, sur une idée d’Emmanuelle, je vous propose d’organiser sous l’égide de l’Ina, une session (gratuite, évidemment…) de formation de formateurs autour de la donnée, je ne sais pas bien à quoi ressemblera cette journée, à celle qu’on souhaitera : des échanges, des présentations de supports et des objectifs pédagogiques, de la mise au point de formations… En échange, il est possible que vous soyez sollicités par les responsables de formations de l’Ina pour assurer des formations sur le sujet, en particulier par Christine Braemer avec qui nous avons mis au point un cycle de formation continue sur la question (dans la partie “Gestion des données”) et que je remercie ici pour la confiance qu’elle m’a faite ces dernières années. Si cela vous intéresse, vous pouvez me contacter par mail (gautier.poupeau@gmail.com) ou via twitter pour vous manifester. Dès que les conditions sanitaires le permettront à nouveau, nous vous contacterons pour choisir une date et mettre au point le programme de cette journée.

Présentation des différents supports

Afin de vous aider à vous y retrouver dans cette profusion de supports, je vous propose quelques repères. Ils sont organisés en trois répertoires :

Formation continue

Les formations continues sont de deux types :

Les formations de sensibilisation ont eu deux origines différentes :

  • une demande interne à l’INA dans le cadre d’un cycle de formation sur les nouvelles pratiques documentaires donné à un public de documentalistes (Intro-Data-nv-pratiques-documentaliste.ppt) sur une demi-journée et de catalogueurs  sur une journée (mise au point initialement avec ma collègue, Jeannette Pichon ; Intro-Data-TGCM.ppt). Cette formation vise à donner des définitions (donnée, donnée vs document, Open data, Linked data, big data, data mining), à montrer comment nous sommes passés d’un intérêt centré sur le document à celui sur la donnée et de repositionner ces deux éléments (pas question de nier le document ;-) ) et enfin de repositionner ce changement de paradigme par rapport aux développements en cours à l’INA. Nous avons ensuite ouvert à tous et adapté cette formation sur une journée (data-une-journee.ppt).
  • dans le même temps, l’ENSSIB a sollicité Emmanuelle pour faire une formation sur le Web sémantique. Mais, cela nous a, dès le départ, semblé important d’élargir à tous les aspects de la donnée ce qui a permis la naissance de la formation “Les nouveaux horizons des données de bibliothèque”. La session que je présentais (enssib-data-septembre2018.ppt) s’organisait en deux parties : une partie définition et contexte qui reprend peu ou prou les éléments de mes formations de l’Ina avec une partie spécifique sur la modélisation des données et une seconde partie axée sur la réutilisation des données en allant de la récupération (Open Data, APIs) à la visualisation en passant par le traitement des données.

Outre la formation sur le Web sémantique sur laquelle il ne me semble pas utile de revenir, je vous propose aussi les supports d’un cycle de formation organisé à l’Ina : “Gérer, organiser, enrichir et exploiter les données” (niveau 1 et niveau 2). L’objectif de ce cycle de formations est de donner les moyens à des professionnels de l’information de mettre en œuvre les différents éléments de la gouvernance des données. Je n’assure pas toute la formation mais, dans le répertoire, vous trouverez donc :

Ce cycle est complété par une session sur les référentiels, une session de présentation des outils de fouille de textes et de données et une session sur la visualisation des données. Nous n’avons pas encore eu l’occasion de faire le niveau 2. Ce sera la dernière formation que je vais préparer.

Formation initiale

Module “données” du master TNAH de l’Ecole des chartes

Je n’avais pas forcément prévu à mon arrivée à l’INA de me lancer dans la formation, comme je l’ai fait et ce n’est d’ailleurs pas par l’INA que j’ai commencé à le faire, mais à l’Ecole des chartes. Sur une idée d’Antoine Courtin, Jean-Baptiste Camps (Merci à vous deux), alors responsable pédagogique du master TNAH, m’a sollicité pour donner des cours sur le Web sémantique au sein de TNAH. Comment refuser, alors que cette institution en général et cette formation en particulier m’étaient si chères ? Peu à peu, avec l’aide de Jean-Baptiste puis de Thibault Clérice (et de quelques étudiantes qui se reconnaîtront ;-) ), nous avons ajouté des cours pour arriver à un module complet autour de la donnée.

L’objectif de ce cycle est de présenter aux étudiants les enjeux de la donnée mais aussi de faire de la pratique autour des technologies du Web sémantique, d’une part et du traitement de la donnée, d’autre part. Ce module se conclut par la mise au point en groupe d’un mashup de données avec le logiciel Dataiku valorisé par quelques visualisations réalisées avec Palladio, Tableau software ou tout autre logiciel au choix des étudiants. Un de mes objectifs principaux avec ce cycle est de permettre aux étudiants de comprendre les différents modèles logiques pour stocker la donnée : la table, l’arbre et le graphe et de comprendre dans quelles circonstances utiliser chacun de ces modèles.

Dans le répertoire (que je complèterais au fur et à mesure, l’année n’est pas terminée ;- ), vous trouverez donc :

  • un cours d’introduction donnant des définitions de la donnée, de la gouvernance des données et une partie consacrée à la modélisation des données, l’objectif étant d’aider les étudiants à toucher du doigt cette problématique de la modélisation
  • un cours théorique sur l’écosystème de la donnée : Open Data (Origines, principes, cadres juridiques, problématique technique et présentation des portails), le big data pour aborder de manière théorique la question de la scalabilité et le text et data mining. Si vous vous intéressez uniquement à cette dernière partie, c’est globalement la présentation que j’avais faite l’an dernier à la journée d’études de l’ADEMEC et que vous retrouverez sur YouTube : Panorama de l’intelligence artificielle et de ses outils.
  • Un cours théorique sur les bases de données document et les moteurs de recherche dont l’objectif est de donner des bases sur le fonctionnement de ces outils et les raisons de leur utilisation.
  • trois sessions autour des technologies du Web sémantique : une pour présenter les enjeux et les limites de ces technologies et donner les bases du modèle RDF, une pour approfondir avec les sérialisations et les ontologies en se basant sur data.bnf.fr et une dernière sur SPARQL
  • deux sessions sous la forme d’un pas à pas sur le logiciel Dataiku pour donner aux étudiants des repères sur le traitement de la donnée.

J’ajouterai au fur et à mesure des cours les supports manquants (mais comme tous mes anciennes étudiantes et anciens étudiants des 6 promos précédentes ont ces supports, je suis sûr qu’ils doivent déjà traîner dans différents endroits dans différentes versions dont on devrait pouvoir dresser la tradition :-D).

Module “données” du master Patrimoine audiovisuel de l’Ina

Ce module est différent du précédent dans la mesure où la pratique numérique ne tient pas une place centrale au sein du master Patrimoine audiovisuel d’InaSup. Il s’agit donc de proposer une introduction, un peu de pratique mais surtout de faire intervenir des professionnels sur cette question. C’est pourquoi les supports mis à disposition ne constituent pas une cohérence comme c’est le cas pour le module précédent :

  • le cours d’introduction (Cours1-introduction.ppt) qui reprend les éléments de la formation continue sur le changement de paradigme que constitue la donnée
  • deux cours sur Open Refine (Cours2-OpenRefine.ppt et Cours3-OpenRefine-Viz.ppt complétés par deux fichiers txt qui donnent le détail des différentes manipulations proposées), plus facile d’accès que Dataiku pour permettre aux étudiants d’appréhender les enjeux de traitement de la donnée
  • une intervention sur la fouille de texte et de données (Cours6-TDM-ina.ppt)

Visite guidée au pays de la donnée

Si vous ne souhaitez pas fouiller dans tous les supports précédents, vous les trouverez tous remis en cohérence dans cette série de cinq supports intitulés “Visite guidée au pays de la donnée” dont l’origine remonte, si mes souvenirs sont bons, à une sollicitation de Jean-Michel Salaün sur Twitter :

  • partie 1, introduction et tour d’horizon : problématiques et définitions, comment la donnée est-elle devenue un actif indépendant du SI ? et le tour d’horizon de la gestion des données
  • partie 2, du modèle conceptuel au modèle physique : typologie, flux, structure et sémantique des données et sérialisation et stockage des données (ce support reprend tous mes cours sur la modélisation, les bases de données relationnelles, les bases de données document, les moteurs de recherches et les technologies du Web sémantique….)
  • partie 3, acquisition et gestion des données : un des 2 supports que je n’ai jamais terminés et auquel il faudra que je m’attaque un jour, mais vous y retrouverez les éléments sur le traitement des données et le pas à pas sur Open Refine
  • partie 4, traitement automatique des données ou pour l’appeler autrement, “Panorama de l’intelligence artificielle et de ses outils” (cf. ci-dessus)
  • partie 5, exploitation et visualisation des données : le second support en friche, j’avais l’intention d’aborder la question des APIs, de l’interopérabilité (d’où la présence des technologies du Web sémantique) et de la dataviz (dont je ne suis pas du tout un spécialiste).

Et, avec cette visite guidée, s’achève cette présentation des différents supports. En guise de conclusion, je voudrais remercier toutes les personnes qui ont pu assister à ces différentes formations. Cela a toujours été un réel plaisir de partager tout cela avec vous tous, vous m’avez toujours aidé à m’améliorer, à repenser les choses, à faire évoluer les idées. Vous en êtes aussi les autrices et les auteurs d’une certaine manière. Vous m’accompagnez au quotidien dans mon travail ! Merci encore à vous ! Et, comme vous le savez, je ne suis jamais loin, toujours disponible sur Twitter ou par mail (et souvenez-vous, si je ne vous réponds pas, recommencez à envoyer le mail ;-) ).

Management de l'information Structuration Web sémantique XML Système d'information Causeries Indexation Moteur de recherche