Compte-rendu des journées MutEC 2010 : La TEI en France, pratiques et perspectives

La TEI en France, pratiques et perspectives

Journées d'étude, d'échange et de formation organisées avec le soutien du TGE Adonis
9, 10 et 11 juin 2010 - Lyon - ENS-Lyon, Institut des Sciences de l'Homme
 
La Text Encoding Intitiative (TEI) constitue, à travers l’ensemble de ses Guidelines, un standard de description et d’encodage de textes de toutes natures, utilisant un langage de balisage XML. Alors que les projets d’édition électronique sont de plus en plus nombreux à utiliser ce standard, son usage paraît en France relativement confidentiel. Le peu de messages annuellement postés sur les deux listes de diffusion françaises, la relative confidentialité des formations proposées, peuvent laisser penser, vu de l'extérieur qu'il s'agit là d'une "affaire d'initiés". En décidant d’organiser un événement sur la TEI en France, MutEC a souhaité offrir à l'ensemble des utilisateurs de la TEI, actuels ou à venir, une occasion de se réunir, en vue de favoriser l’émergence d’une communauté d’utilisateurs dont l’activité serait plus visible. Faire le point sur les pratiques des uns et des autres, confronter les démarches, expériences et réalisations mais aussi proposer une formation complète allant bien au-delà d’une simple initiation aux principales balises, tels ont été les objectifs de ces journées d’étude, d’échanges et de formation.
 
Le format proposé a ainsi été volontairement conçu de manière hybride, faisant alterner temps de formation et sessions thématiques, discussions et rencontres autour de posters et de projets.
Vous trouverez ci-après un compte-rendu de ces journées, intégrant des liens sur les supports de formation, les présentations des intervenants, ainsi que les posters sélectionnés.

 
 

Sessions de formation

Deux sessions “intensives” ont été organisées les matinées des 10 et 11 juin dans les salles de formation de l’ENS-Lyon, avec comme animateurs  Lou Burnard (Université d’Oxford et TGE Adonis), l’un des “pères fondateurs” de la TEI et Florence Clavaud (École nationale des chartes), membre du groupe d’experts TEI de l’AFNOR, responsable de formations et de projets informatiques utilisant TEI).
L’objectif était de mettre en valeur la capacité de la TEI à répondre à une grande variété de besoins en SHS. Souhaitant prendre en compte les centres d’intérêt des participants auxquels un questionnaire avait été soumis, les animateurs sont intervenus sur les quatre thèmes suivants :

  • l'entête TEI,
  • la transcription des manuscrits,
  • l’encodage des entités nommées,
  • une introduction aux transformations XLST pour la TEI.

Les supports de formation ainsi que les documents source utilisés et commentés dans les exercices pratiques sont disponibles sur le site de l’Université d’Oxford sous ce titre : la TEI : pas pour les nuls.
 
 

Sessions thématiques

 

Organisées à l’Institut des Sciences de l’Homme, les sessions thématiques se sont tenues les après-midi des 9, 10 et 11 juin. Pour chaque thème retenu par le comité d’organisation, MutEC avait invité 2 personnes : un intervenant chargé de proposer un tour d’horizon de la question et un “discutant”, chargé d’engager et d’animer une discussion avec la salle.
 

Gestion de projet – L’exemple des Bibliothèques Virtuelles Humanistes

par Marie-Luce Demonet - Support de présentation (fichier pdf - 90,71 Mo )
Discutante : Anaïs Wion (CEMAF, Paris)


Le programme des Bibliothèques virtuelles humanistes (BVH) présenté par Marie-Luce Demonet, professeur de littérature française de la Renaissance et responsable du programme, a commencé en 2002 Il regroupe aujourd’hui plusieurs types de ressources : des fac-similés d'ouvrages de la Renaissance, la base textuelle Epistemon, des transcriptions ou analyses notariales et un projet d'édition de transcriptions de manuscrits du XVIe siècle. La gestion de projet mise en œuvre illustre de manière exemplaire comment, étape par étape, un projet patrimonial peut se construire et agréger des financements au fil de son développement.
Insistant sur l’intégration de la TEI au niveau d’un site outil global et pas à l'échelle de textes isolés, Marie-Luce Demonet a montré comment le projet cherche constamment à mettre en place la meilleure adéquation possible entre l'organisation de ses métadonnées et les bases de référence auxquelles le projet s'interconnecte. Et ce bien entendu pour assurer la valorisation de ce travail d'envergure. Elle fait part de la préoccupation d’offrir une “transcription générique” apte à produire un document encodé pouvant fonctionner comme “socle commun” de toutes les communautés cibles (historiens de la littérature, bibliothécaires, stylisticiens, linguistes). Un balisage n’est pas fait une fois pour toute mais correspond à un processus itératif à prendre en compte dans la gestion globale du projet.
 

TEI et analyse linguistique

par Bertrand Gaiffe - Support de présentation (fichier pdf - 156 ko)
Discutant : Jean-Philippe Magué (ENS-Lyon, MutEC)


Bertrand Gaiffe, membre de l'équipe “ressources et normalisation” de l’ATILF (Nancy) a réussi le défi de présenter de manière très claire et accessible l’essentiel des mécanismes TEI dédies aux analyses linguistiques. Avec la mise en œuvre d’un balisage linguistique simple, consistant à segmenter le texte en unités linguistiques (phrases, mots, etc.), il est possible de localiser des recherches de concordances à l'intérieur des phrases ou de désambiguïser certains signes – par exemple pour différencier un point signe de ponctuation d'un point marquant la fin d'une abréviation.
La description du mécanisme d’encodage des parties du discours a l’aide d’attributs “ana” pointant sur des éléments “<interp>”, l’amène à présenter le registre de catégories de données de l’ISO (Data Category Registry) ISOCAT. Il s'agit d'une base terminologique, développée à l'origine pour les besoins propres de l'ISO, aujourd'hui ouverte à tous, au sein de laquelle chaque concept possède un identifiant pérenne. Cette ressource pourrait être utilisée dans de nombreux projets avec profit : il suffit d'ajouter l'identifiant du registre ISOCAT par l'intermédiaire de l'attribut TEI “same as” pour obtenir un encodage spécifique tout en restant interprétable hors du contexte particulier d'un projet donné.
Bertrand Gaiffe nous a également expliqué comment les structures de traits (feature structures) pouvaient être utilises pour l'encodage des catégories morphologiques.
Terminant sa présentation sur un exemple concret d'exploitation d'un encodage TEI de type linguistique, il a montré comment le NKJP, le corpus national de la langue polonaise combine les niveaux d’annotation linguistique suivants : segmentation, morphosyntaxe, mots syntaxiques, syntaxe, désambiguïsation sémantique.
NB : Contrairement à ce qui est dit dans les transparents, et bien que le schéma TEI autorise <s> dans <s>, les recommandations de la TEI l'interdisent. Merci à Lou Burnard d'en avoir fait la remarque.
 

Balisage – Choisir ses balises, créer son schéma : pourquoi / comment ?

par Alexis Lavrentiev - Support de présentation (fichier pdf - 1,36 Mo )
Discutants : Jean-Baptiste Lebigue (IRHT, Orléans) et Lou Burnard (TGE Adonis, Université d'Oxford)


La TEI est plus un ensemble de recommandations très génériques qu’une nomenclature de balises XML prête à l’emploi. Chaque projet doit donc créer le schéma correspondant à son besoin. C’est cette étape préparatoire au travail d’encodage qu’Alexei Lavrentiev, membre de l'équipe “Syntaxe, Sémantique, Sémiotique, Corpus, Diachronie” du laboratoire ICAR a été chargé d’exposer. Il a tout d’abord insisté sur l’importance de bien définir son “cahier des charges d’encodage” avant de commencer à choisir ses balises. Deux critères sont fondamentaux : ce que l’on veut éditer, et ce que l’on veut chercher. Tout projet doit en effet affronter un veritable dilemme : à la volonté d’obtenir l’encodage le plus riche possible s’oppose les limites de temps et la nécessité éventuelle de rester compatible avec les schémas d'encodages d'autres projets...
Dans la perspective de bien dimensionner le projet d’encodage, Alexei Lavrentiev, suggère d'examiner attentivement le rapport entre le corps du texte et sa description par des métadonnées, de prendre s'interroger sur la nécessité qu'il y a ou non d'aligner plusieurs sources, de définir en détails les caractéristiques souhaitées de l’appareil critique de l'édition réalisée à partir d'un encodage TEI...
Il présente ensuite l’interface Roma servant à choisir ses baliser et à créer le schéma TEI personnalisé d'un projet et explique le rôle du document TEI ODD (One Document Does it all) contenant le schéma et sa documentation.
Alexei Lavrentiev termine sa présentation par quelques exemples tirés des projets auxquels il collabore : CoRPTef et la Base de français médiéval.
 

Gestion de communautés – Cartographie de la TEI en France

Table ronde animée par Lou Burnard - Support de présentation (fichier pdf, 223 Ko)


En tant que représentants du TGE Adonis à ces journées, et par la-même observateurs privilégiés de la situation globale des Digital Humanities en France, Lou Burnard, Richard Walter, ont tenté d'établir une “cartographie de la TEI en France”, permettant de dresser un état des lieux de la situation. Richard Walter et Stéphane Pouyllau (chargé du rôle de discutant) ne pouvant être présents, Lou Burnard eu l'idée de transformer la conférence en table-ronde, invitant à la tribune plusieurs personnes choisies parmi les intervenants et les participants à ces journées : Francesco Beretta, Laetitia Bontemps, Marjorie Burghardt, Florence Clavaud, Bertrand Gaiffe, Emmanuelle Morlock-Gerstenkorn, Catherine Morel-Pair.
Lou Burnard commence par rappeler les atouts de la TEI en France que sont l’existence de deux listes de discussions (tei-res et tei-fr), l'organisation de formation annuelles (celle du CESR à Tours, formation continue de l’Ecole des Chartes), la traduction française des Guidelines réalisée au sein du groupe AFNOR ainsi que l'accueil du TEI Council d'avril 2009 à Lyon. Il invite ensuite les participants à la table-ronde s à exprimer tour à tour leur point de vue sur la situation. Parmi les propositions concrètes issues de la discussion, on retiendra les pistes d'action suivantes :

  • fusionner les deux listes en une seule en conservant “tei-fr” comme intitulé,
  • organiser des sessions d’expertise de projets,
  • améliorer le référencement des projets,
  • inciter les projets à rendre accessibles les fichiers encodés en TEI sur leurs site (et pas seulement la version html de publication),
  • améliorer le signalement et la description des outils d'édition ou d'exploitation TEI.

De la discussion ressort cependant l'idée pour se développer en France, la TEI a d'abord besoin d'une communauté d'utilisateurs visible et active.
 

TEI et édition

par Dominique Roux & Pierre-Yves Buard
Discutante : Denise Pïerrot (ENS-Lyon)

Session filmée, vidéo en ligne sur le site 25 images de l'ISH :

25 images


 

Pour la dernière session thématique, ce sont Pierre-Yves Buard et Dominique Roux des Presses universitaires de Caen qui étaient invités à présenter la chaîne de publication XML, fondé sur la TEI, qu’ils ont mis en place au sein de leur structure d’édition universitaire. Dans le rôle du discutant, Denise Pierrot responsable d’ENS Editions, la structure d’édition de l’ENS-Lyon (anciennement Fontenay Saint-Cloud puis ENS-LSH), a accepté de remplacer Marin Dacos de Revues.org, qui n'avait pu participé aux journées.
Dominique Roux a d’abord mis en perspective la démarche générale de mise en oeuvre d'une chaîne éditoriale numérique, par rapport aux grandes fonctions éditoriales, qui restent inchangées. Editer, dit-il, c’est avant tout "traduire une structure logique en une forme intelligible, adaptée à un support donné, c’est aussi produire des formes référençables et savoir les diffuser". Pierre-Yves Buard a quant à lui présenté plus en détail les rouages de cette chaîne de production, organisée autour de la notion de document structuré, pérenne, archivable et indépendant des outils logiciels qui ont participé à sa création.
 
 

Posters présentés : projets utilisant la TEI



Quatre posters de projets en cours ou achevés ont été retenus pour ces journées. Ils ont été présentés et commentés lors des nombreux temps de pause prévus pour encourager les discussions entre participants. Il s’agit de :

Deux autres posters ont été présentés à l'occasion de ces journées :

 


     
     
    Crédits photographiques : Cécile Notté (ISH), Jean-Philippe Magué (MutEC).