AHN de l'ENS de Lyon

Subscribe to flux AHN de l'ENS de Lyon AHN de l'ENS de Lyon
L'Atelier des Humanités Numériques de l'ENS de Lyon
Mis à jour : il y a 5 heures 46 min

« Enjeux de l’accès numérique aux données patrimoniales »

27 Novembre, 2018 - 14:04

Le département Éducation et Humanités Numériques et l’Atelier des Humanités Numériques accueillent Anne Baillot, Professeure des Universités en Études Germaniques à l’Université du Mans

Vendredi 14 décembre 2018 : 10h – 12h
ENS de Lyon – salle D8 006


Résumé

Les données patrimoniales se déploient à l’intersection des institutions patrimoniales et des Humanités Numériques. Curateurs et chercheurs partagent dans bien des cas l’autorité dans la production de ces données et sont mus par une même volonté de conservation, de mise à disposition, d’exploitation et de diffusion. Pour autant, les politiques culturelle et scientifique d’une part et les outils permettant d’accéder à ces données d’autre part – deux éléments essentiels – n’obéissent pas toujours aux mêmes logiques. Après avoir analysé points de convergence et points de divergence entre missions et infrastructures des Humanités Numériques et des institutions patrimoniales, l’exposé s’attachera à développer l’importance de l’accès aux données patrimoniales pour le développement des Humanités Numériques dans les années à venir et les conditions nécessaires pour permettre à ce potentiel de se réaliser.

« Le numérique et le texte au pluriel »

11 Octobre, 2018 - 10:51

Le département Éducation et Humanités Numériques et l’Atelier des Humanités Numériques accueillent Elena Pierazzo, Professeure d’Italien et d’Humanités Numériques, Université Grenoble-Alpes – LUHCIE

Lundi 22 octobre 2018 : 14h30 – 16h30
ENS de Lyon – salle D2 128

Résumé

Cette conférence interroge la relation entre le numérique et l’émergence d’un d’intérêt renouvelé pour les textes transmis par les sources primaires et l’augmentation conséquente du nombre d’éditions diplomatiques. La présentation suivra une approche historique. A partir de l’analyse de la textualité aux multiples facettes de la période médiévale, nous passerons à la révision des motivations sociales, économiques et culturelles qui ont conduit à l’élaboration de l’idée du Texte Unique, idée remise en question par l’avènement du numérique.

Réunion de rentrée

16 Septembre, 2018 - 11:52

Mardi 16 octobre : 10h – 12h
ENS de Lyon – salle D4 024

L’équipe  AHN se réunit pour organiser ses différents ateliers :

  • séances d’entraide
  • formations
  • retours d’expérience



Personnaliser XXE

21 Juin, 2018 - 13:50

Mardi 11 septembre : 9h30 – 12h30
ENS de Lyon – salle D4 024

Traverser la chaîne éditoriale
Présentation de la chaine Métopes par Céline Rohard et Claire Remoué (ENS Editions) :

  • nouveautés Métopes 2.0 (intégration directe des fichiers .docx dans XML Editor et création du fichier volume XML)
  • démonstration de l’import dans InDesign et dans OEB
  • un exemple de personnalisation de la chaîne Métopes

Personnaliser XXE
Personnalisation par Maud Ingarao et Nathalie Arlin (AHN) d’un environnement de travail dans XXE à partir des fichiers XML fournis par ENS Editions :

  • Création de deux feuilles de styles (css)
  • Création de trois commandes avec ajout de boutons dans la toolbar

Métopes version 2.0

4 Juin, 2018 - 09:08


Mardi 12 juin : 9h30 – 12h
ENS de Lyon – salle D4 024

Suite à la présentation des nouvelles fonctionnalités et interfaces de la version 2.0 des outils Métopes qui s’est tenue le mercredi 2 mai à l’ENS, nous organisons, dans le cadre de nos ateliers AHN, une matinée de discussion autour de cet outil, le mardi 12 juin de 9h30 à 12h en salle D4 024.
Au cours de deux séances précédentes, nous avons partagé nos réalisations mais aussi nos difficultés et questions sur la customisation de l’interface de l’éditeur XMLMind XML Editor et la création d’environnements de travail personnalisés.
Nous souhaitons élargir nos rencontres avec la communauté concernée et intéressée alors n’hésitez pas à nous rejoindre.

Approches numériques et computationnelles pour l’étude du livre ancien : défis pour la paléographie et la codicologie

2 Mai, 2018 - 18:05

Pour la deuxième séance de son séminaire Humanités Numériques, le Département Education et Humanités Numériques, en collaboration avec l’AHN, accueille Peter Stokes, de l’École Pratique des Hautes Études.

Mardi 15 mai : 13h30 – 15h30
ENS de Lyon – salle D2 128

Depuis des siècles, les spécialistes de livres et de documents ont se sont appuyés sur les développements technologiques de leur temps, et c’est toujours le cas aujourd’hui. La codicologie et particulièrement la paléographie profitent des dernières avancées des méthodes numériques et computationnelles des SHS et de l’informatique, telles que la visualisation, la vision par ordinateur, la représentation de savoir, l’apprentissage profond, le web sémantique, etc. Toutes sont utilisées aujourd’hui avec des résultats impressionnants. Lors de ce séminaire nous discuterons des possibilités offertes par ces approches, aujourd’hui ou dans un futur proche. Nous parlerons aussi de leurs limites et, en particulier, des défis qu’elles posent aux chercheurs en SHS pour avoir les résultats utiles et significatifs.

Les outils CapiTainS, l’édition numérique et l’exploitation des textes

30 Mars, 2018 - 10:39

  • 1ère séance : Mardi 15 mai – 9h30 – 12h
  • ENS de Lyon – CBP – Salle de TP (M7 étage 1H) /

  • 2ème séance : Mardi 29 mai – 9h30 – 12h
    ENS de Lyon – CBP – Salle de TP (M7 étage 1H)

Issu de la collaboration de membres des équipes de Perseids et Perseus à Tufts university et de la Humboldt Chair of Digital Humanities de l’université de Leipzig, le projet CapiTainS entend proposer des solutions visant à simplifier le développement et la valorisation de publications et éditions numériques. Il s’agit de solutions open source, extensibles et permettant la réutilisation des données numériques. Cet ensemble d’outils permet aux chercheurs d’inscrire leur projet dans un réseau de données ouvertes et pleinement réutilisables, réduisant ainsi le coût nécessaire à la ré-exploitation des données produites.

Ces deux séances seront animées par Thibault Clérice, responsable pédagogique et enseignant pour le master Technologies Numériques Appliquées à l’Histoire de l’École Nationale des Chartes à Paris.
De formation en lettres classiques, il a été employé au Centre for eResearch du Kings College London et à la chaire d’humanités numériques de Leipzig en tant qu’ingénieur. Il y développe la suite et le projet Capitains qui sert aujourd’hui de squelette pour la gestion des données de Perseus 5.
Ses intérêts principaux sont la préservation et le partage de données et de logiciels ainsi que le traitement automatique de la langue latine. Il fait dans ce contexte une thèse sous la direction de C. Nicolas à l’université Lyon 3.

En savoir plus :

Comparer les traductions – un outil d’alignement avec le projet « Odysseus »

20 Mars, 2018 - 22:44

Vendredi 6 avril : 9h30 – 12h
ENS de Lyon – site Buisson, salle 129 (1er étage)

L’atelier vient à la suite d’une journée d’étude le 5 avril, organisé par le chantier transversal « Humanités Numériques » de Triangle et avec le soutien du Labex Comod sur le thème de la « Traduction et les outils numériques« .

Marianne Reboul, post-doctorante à Obvil nous présentera lors de cet atelier les différents outils qui accompagnent sa réflexion sur l’étude des traductions, qu’elle a développé depuis sa thèse. Elle reviendra notamment sur la conception et le fonctionnement de l’outil d’alignement (programme source en Java) ainsi que sur l’analyse détaillée des résultats obtenus, dont on peut avoir un premier aperçu sur le site suivant : https://odysseuspolymetis.github.io/paralogos/.

 

Résumé

L’histoire des traductions est devenue un champ important de la littérature comparée et un outil exceptionnel pour produire une histoire culturelle et « penser la traduction ». Nous avons cherché à produire un outil logiciel, intitulé Odysseus, capable d’assister la réflexion comparatiste en permettant d’aligner des traductions en français d’Homère sur plus de quatre siècles : outil qui n’existait pas en tant que tel et pour lequel nous avons dû faire appel à des technologies de sémantique distributionnelle capables de rapprocher des traductions d’un même texte dans des langues différentes. Notre recherche s’est donc dédoublée en une réflexion historique et en un développement informatique, les deux dimensions étant étroitement liées dans le cadre de ce qu’on appelle désormais les « humanités numériques ».

D’un côté, il fallait inventer des méthodes et des algorithmes capables de mettre en parallèle au mot près des traductions aussi différentes que celle de Peletier (1547) et de Jaccottet (1955), ce qui n’avait pas été fait et pose des problèmes techniques qui seront exposés dans toute une partie, technique, de notre travail.

D’un autre, il fallait développer une réflexion méthodologique et épistémologique sur la manière dont on pouvait lire parallèlement 27 textes, mesurer l’évolution de leurs éléments, dans cette « forme spécifique de savoir » que sont les visualisations informatiques. Notre travail est donc à la fois une étude informatique et une étude littéraire, l’une étant indissociable de l’autre : si l’esprit humain peine à synthétiser des résultats portant sur au moins trois millions de mots, les machines sont évidemment incapables d’interpréter leurs propres résultats. Comparer manuellement des traductions les unes avec les autres, surtout pour un texte dont la tradition philologique est aussi riche que celui de l’Odyssée, suppose en effet au moins trois étapes : nous devions identifier la correspondance (ou non-correspondance) entre les parties du texte source et les parties d’un premier texte cible, identifier une seconde correspondance entre le texte source et un second texte cible, et enfin comparer les deux parties correspondantes des textes cible à celles du texte source. Le processus est coûteux. D’autre part, il expose le critique à une marge d’erreurs non négligeable : exécuter cette opération pour l’intégralité de deux textes cible est déjà difficile, mais la difficulté s’accroît avec le nombre de textes à comparer. Outre cela, la méthode manuelle restreint les possibilités d’analyses nouvelles que peut faire un ordinateur : un être humain, par exemple, ne peut pas calculer la proximité syntaxique moyenne de chaque texte cible par rapport au texte source et de classer chaque texte un à un, en respectant strictement les mêmes critères, ou de repérer des emprunts ou des plagiats sur des dizaines de milliers de vers. De son côté la machine s’arrête encore au comptage et à la mise en lumière de phénomènes statistiques. Quant au développement de l’intelligence artificielle, il est encore très loin de produire des analyses aussi fines que celles d’un humain. Par-delà son usage pour notre corpus, l’outil que nous avons développé est capable de s’appliquer à Homère mais aussi à tout corpus de traduction : nous avons développé un outil utile non seulement pour notre étude mais aussi pour tout le champ littéraire de la traductologie et de la littérature comparée.

Accessible librement sur le web (le repo étant en rénovation au moment où nous proposons cette présentation, nous donnerons l’adresse ultérieurement), le logiciel est placé sous une licence de réemploi « open-source ».

Adaptation de la chaîne de Caen pour des éditions scientifiques numériques : 2ème séance

20 Mars, 2018 - 16:38


Mardi 27 mars : 9h30 – 12h
ENS de Lyon – salle D4 024

La première séance du 30 janvier nous avait permis de revenir sur la formation suivie au pôle Document numérique de la MRSH de Caen avec un exemple de customisation de l’interface de l’éditeur XMLMind XML Editor adaptée au projet Coran 12-21.

Lors de cette 2ème séance, nous accueillons Elysabeth Hue-Gay, chargée de projets d’édition de corpus à HiSoMA et dont le travail de développement d’environnements s’insère dans le cadre de deux projets principaux :

  • La Bible de Bernard : le projet vise à repérer et documenter les citations bibliques dans le corpus des œuvres de Bernard de Clairvaux, en lien avec le programme Biblindex (dir. scientifique : L. Mellerin, CNRS, Sources chrétiennes, HiSoMA) ;
  • version numérique des Inscriptions grecques et latines de la Syrie en articulation avec la version imprimée publiée à l’Institut français du Proche-Orient (projet mené en collab. avec le Pôle Document numérique de la MRSH de Caen ; dir. scientifique : J. Aliquot, HiSoMA).

Retour de formation : « Quels outils et services pour la préservation des données en SHS »

8 Mars, 2018 - 14:39

Mardi 20 mars : 9h30 – 12h
ENS de Lyon – D4.024

Cet atelier propose une présentation de l’offre émergente d’entrepôts de données de recherche en SHS, avec mise en avant de certaines thématiques abordées lors de l’ANF Isore « Quels outils et services pour la préservation des données en SHS » qui s’est tenue à Paris en décembre 2017.
La discussion sera ensuite alimentée par la présentation de deux outils (environnement disciplinaire : sociologie/science politique) s’inscrivant dans une démarche d’ouverture des données/métadonnées, tout en garantissant une confidentialité des données personnelles : le catalogue de descriptifs d’enquêtes ArchiPolis (retour d’expérience Triangle) et le portail d’enquêtes qualitatives BeQuali (retour de formation).

  • ArchiPolis recense des travaux de recherche ayant utilisé des enquêtes qualitatives à travers des notices enrichies de plusieurs dizaines de métadonnées
  • BeQuali propose un catalogue d’enquêtes éditorialisées à travers un portail ouvert à tous, et met à disposition de la communauté scientifique, sous réserve d’autorisation, des matériaux bruts et une documentation restituant le contexte de leur production

Séance animée par Cécile Laube
lien vers la présentation

Adaptation de la chaîne de Caen pour des éditions scientifiques numériques basée sur l’exemple du projet Coran 12-21

29 Janvier, 2018 - 13:55


Mardi 30 janvier : 9h30 – 12h
ENS de Lyon – salle D4 024

La séance AHN du 30 janvier s’articulera autour des journées de formation au pôle Document numérique de la MRSH de Caen où ont été conçus plusieurs environnements de travail pour encoder les données textuelles en XML-TEI via une interface conviviale avec l’éditeur XMLMind XML Editor.

L’objectif de la formation visait à adapter un de ces environnements de travail au projet Coran 12-21, projet développé par une équipe de recherche de l’IHRIM, et nous proposons lors de l’atelier du 30 janvier de présenter la création d’une commande permettant d’aligner plusieurs traductions du Coran.

Cet atelier sera animé par Maud Ingarao, Pierre-Yves Jallud et Nathalie Arlin

Lundi 22 janvier : conférence de Thibaut Rioufreyt : « La parole et le code. Utiliser un CAQDAS pour ses recherches en Sciences Humaines et Sociales « 

15 Janvier, 2018 - 14:50

De 9h00 à 13h00, en D4.260 (salle de réunion Triangle), sur le site Descartes de l’ENS de Lyon

Une conférence de Thibaut RIOUFREYT, chercheur associé au laboratoire Triangle et post-doctorant en science politique à l’ISPOLE/Université catholique de Louvain (Projet ERC Qualidem).

Résumé

Derrière le vocable un peu bizarre de CAQDAS (computer-assisted qualitative data analysis software), existe toute une série de logiciels d’aide à l’analyse qualitative. Encore peu utilisés en France, ces outils peuvent s’avérer extrêmement utiles depuis le traitement des matériaux (la transcription des bandes son) jusqu’à leur analyse (via la création de catégories interprétatives qui peuvent se recouper) en passant par toute une série d’opérations (annotation, création de liens entre les documents, etc.). L’atelier-conférence sera l’occasion de découvrir les principales fonctionnalités de ce type de logiciels à travers la présentation de l’usage de l’un d’eux (Atlas.ti) dans plusieurs enquêtes empiriques.

Quelques références et tutoriels :

  •  Florence Descamps, « Chapitre premier : De l’extraction des informations à la transcription intégrale », in L’historien, l’archiviste et le magnétophone. De la constitution de la source orale à son exploitation, Paris, Comité pour l’histoire économique et financière de la France, 2001, pp. 433-449.
  • Susanna Friese, « ATLAS.ti 8 Windows Quick Tour », tutoriel en ligne sur le site d’Atlas.ti à l’adresse suivante, 2017, 81 p.
  • Xénia Melo, Emily Roulin et Félix Bühlman, « Brochure d’utilisation pour le logiciel ATLAS.ti 5.2 », Université de Genève, document disponible en ligne au format PDF à l’adresse suivante
  • Nathalie Lemieux, « Guide pédagogique lié à l’utilisation du logiciel ATLAS.ti », document réalisé dans le cadre d’un stage doctoral réalisé à l’hiver 2015 à l’Université du Québec à Chicoutimi, sous la supervision de M. Stéphane Allaire et de Mme Pascale Thériault, date inconnue, document disponible en ligne au format PDF à l’adresse suivante
  • Thibaut Rioufreyt, « La transcription d’entretiens en sciences sociales. Enjeux, conseils et manières de faire », fiche méthodologique déposée sous HAL-SHS, 30 juin 2016, 46 p.
  • Thibaut Rioufreyt, « La transcription outillée en SHS. Un panorama des logiciels de transcription audio/vidéo », Bulletin de méthodologie scientifique, 2018 [à paraître].

Vous pouvez également consulter les videos tutoriel du Réseau Méthodes Analyses Terrains Enquêtes en SHS (MATE-SHS) :

Présentation du triplestore de Persée

13 Décembre, 2017 - 14:53

Mardi 19 décembre : 9h30 – 12h30
ENS de Lyon (site Descartes) – salle 024.

  • Un triplestore, qu’est-ce que c’est ?
  • Qu’est-ce qu’on y cherche ?
  • Comment on s’en sert ?

L’AHN accueille Cécile Almonté et Hélène Bégnis de l’équipe Persée pour une séance de présentation du triplestore suivie d’une mise en pratique à partir de requêtes émises par les participants.

Questions juridiques et humanités numériques

31 Mai, 2017 - 14:18

Mardi 6 juin : 9h30 – 12h
ENS de Lyon (site Descartes) – salle R20.

La séance du 6 juin s’articulera autour :

  • d’une présentation des droits d’auteur,
  • d’une discussion sur le traitement des données personnelles,

Une réflexion sur les licences CC sera également menée en prenant pour exemple le projet Les Dossiers de Bouvard et Pécuchet qui inclut dans sa forme actuelle les reconstitutions conjecturales du second volume.

Cet atelier sera animé par Cécile Laube et Stéphanie Dord-Crouslé.

Atelier eXist-db et TEI

26 Mai, 2017 - 15:12

Mardi 30 mai : 14h – 16h
à l’ENS de Lyon (site Descartes) – salle R20.

Cette séance présentera l’utilisation qui est faite de la plateforme TeiPublisher à HiSoMA pour la publication de corpus épigraphiques numériques.

TeiPublisher est une une plateforme web liée à la base de données XML native eXist-db qui a été officiellement lancée en février dernier.

Elle offre un système de publication de fichiers TEI relativement simple à mettre en oeuvre tout en restant adaptables à des besoins spécifiques (voire à d’autres formats que la TEI).
Sa particularité est d’implémenter les « processing models » récemment introduits dans la TEI. Il s’agit d’un nouveau jeu de 4-5 balises permettant de décrire les principes des transformations souhaités pour produire les interfaces de lecture des données.
Le principe est le suivant : il consiste à associer chaque élément d’un schéma ( <div> <p> etc.) un comportement-type pour la présentation (bloc, paragraphe, liste, lien, etc.). Ces comportement sont en effet pré-codés par la plateforme. La transformation se fait automatiquement. Il est assez facile, à condition de maîtriser l’écriture de fonctions Xquery, d’ajouter des comportements personnalisés. Des exemples issus de l’expérimentation en cours à HiSoMA, pour les besoins spécifique de l’édition épigraphique, seront présentés.

Pour un même élément, on peut aussi définir des comportement spécifiques à chaque type de support (web, pdf, pub…)

Les avantages sont nombreux. On retiendra particulièrement :

  • une maintenance du code facilité
  • la possibilité de mieux pérenniser certains choix de présentation qui comportent une dimension scientifique (cf. conventions éditoriales)
  • le fait d’offrir un système de publication complet avec moteur de recherche et un système de templating html à l’état de l’art (bootstrap 3, material design)
  • offre clé en main d’une plateforme de prototypage, permettant de tester, pour un même document, différentes présentations-types

Plus d’info :
– http://exist-db.org/exist/apps/wiki/blogs/eXist/teipublisher
– https://teipublisher.com/

Cet atelier sera animé par Emmanuelle Morlock, Maud Ingarao et Syvain Boschetto.

Retour d’expérience du 2 mai : « Écosystème JavaScript et Web moderne »

26 Avril, 2017 - 14:47

Mardi 2 mai : 9h30 – 12h
à l’ENS de Lyon (site Descartes) – salle R20.

Le thème de l’atelier du 2 mai portera sur les librairies javascript :

  • Une première partie sera consacrée au retour de la formation « Écosystème JavaScript et Web moderne », organisée le jeudi 23 mars dans le cadre du réseau ARAMIS <http://aramis.resinfo.org/>

La généralisation des applications Web riches (ou « natives ») a en effet nécessité des travaux considérables autour de l’industrialisation de leur développement : outillage, performance, maintenabilité, ergonomie, entraînant de fait une importante complexification de l’écosystème technique. Cette richesse technologique a pu, de part la quantité très importante de solutions disponibles, conduire à une perte de repères (JavaScript Fatigue
<https://hackernoon.com/how-it-feels-to-learn-javascript-in-2016-d3a717dd577f#.1tbd0s4pa>).

  • Dans une deuxième partie, nous vous proposons une séance d’entraide sur des librairies js particulières (tablesorter, visjs par exemple). Toute autre proposition de la part des participants sera la bienvenue.

Cet atelier sera animé par Maud Ingarao et Pierre-Yves Jallud.

Atelier d’entraide sur les forges logicielles

28 Mars, 2017 - 16:00

Mardi 4 avril : 9h30 – 12h
à l’ENS de Lyon (site Descartes) – salle R20.

Suite à la formation du 21 mars sur Git et les forges logicielles, cette séance propose un atelier d’entraide avec 100% de pratique et de réflexion !

Objectifs :

  • continuer à se familiariser avec Git pour le versionning
  • s’entrainer et s’entraider au push/pull/fetch/commit/merge
  • parcourir les fonctionnalités de la forge SourceSup
  • comment créer un projet sous Sourcesup l’hébergement de Rénater

Claire Mouton : atelier de formation à Git

6 Mars, 2017 - 11:38

Git by https://www.git-tower.com

Claire Mouton  est ingénieure de Recherche au laboratoire CREATIS (CNRS-INSA-INSERM-UCBL). Elle est développeuse d’applications dédiées au traitement et à l’analyse d’images médicales.

Elle viendra à l’ENS de Lyon, au Centre Blaise Pascal (site Monod), le 21 mars, de 9h30 à 17h, former les participant.e.s au gestionnaire de version Git.

  • Connaissances théorique des gestionnaires de version
  • Utilisation via :
    • Ligne de commande
    • Interface Graphique (GUI)

Inscriptions closes.

Retour d’expérience du 14 mars sur « Comment explorer des grands volumes de texte »

3 Mars, 2017 - 10:58

 

Pour l’atelier retour d’expérience du 14 mars 2017, Antonin Guilloux et Sofiane Bouzid viendront nous parler de méthodes pour la fouille de texte. Lorsqu’on souhaite analyser un grand nombre de textes, l’approche statistique et/ou probabiliste apporte des éléments de réponse ou plutôt d’interrogation. Elle laisse entrevoir de nombreuses hypothèses et exige un retour aux textes et au contexte de production, afin de guider l’interprétation ou encore de relancer le processus d’analyse avec d’autres éléments de paramétrages.

Cette séance ouvrira les portes sur une méthode en particulier, communément appelée « Topic Models », ou modèle thématique, qui propose des manières de visualiser des univers lexicaux, dit « proches », que l’utilisateur va ensuite thématiser et rapprocher de ses connaissances du corpus par ailleurs.

  • Sofiane Bouzid (statisticien CNRS, dans le cadre du service PANELS, il accompagne de nombreux projets à l’ISH et propose un parcours quantitatif avec Julien Barnier et Karine Pietropaoli du CMW) introduira les principaux concepts derrière cette méthode et présentera un projet d’exploration des thématiques de la revue RNTI, grâce à des analyses synchroniques et diachroniques.
    • Les articles scientifiques publiés dans les actes des conférences EGC, qui se déroulent chaque année depuis 2001, constituent la richesse de ces évènements mettant en avant le fer de lance de la recherche francophone portant sur la gestion et l’extraction de connaissances. L’analyse à la fois des points communs et des spécificités des publications dans les différentes éditions de la conférence ainsi que des principales différences entre les éditions consécutives a nécessité la mobilisation de différents algorithmes et représentations graphiques..
  • Antonin Guilloux (maître de conférence, HDR à l’IMJ-PRG, à l’Université Paris 6) nous parlera du dispositif mis en place pour l’étude du corpus des « Oeuvres Complètes de Mussolini », réalisé en collaboration avec Stéphanie Lanfranchi (maître de conférence en études italiennes à l’ENS de Lyon) et Elise Varcin (doctorante en études italiennes).
    • La taille du corpus, constitué d’environ 6000 textes divers (articles, romans, allocutions…), répartis chronologiquement sur un demi-siècle, empêche le chercheur d’avoir une vue globale et rend difficile une étude historiographique. La taille peut en revanche devenir un avantage pour l’utilisation d’outil statistique. Après description des résultats, et des interprétations possibles, les limites de cette approche seront également abordées.

L’atelier aura lieu de 9h30 à 12h00 en R20, bâtiment Recherche de l’ENS de Lyon (site Descartes).

Quelques références et tutoriels :

Atelier Retour d’expérience du 14 février : « Nettoyer des données » avec le logiciel OpenRefine ou d’autres solutions (PERL, Python, SQL)

31 Janvier, 2017 - 16:36

Crédits : Laverie rue Custine (stef niKo), CC BY-SA 2.0

Le nettoyage de données vise à repérer des informations erronées, incomplètes ou manquantes (erreurs de saisie, doublons, formats incorrects…) dans des fichiers ou bases de données et à les corriger.
Cette séance s’intéressera à ce type d’opérations à travers notamment des retours d’expérience sur l’utilisation du logiciel libre OpenRefine.

 

Plan de la séance :

  • Introduction (Carole Boulai, Triangle)
  • Présentation d’OpenRefine, logiciel libre de nettoyage de données et retours d’explorations et de pratiques (Emmanuelle Morlock, HISOMA)
  • Cas d’usage d’OpenRefine avec des données du projet Siprojuris et retour d’expérience sur des solutions alternatives (PERL, Python, SQL) (Séverine Gedzelman, Triangle)
  • Temps d’échange

Cet atelier aura lieu de 9h30 à 12h à l’ENS de Lyon (site Descartes), salle R20.

Pages