ED3bis · Langues, lettres et traductologie

Récolte, nettoyage et enrichissement de corpus

Séminaire doctoral interuniversitaire

Louvain-la-Neuve, 11 et 12 mars 2024

Le travail sur corpus

  Le travail sur corpus occupe une place importante en langues, lettres et traductologie. À moins d’avoir la chance de travailler sur un corpus déjà constitué et en bon état, il faut le plus souvent commencer par récolter des « documents » (des textes, des productions écrites, des enregistrements, des vidéos, des données issues de médias sociaux…) et les accompagner de métadonnées.

Il est souvent nécessaire de transcrire ces documents depuis des enregistrements audios, des vidéos ou des manuscrits. Il faut ensuite généralement nettoyer et normaliser les données : il peut être question de corriger les erreurs produites lors de la reconnaissance optique de caractères, de modifier l’encodage des caractères, ou encore de « simplifier » certains caractères afin de permettre leur traitement par des outils ultérieurs (supprimer les espaces insécables, transformer les « œ » en « oe », remplacer les tirets cadratins ou semi cadratins par des parenthèses, les guillemets orientés vers la gauche et la droite par des guillemets droits, etc.).

La plupart du temps, il faut aussi corriger et modifier les métadonnées (valeurs aberrantes ou incohérentes, dates mal formées ou impossibles, langues inexistantes, âges invraisemblables, variantes dans les noms des pays, etc.).

À ce stade, le corpus peut déjà être exploité. Souvent toutefois, le corpus est annoté à l’aide de différents outils. Les annotations peuvent porter sur l’ensemble d’un document ou sur des sous-parties d’un document (des mots, des groupes de mots, etc.). Elles peuvent être réalisées manuellement, semi automatiquement ou automatiquement. Parfois, il est nécessaire, avant d’annoter ou d’exploiter le corpus, d’utiliser d’autres outils : des lemmatiseurs pour travailler sur les formes canoniques des mots, des reconnaisseurs d’entités nommées afin d’identifier les noms de personnes, de lieux, d’institutions ou encore les dates, des étiqueteurs morphosyntaxiques pour déterminer si tel mot est un nom, un adjectif ou un pronom, des étiqueteurs syntaxiques pour identifier des groupes de mots et les relations que les mots ou groupes de mots entretiennent entre eux sur le plan grammatical.

Le séminaire doctoral

Ce séminaire doctoral interuniversitaire entend se consacrer aux problèmes réels qui sont rencontrés par les personnes qui décident de récolter un corpus, de le manipuler et de le diffuser. Son objectif est d’apporter des réponses concrètes à ces problèmes ; il n’a par contre pas pour but de montrer tous les outils de traitement qui existent en fonction des différents usages qui peuvent être faits de tel ou tel corpus. Il se concentrera sur les tâches qui sont les plus communes aux disciplines de l’ED3bis, et s’intéressera particulièrement aux corpus sous une forme écrite ou transcrite. Cela ne veut pas dire pour autant que le séminaire n’est pas destiné aussi aux personnes travaillant sur de l’oral ou sur la vidéo, par exemple. Il montrera une chaine typique de traitements qui sont appliqués à un corpus, depuis sa constitution jusqu’à son exploitation.

Acquis de formation

Les personnes ayant participé à cette formation seront capables de :

  • préparer la collecte de nouvelles données et des métadonnées associées de façon à créer des corpus directement exploitables ;
  • nettoyer des données et métadonnées existantes ;
  • utiliser des outils du TAL et des logiciels d’annotation pour enrichir les données textuelles.

Prérequis

 La formation ne requiert pas de connaissances préalables. Il est par contre recommandé de la suivre dans sa totalité.

Dates

11

MAR

Première journée

  • Lundi
  • 09:00 - 17:00
  • UCLouvain · SOCR 031-32

  • Acquisition des données langagières et des métadonnées associées, nettoyage et pérennisation

12

MAR

Deuxième journée

  • Mardi
  • 09:00 - 17:30
  • UCLouvain · SOCR 031-32

  • Enrichissement des données à l’aide des outils du TAL
  • Working with spoken language corpora: EXMARaLDA

Lieu

Auditoires Socrate

Salle SOCR 031-32 (rez-de-chaussée)
Place du Cardinal Mercier, 10-12
1348 Louvain-la-Neuve

Programme

Acquisition des données langagières et des métadonnées associées, nettoyage et pérennisation (en français)

Lundi 11 mars, de 9h00 à 12h30 et de 14h00 à 17h00
Hubert Naets et Damien De Meyere

 La constitution d’un corpus peut se faire de plusieurs manières :

  • à partir de zéro : on se rend dans une classe, on demande à des élèves ou des étudiants de produire un texte et on recueille des informations sur ces élèves (âge, sexe/genre, langue, année scolaire, etc.) ; on peut également enregistrer les étudiants dont on transcrit les productions ;
  • à partir de données existantes : on récupère des textes (romans, livres, documents juridiques, rapports médicaux…) dont certains devront être numérisés (automatiquement avec une OCR ou manuellement) ; on accompagne ces documents de métadonnées ; ou on récupère des interviews radio ou des journaux télévisés qu’on transcrit ; tantôt encore on télécharge un volume plus ou moins important de tweets ou de fils de discussion Reddit avec leurs métadonnées ; 
  • à partir de corpus déjà existants : il est parfois nécessaire de fusionner les données et les métadonnées de différents corpus qui ne sont pas au même format, ou encore de retravailler ces données et métadonnées.

Quelle que soit l’approche utilisée, un certain nombre de problèmes sont récurrents. Ainsi, certaines métadonnées récoltées sont régulièrement difficiles à exploiter : on n’a pas spécifié de format de date et, selon les habitudes des pays dont ils proviennent, les répondants ont organisé de façon différente les jours, mois et années, rendant impossible de savoir si « 09/12/07 » correspond au 9 décembre 2007, au 12 septembre 2007 ou encore au 7 décembre 2009 ; on n’a pas pensé que demander quelle langue est parlée à la maison dans un champ libre conduirait à recevoir des réponses telles que « patois » ou encore « africain » ; on n’a pas tenu compte du fait qu’il existait deux standards écrits pour le norvégien ; on n’a pas pensé que l’ordre dans lequel les langues étaient indiquées par les participants pouvait influencer l’exploitation des résultats ; on a ignoré le fait que des caractères invisibles ou que des façons différentes de noter la même chose pouvaient perturber les métadonnées. Quant aux données, elles sont souvent touchées par des problèmes d’encodages de caractères qui peuvent perturber la suite des traitements.

Une partie de la première journée du séminaire sera consacrée aux bonnes pratiques à mettre en place avant de commencer à collecter un corpus. Elle concernera aussi les façons de repérer des problèmes dans les données et les métadonnées et de les nettoyer lorsque c’est nécessaire.

La question des formats permettant de stocker les données et les métadonnées sera également abordée. On rencontre ainsi régulièrement les formats TXT, CSV, XML, XLSX, TEI et JSON qui sont utilisés tantôt comme formats d’entrée par des logiciels d’exploitation de corpus, tantôt comme formats de diffusion ou de stockage. On montrera à quoi ces formats ressemblent, quelles en sont les caractéristiques, les avantages et les inconvénients.

Enfin, on verra comment utiliser le logiciel open source OpenRefine afin de réaliser certaines opérations de nettoyage, de conversion de formats, de reformatage des données et des métadonnées ou encore d’exploitation des données. 

Enrichissement des données à l’aide des outils du traitement automatique des langues (en français)

Mardi 12 mars de 09h00 à 12h00
Patrick Watrin

Afin d’exploiter au mieux chaque corpus, il est régulièrement nécessaire d’aller au-delà des mots tels qu’ils apparaissent dans les transcriptions ou les textes récoltés. On ajoute ainsi aux mots du texte leurs lemmes (au sens de leur forme canonique telle qu’elle apparait dans un dictionnaire — partiront → partir), leur analyse morphosyntaxique (partiront → indicatif futur simple 3e personne du pluriel) ou encore leur analyse syntaxique (Elles → sujet du verbe « partiront » dans « Elles partiront ») ; on regroupe ces mots en constituants nominaux ou verbaux ; on identifie les entités nommées dans les textes, c’est-à-dire les dates, les noms de personnes, de lieux, d’institutions ou d’évènements (le 3 avril 2021, le Premier ministre, Alexander De Croo, la Commission européenne, les attentats du 11 septembre). Ces tâches peuvent être réalisées à l’aide de différents outils qui relèvent du traitement automatique des langues (TAL).

Selon les questions de recherche, il faut en outre souvent envisager un enrichissement manuel des données, qui peut s’appuyer sur un enrichissement automatique (étiquetage des erreurs commises par des apprenants ; identification et catégorisation de certaines structures de phrases ou concepts).

L’accent sera surtout mis sur les outils de TAL, sur l’utilisation de certains d’entre eux, mais aussi sur l’évaluation de la qualité des résultats qu’ils produisent (notions de précision, rappel et F-mesure). On emploiera également des logiciels permettant de définir différents schémas d’annotation afin d’étiqueter manuellement les corpus.

Working with spoken language corpora: EXMARaLDA (en anglais)

Mardi 12 mars, de 13h30 à 17h30
Thomas Schmidt

EXMARaLDA is a toolset for creating, processing, documenting, and analysing audiovisual corpora of spoken language. It has been and continues to be used for work on smaller and larger corpora dealing with language acquisition, talk-in-interaction, dialectal variation, multimodal studies, interpreting data and many more. The seminar will give an overview and demonstration of the system's tools for transcription, annotation, metadata compilation, and corpus query and provide some basic hands-on exercises. Participants are kindly asked to download the latest version of EXMARaLDA from www.exmaralda.org before the seminar and install it on their system. Own recordings (recommended: WAV for Audio, MP4 for video) can be used in the seminar.

Intervenants

Damien De Meyere

UCLouvain

Hubert Naets

UCLouvain

Thomas Schmidt

 

Patrick Watrin

UCLouvain

Comité

Barbara De Cock

UCLouvain

Anne Dister

UCLouvain Saint-Louis Bruxelles

Philippe De Brabanter

ULB

Laurence Meurant

UNamur

Julien Perrez

ULiège

Renseignements

Pour tout renseignement, veuillez contacter   Barbara De Cock <barbara.decock@uclouvain.be>

Inscription

Veuillez indiquer votre prénom
Entrez votre prénom
Veuillez indiquer votre nom de famille
Entrez votre nom de famille
Veuillez indiquer une adresse de courrier électronique valide
Entrez votre adresse de courrier électronique
Veuillez indiquer votre statut
Entrez votre statut
Veuillez indiquer le nom de votre institution
Entrez le nom de l'institution universitaire dont vous dépendez
Veuillez indiquer le nom de votre laboratoire de rattachement et/ou l'intitulé de votre diplôme et votre année d'étude
Entrez le nom de votre laboratoire de rattachement et/ou, si vous êtes en bac ou en master, l'intitulé de votre diplôme en cours et votre année d'étude
Veuillez indiquer si vous comptez suivre l'ensemble des journées ou seulement la première journée ou les deux demi-journées
Indiquez si vous comptez suivre l'ensemble des journées ou seulement la première journée ou les deux demi-journées
Veuillez limiter la taille de votre texte
Vous pouvez indiquer, si vous le désirez, sur quel sujet vous travaillez, quel type de corpus, en quoi le séminaire proposé pourrait vous aider dans votre travail, etc.
Veuillez cocher cette case uniquement si vous êtes un robot
Veuilez cocher cette case uniquement si vous êtes un robot
Veuillez cocher la case relative au traitement des données privées
Veuilez cocher la case relative au traitement des données privées