ED3bis 2022 - séminaire - Récolte, nettoyage et enrichissement de corpus

Le travail sur corpus

Le travail sur corpus occupe une place importante en langues, lettres et traductologie. À moins d’avoir la chance de travailler sur un corpus déjà constitué et en bon état, il faut le plus souvent commencer par récolter des « documents » (des textes, des productions écrites, des enregistrements, des vidéos, des données issues de médias sociaux…) et les accompagner de métadonnées.

Il est souvent nécessaire de transcrire ces documents depuis des enregistrements audios, des vidéos ou des manuscrits. Il faut ensuite généralement nettoyer et normaliser les données : il peut être question de corriger les erreurs produites lors de la reconnaissance optique de caractères, de modifier l’encodage des caractères, ou encore de « simplifier » certains caractères afin de permettre leur traitement par des outils ultérieurs (supprimer les espaces insécables, transformer les « œ » en « oe », remplacer les tirets cadratins ou semi cadratins par des parenthèses, les guillemets orientés vers la gauche et la droite par des guillemets droits, etc.).

La plupart du temps, il faut aussi corriger et modifier les métadonnées (valeurs aberrantes ou incohérentes, dates mal formées ou impossibles, langues inexistantes, âges invraisemblables, variantes dans les noms des pays, etc.).

À ce stade, le corpus peut déjà être exploité. Souvent toutefois, le corpus est annoté à l’aide de différents outils. Les annotations peuvent porter sur l’ensemble d’un document ou sur des sous-parties d’un document (des mots, des groupes de mots, etc.). Elles peuvent être réalisées manuellement, semi automatiquement ou automatiquement. Parfois, il est nécessaire, avant d’annoter ou d’exploiter le corpus, d’utiliser d’autres outils : des lemmatiseurs pour travailler sur les formes canoniques des mots, des reconnaisseurs d’entités nommées afin d’identifier les noms de personnes, de lieux, d’institutions ou encore les dates, des étiqueteurs morphosyntaxiques pour déterminer si tel mot est un nom, un adjectif ou un pronom, des étiqueteurs syntaxiques pour identifier des groupes de mots et les relations que les mots ou groupes de mots entretiennent entre eux sur le plan grammatical.

Le séminaire doctoral

Ce séminaire doctoral interuniversitaire entend se consacrer aux problèmes réels qui sont rencontrés par les personnes qui décident de récolter un corpus, de le manipuler et de le diffuser. Son objectif est d’apporter des réponses concrètes à ces problèmes ; il n’a par contre pas pour but de montrer tous les outils de traitement qui existent en fonction des différents usages qui peuvent être faits de tel ou tel corpus. Il se concentrera sur les tâches qui sont les plus communes aux disciplines de l’ED3bis, et s’intéressera particulièrement aux corpus sous une forme écrite ou transcrite. Cela ne veut pas dire pour autant que le séminaire n’est pas destiné aussi aux personnes travaillant sur de l’oral ou sur la vidéo, par exemple. Il montrera une chaine typique de traitements qui sont appliqués à un corpus, depuis sa constitution jusqu’à son exploitation.

Acquis de formation

Les personnes ayant participé à cette formation seront capables de :

préparer la collecte de nouvelles données et des métadonnées associées de façon à créer des corpus directement exploitables ;
nettoyer des données et métadonnées existantes ;
utiliser des outils du TAL et des logiciels d’annotation pour enrichir les données textuelles.

Langue de la formation

La formation sera donnée en français mais elle se veut également « English friendly » (slides en anglais et questions en anglais bienvenues !)

Prérequis

La formation ne requiert pas de connaissances préalables. Il est par contre recommandé de la suivre dans sa totalité.

Programme

Première journée : Acquisition des données langagières et des métadonnées associées, nettoyage et pérennisation

Vendredi 25 février, de 9h00 à 17h00

La constitution d’un corpus peut se faire de plusieurs manières :

à partir de zéro : on se rend dans une classe, on demande à des élèves ou des étudiants de produire un texte et on recueille des informations sur ces élèves (âge, sexe/genre, langue, année scolaire, etc.) ; on peut également enregistrer les étudiants dont on transcrit les productions ;
à partir de données existantes : on récupère des textes (romans, livres, documents juridiques, rapports médicaux…) dont certains devront être numérisés (automatiquement avec une OCR ou manuellement) ; on accompagne ces documents de métadonnées ; ou on récupère des interviews radio ou des journaux télévisés qu’on transcrit ; tantôt encore on télécharge un volume plus ou moins important de tweets ou de fils de discussion Reddit avec leurs métadonnées ;
à partir de corpus déjà existants : il est parfois nécessaire de fusionner les données et les métadonnées de différents corpus qui ne sont pas au même format, ou encore de retravailler ces données et métadonnées.

Quelle que soit l’approche utilisée, un certain nombre de problèmes sont récurrents. Ainsi, certaines métadonnées récoltées sont régulièrement difficiles à exploiter : on n’a pas spécifié de format de date et, selon les habitudes des pays dont ils proviennent, les répondants ont organisé de façon différente les jours, mois et années, rendant impossible de savoir si « 09/12/07 » correspond au 9 décembre 2007, au 12 septembre 2007 ou encore au 7 décembre 2009 ; on n’a pas pensé que demander quelle langue est parlée à la maison dans un champ libre conduirait à recevoir des réponses telles que « patois » ou encore « africain » ; on n’a pas tenu compte du fait qu’il existait deux standards écrits pour le norvégien ; on n’a pas pensé que l’ordre dans lequel les langues étaient indiquées par les participants pouvait influencer l’exploitation des résultats ; on a ignoré le fait que des caractères invisibles ou que des façons différentes de noter la même chose pouvaient perturber les métadonnées. Quant aux données, elles sont souvent touchées par des problèmes d’encodages de caractères qui peuvent perturber la suite des traitements.

Une partie de la première journée du séminaire sera consacrée aux bonnes pratiques à mettre en place avant de commencer à collecter un corpus. Elle concernera aussi les façons de repérer des problèmes dans les données et les métadonnées et de les nettoyer lorsque c’est nécessaire.

La question des formats permettant de stocker les données et les métadonnées sera également abordée. On rencontre ainsi régulièrement les formats TXT, CSV, XML, XLSX, TEI et JSON qui sont utilisés tantôt comme formats d’entrée par des logiciels d’exploitation de corpus, tantôt comme formats de diffusion ou de stockage. On montrera à quoi ces formats ressemblent, quelles en sont les caractéristiques, les avantages et les inconvénients.

Enfin, on verra comment utiliser le logiciel open source OpenRefine afin de réaliser certaines opérations de nettoyage, de conversion de formats, de reformatage des données et des métadonnées ou encore d’exploitation des données.

Deux demi-journées : Enrichissement des données à l’aide des outils du traitement automatique des langues

Vendredi 11 mars de 14h00 à 17h00 et vendredi 29 avril de 10h00 à 13h00

Afin d’exploiter au mieux chaque corpus, il est régulièrement nécessaire d’aller au-delà des mots tels qu’ils apparaissent dans les transcriptions ou les textes récoltés. On ajoute ainsi aux mots du texte leurs lemmes (au sens de leur forme canonique telle qu’elle apparait dans un dictionnaire — partiront → partir), leur analyse morphosyntaxique (partiront → indicatif futur simple 3e personne du pluriel) ou encore leur analyse syntaxique (Elles → sujet du verbe « partiront » dans « Elles partiront ») ; on regroupe ces mots en constituants nominaux ou verbaux ; on identifie les entités nommées dans les textes, c’est-à-dire les dates, les noms de personnes, de lieux, d’institutions ou d’évènements (le 3 avril 2021, le Premier ministre, Alexander De Croo, la Commission européenne, les attentats du 11 septembre). Ces tâches peuvent être réalisées à l’aide de différents outils qui relèvent du traitement automatique des langues (TAL).

Selon les questions de recherche, il faut en outre souvent envisager un enrichissement manuel des données, qui peut s’appuyer sur un enrichissement automatique (étiquetage des erreurs commises par des apprenants ; identification et catégorisation de certaines structures de phrases ou concepts).

Lors de ces deux demi-journées, l’accent sera surtout mis sur les outils de TAL, sur l’utilisation de certains d’entre eux, mais aussi sur l’évaluation de la qualité des résultats qu’ils produisent (notions de précision, rappel et F-mesure). On emploiera également des logiciels permettant de définir différents schémas d’annotation afin d’étiqueter manuellement les corpus.

Organisation

Max De Wilde

ULB

Magali Paquot

UCLouvain

Inscription

Formulaire d'inscription désactivé

Le nombre maximum de personnes pouvant occuper la salle ayant été atteint, les inscriptions sont désormais closes.

Attention : nombre de places limité

Le local de formation ne permettant d'accueillir qu'un nombre limité de personnes,
les places seront données en priorité aux personnes inscrites en doctorat participant à la totalité du séminaire.

Jusqu'au 15 janvier,
les personnes inscrites en doctorat et participant à la totalité du séminaire seront inscrites, tandis que les autres seront mises sur une liste d'attente.

Après le 15 janvier,
les personnes sur liste d'attente seront inscrites ; il sera bien sûr toujours possible de participer pour toutes les autres, dans la limite des places disponibles.

La confirmation de votre participation vous sera envoyée par courriel.

Des erreurs ont été détectées dans le formulaire

Veuillez contrôler les champs indiqués en rouge.

Prénom

Veuillez indiquer votre prénom

Entrez votre prénom

Nom de famille

Veuillez indiquer votre nom de famille

Entrez votre nom de famille

Courrier électronique

Veuillez indiquer une adresse de courrier électronique valide

Entrez votre adresse de courrier électronique

Statut

Veuillez indiquer votre statut

Entrez votre statut

Institution

Veuillez indiquer le nom de votre institution

Entrez le nom de l'institution universitaire dont vous dépendez

Laboratoire de rattachement / Études et année

Veuillez indiquer le nom de votre laboratoire de rattachement et/ou l'intitulé de votre diplôme et votre année d'étude

Entrez le nom de votre laboratoire de rattachement et/ou, si vous êtes en bac ou en master, l'intitulé de votre diplôme en cours et votre année d'étude

Participation

Veuillez indiquer si vous comptez suivre l'ensemble des journées ou seulement la première journée ou les deux demi-journées

Indiquez si vous comptez suivre l'ensemble des journées ou seulement la première journée ou les deux demi-journées

Ce séminaire doctoral m'intéresse particulièrement parce que…

Veuillez limiter la taille de votre texte

Vous pouvez indiquer, si vous le désirez, sur quel sujet vous travaillez, quel type de corpus, en quoi le séminaire proposé pourrait vous aider dans votre travail, etc.

Cochez cette case si vous êtes un robot

Veuillez cocher cette case uniquement si vous êtes un robot

Veuilez cocher cette case uniquement si vous êtes un robot

Conformément au Règlement Général sur la Protection les Données (RGPD / GDPR) et à la loi belge du 30 juillet 2018, vous disposez d'un droit d'accès aux informations qui vous concernent, ainsi que d'un droit de correction. Il vous est possible de nous demander à tout moment de rectifier ou de supprimer des informations que vous nous avez soumises. Notez que certaines informations nous sont nécessaires pour gérer correctement votre participation à ce séminaire doctoral. En l'absence de ces informations, nous ne pourrions donner suite à votre inscription.
Les informations que vous nous fournissez ne seront employées que dans le cadre strict de votre participation à ce séminaire ; elles pourront être transmises à l'ED3bis et/ou aux personnes s'occupant de votre formation doctorale afin de valider votre participation. Ces informations seront détruites au plus tard un an après la fin du séminaire.

Veuillez cocher la case relative au traitement des données privées

Veuilez cocher la case relative au traitement des données privées

Récolte, nettoyage et enrichissement de corpus

Séminaire doctoral interuniversitaire — février, mars et avril 2022

Le travail sur corpus

Le séminaire doctoral

Acquis de formation

Langue de la formation

Prérequis

Dates

25

FÉV

Première journée

11

MAR

Première demi-journée

29

AVR

Deuxième demi-journée

Lieu

Auditoires Socrate

Programme

Première journée : Acquisition des données langagières et des métadonnées associées, nettoyage et pérennisation

Vendredi 25 février, de 9h00 à 17h00

Deux demi-journées : Enrichissement des données à l’aide des outils du traitement automatique des langues

Vendredi 11 mars de 14h00 à 17h00 et vendredi 29 avril de 10h00 à 13h00

Intervenants

Damien De Meyere

Max De Wilde

Hubert Naets

Patrick Watrin

Organisation

Max De Wilde

Magali Paquot

Renseignements

Inscription

Formulaire d'inscription désactivé

Attention : nombre de places limité

Des erreurs ont été détectées dans le formulaire

Confirmation

Erreur

Récolte, nettoyage et enrichissement de corpus

Séminaire doctoral interuniversitaire — février, mars et avril 2022

Le travail sur corpus

Le séminaire doctoral

Acquis de formation

Langue de la formation

Prérequis

Dates

25

FÉV

Première journée

11

MAR

Première demi-journée

29

AVR

Deuxième demi-journée

Lieu

Auditoires Socrate

Programme

Première journée : Acquisition des données langagières et des métadonnées associées, nettoyage et pérennisation

Vendredi 25 février, de 9h00 à 17h00

Deux demi-journées : Enrichissement des données à l’aide des outils du traitement automatique des langues

Vendredi 11 mars de 14h00 à 17h00 et vendredi 29 avril de 10h00 à 13h00

Intervenants

Damien De Meyere

Max De Wilde

Hubert Naets

Patrick Watrin

Organisation

Max De Wilde

Magali Paquot

Renseignements

Inscription

Formulaire d'inscription désactivé

Attention : nombre de places limité

Des erreurs ont été détectées dans le formulaire