Le travail sur corpus occupe une place importante en langues, lettres et traductologie. À moins d’avoir la chance de travailler sur un corpus déjà constitué et en bon état, il faut le plus souvent commencer par récolter des « documents » (des textes, des productions écrites, des enregistrements, des vidéos, des données issues de médias sociaux…) et les accompagner de métadonnées.
Il est souvent nécessaire de transcrire ces documents depuis des enregistrements audios, des vidéos ou des manuscrits. Il faut ensuite généralement nettoyer et normaliser les données : il peut être question de corriger les erreurs produites lors de la reconnaissance optique de caractères, de modifier l’encodage des caractères, ou encore de « simplifier » certains caractères afin de permettre leur traitement par des outils ultérieurs (supprimer les espaces insécables, transformer les « œ » en « oe », remplacer les tirets cadratins ou semi cadratins par des parenthèses, les guillemets orientés vers la gauche et la droite par des guillemets droits, etc.).
La plupart du temps, il faut aussi corriger et modifier les métadonnées (valeurs aberrantes ou incohérentes, dates mal formées ou impossibles, langues inexistantes, âges invraisemblables, variantes dans les noms des pays, etc.).
À ce stade, le corpus peut déjà être exploité. Souvent toutefois, le corpus est annoté à l’aide de différents outils. Les annotations peuvent porter sur l’ensemble d’un document ou sur des sous-parties d’un document (des mots, des groupes de mots, etc.). Elles peuvent être réalisées manuellement, semi automatiquement ou automatiquement. Parfois, il est nécessaire, avant d’annoter ou d’exploiter le corpus, d’utiliser d’autres outils : des lemmatiseurs pour travailler sur les formes canoniques des mots, des reconnaisseurs d’entités nommées afin d’identifier les noms de personnes, de lieux, d’institutions ou encore les dates, des étiqueteurs morphosyntaxiques pour déterminer si tel mot est un nom, un adjectif ou un pronom, des étiqueteurs syntaxiques pour identifier des groupes de mots et les relations que les mots ou groupes de mots entretiennent entre eux sur le plan grammatical.
Ce séminaire doctoral interuniversitaire entend se consacrer aux problèmes réels qui sont rencontrés par les personnes qui décident de récolter un corpus, de le manipuler et de le diffuser. Son objectif est d’apporter des réponses concrètes à ces problèmes ; il n’a par contre pas pour but de montrer tous les outils de traitement qui existent en fonction des différents usages qui peuvent être faits de tel ou tel corpus. Il se concentrera sur les tâches qui sont les plus communes aux disciplines de l’ED3bis, et s’intéressera particulièrement aux corpus sous une forme écrite ou transcrite. Cela ne veut pas dire pour autant que le séminaire n’est pas destiné aussi aux personnes travaillant sur de l’oral ou sur la vidéo, par exemple. Il montrera une chaine typique de traitements qui sont appliqués à un corpus, depuis sa constitution jusqu’à son exploitation.
Les personnes ayant participé à cette formation seront capables de :
La formation sera donnée en français mais elle se veut également « English friendly » (slides en anglais et questions en anglais bienvenues !)
La formation ne requiert pas de connaissances préalables. Il est par contre recommandé de la suivre dans sa totalité.
Acquisition des données langagières et des métadonnées associées, nettoyage et pérennisation
Enrichissement des données à l’aide des outils du TAL
— première partie
Enrichissement des données à l’aide des outils du TAL
— seconde partie
La constitution d’un corpus peut se faire de plusieurs manières :
Quelle que soit l’approche utilisée, un certain nombre de problèmes sont récurrents. Ainsi, certaines métadonnées récoltées sont régulièrement difficiles à exploiter : on n’a pas spécifié de format de date et, selon les habitudes des pays dont ils proviennent, les répondants ont organisé de façon différente les jours, mois et années, rendant impossible de savoir si « 09/12/07 » correspond au 9 décembre 2007, au 12 septembre 2007 ou encore au 7 décembre 2009 ; on n’a pas pensé que demander quelle langue est parlée à la maison dans un champ libre conduirait à recevoir des réponses telles que « patois » ou encore « africain » ; on n’a pas tenu compte du fait qu’il existait deux standards écrits pour le norvégien ; on n’a pas pensé que l’ordre dans lequel les langues étaient indiquées par les participants pouvait influencer l’exploitation des résultats ; on a ignoré le fait que des caractères invisibles ou que des façons différentes de noter la même chose pouvaient perturber les métadonnées. Quant aux données, elles sont souvent touchées par des problèmes d’encodages de caractères qui peuvent perturber la suite des traitements.
Une partie de la première journée du séminaire sera consacrée aux bonnes pratiques à mettre en place avant de commencer à collecter un corpus. Elle concernera aussi les façons de repérer des problèmes dans les données et les métadonnées et de les nettoyer lorsque c’est nécessaire.
La question des formats permettant de stocker les données et les métadonnées sera également abordée. On rencontre ainsi régulièrement les formats TXT, CSV, XML, XLSX, TEI et JSON qui sont utilisés tantôt comme formats d’entrée par des logiciels d’exploitation de corpus, tantôt comme formats de diffusion ou de stockage. On montrera à quoi ces formats ressemblent, quelles en sont les caractéristiques, les avantages et les inconvénients.
Enfin, on verra comment utiliser le logiciel open source OpenRefine afin de réaliser certaines opérations de nettoyage, de conversion de formats, de reformatage des données et des métadonnées ou encore d’exploitation des données.
Afin d’exploiter au mieux chaque corpus, il est régulièrement nécessaire d’aller au-delà des mots tels qu’ils apparaissent dans les transcriptions ou les textes récoltés. On ajoute ainsi aux mots du texte leurs lemmes (au sens de leur forme canonique telle qu’elle apparait dans un dictionnaire — partiront → partir), leur analyse morphosyntaxique (partiront → indicatif futur simple 3e personne du pluriel) ou encore leur analyse syntaxique (Elles → sujet du verbe « partiront » dans « Elles partiront ») ; on regroupe ces mots en constituants nominaux ou verbaux ; on identifie les entités nommées dans les textes, c’est-à-dire les dates, les noms de personnes, de lieux, d’institutions ou d’évènements (le 3 avril 2021, le Premier ministre, Alexander De Croo, la Commission européenne, les attentats du 11 septembre). Ces tâches peuvent être réalisées à l’aide de différents outils qui relèvent du traitement automatique des langues (TAL).
Selon les questions de recherche, il faut en outre souvent envisager un enrichissement manuel des données, qui peut s’appuyer sur un enrichissement automatique (étiquetage des erreurs commises par des apprenants ; identification et catégorisation de certaines structures de phrases ou concepts).
Lors de ces deux demi-journées, l’accent sera surtout mis sur les outils de TAL, sur l’utilisation de certains d’entre eux, mais aussi sur l’évaluation de la qualité des résultats qu’ils produisent (notions de précision, rappel et F-mesure). On emploiera également des logiciels permettant de définir différents schémas d’annotation afin d’étiqueter manuellement les corpus.
UCLouvain
ULB
UCLouvain
UCLouvain
ULB
UCLouvain
Pour tout renseignement, veuillez contacter Hubert Naets <hubert.naets@uclouvain.be>
Le nombre maximum de personnes pouvant occuper la salle ayant été atteint, les inscriptions sont désormais closes.
Le local de formation ne permettant d'accueillir qu'un nombre limité de personnes,
les places seront données en priorité aux personnes inscrites en doctorat participant à la totalité du séminaire.
Jusqu'au 15 janvier,
les personnes inscrites en doctorat et participant à la totalité du séminaire seront inscrites, tandis que les autres seront mises sur une liste d'attente.
Après le 15 janvier,
les personnes sur liste d'attente seront inscrites ; il sera bien sûr toujours possible de participer pour toutes les autres, dans la limite des places disponibles.
La confirmation de votre participation vous sera envoyée par courriel.
Veuillez contrôler les champs indiqués en rouge.