Numérisation du patrimoine linguistique arménien – DALiH

Résumé

Le projet vise à construire pour la première fois une plate-forme linguistique numérique unifiée, ouverte et open-source, pour toutes les variétés de l'arménien. Chaque variété de langue sera représentée par une base de données textuelle exhaustive, accompagnée d'une annotation morphologique complète.

Dates et durée

04/2021 – 09/2026 (54 mois)

Coordination et équipe scientifiques

Victoria KHURSHUDYAN (SeDyL, Inalco)
Anaïd DONABEDIAN (SeDyL, Inalco)
Nadi TOMEH, LIPN (Université Sorbonne Paris Nord)
Thierry CHARNOIS (LIPN, Université Sorbonne Paris Nord)
Damien NOUVEL (ERTIM, Inalco)
Ilaine WANG (ERTIM, Inalco)
Hovhannes KIZOGHYAN (Digilib, American University of Armenia)
Vladimir PLUNGIAN (Russian Academy of Sciences)
Petr KOCHAROV (Julius-Maximilians-Universität Würzburg)

Partenaires

Institut National des Langues et Civilisations Orientales (INALCO)
Structure et Dynamique des Langues (SeDyL, CNRS, IRD, INALCO)
Équipe de recherche texte, informatique, multilinguisme (ERTIM, INALCO)
Laboratoire d'Informatique de Paris-Nord (LIPN, CNRS, Université Sorbonne Paris Nord)
Digital Library of Classical Armenian Literature (Digilib, American University of Armenia)
Russian Language Institute, Russian Academy of Sciences (RAS)
Laboratoire d’excellence “Fondements Empiriques de la Linguistique” (Labex EFL)

Objectifs

Le projet DALiH vise à créer une plateforme numérique unifiée en libre accès pour l'ensemble des variétés de la langue arménienne : arménien classique, moyen, oriental et occidental modernes, ainsi que trois dialectes. Il s'agit de documenter et de numériser ce patrimoine linguistique, de développer des corpus annotés morphologiquement et diffdes modèles de traitement automatique (TAL) pour ces variétés peu dotées, et de mettre ces ressources à disposition de la communauté scientifique et du grand public.

Méthodologie

Le projet combine des approches linguistiques et computationnelles : collecte et OCRisation de textes écrits, enquêtes de terrain et transcription de données orales, annotation morphologique par des modèles hybrides (règles, réseaux de neurones récurrents, transformers). Des outils de reconnaissance automatique de la parole (ASR) seront développés. Une méthodologie itérative associant annotation automatique et correction manuelle via des plateformes collaboratives garantit la qualité des données produites.

Résultats attendus

DALiH produira des avancées méthodologiques pour le TAL appliqué aux langues peu dotées à forte variation. Il permettra une meilleure connaissance de la variation de l'arménien, notamment des variétés menacées comme l'arménien occidental et les dialectes. Les ressources inédites produites (corpus annotés, dictionnaires grammaticaux, modèles ASR) auront un impact scientifique, pédagogique et sociétal, servant de référence pour d'autres langues peu dotées à caractères non latins.

Livrables

Corpus annotés multivariationnels (~450m. tokens) ; dictionnaires grammaticaux ; modèles d'annotation et ASR ; plateforme web en libre accès ; datasets téléchargeables ; publications scientifiques (ACL, LREC, COLING) ; workshops et conférence internationale ; supports pédagogiques.

Mots-clefs

arménien, linguistique de corpus, traitement automatique des langues, langues peu dotées, annotation morphologique, reconnaissance automatique de la parole, variation linguistique, humanités numériques

Références

Khurshudyan et al. (2009 ; 2021)

Donabedian (2018 ; 2021)

Vidal et al. (2020 ; 2021)

Arkhangelskiy (2020)

Baevski et al. (2020)

Manjavacas et al. (2019)

EANC : www.eanc.net

Calfa : www.calfa.fr

Agence de financement

Agence nationale de la recherche (ANR) - Appel à projets générique - AAPG 2021