Le projet PRC "DALiH - Digitizing Armenian Linguistic Heritage" est lauréat de l'AAPG 2021 de l'ANR

1 février 2022

SeDyL
Menu Recherche

Le projet de recherche collaborative (PRC) "DALiH - Digitizing Armenian Linguistic Heritage" (Numérisation du patrimoine linguistique arménien : Corpus multivariationnel d’arménien et traitement des données), porté par Victoria Khurshudyan (Inalco, SeDyL, CNRS, IRD), est lauréat de l'Appel à projets génériques (AAPG) 2021 de l'Agence nationale de la recherche (ANR).

Digitizing Armenian Linguistic Héritage - DALiH - logo © DALiH‎

Le projet DALiH, d'une durée de 42 mois, s'inscrit dans l'axe de recherche ANR CE38 - Révolution numérique : rapports au savoir et à la culture.

Victoria Khurshudyan est maître de conférences en linguistique arménienne et directrice du département Eurasie à l’Inalco, membre de l'UMR SeDyL (Structure et Dynamique des Langues) depuis 2012.

Diplômée de l’Université Linguistique Brussov d’État d’Erevan, elle a soutenu sa thèse de doctorat en science du langage à l’Institut de Linguistique, Université d'État des humanités de Russie (РГГУ), Moscou, Russie. Ses domaines de recherche sont notamment la variation linguistique de l'arménien, la typologie linguistique, ainsi que la linguistique computationnelle dans une perspective de traitement automatique des langues. De 2006 à 2009, elle a coordonné le projet du Corpus national de l’arménien oriental (EANC) à l’Institut de langue, Académie des sciences de Russie.

Numérisation du patrimoine linguistique arménien (DALiH) : Corpus multivariationnel arménien et traitement des données

Projet de Recherche Collaborative (PRC) financé par l’Agence nationale de la recherche ANR-21-CE38-0006.

Le projet Numérisation du patrimoine linguistique arménien (DALiH) : Corpus multivariationnel d’arménien et traitement des données vise à construire pour la première fois une plate-forme linguistique numérique unifiée en libre accès et open-source couvrant l’ensemble du spectre variationnel variantes de la langue arménienne, avec des corpus annotés pour :

1) l'arménien classique ;
2) l'arménien occidental moderne ;
3) un corpus pilote de l'arménien moyen ;
4) trois corpus pilotes des dialectes, et
5) un corpus mis à jour de l'arménien oriental moderne sur la base du corpus EANC (Eastern Armenian National Corpus).

Des recherches seront menées dans une perspectives linguistique et de Traitement automatique des langues (TAL) afin de fournir des modèles d'annotation grammaticale complète ainsi que de reconnaissance automatique de la parole (ASR) pour les variétés arméniennes cibles. Plusieurs nouvelles approches d’apprentissage machine et de systèmes à règles seront mises au point afin de traiter les bases de données écrites et orales et de tester leur validité en vue d’un élargissement ultérieur du corpus, dans un contexte de variation linguistique multi-paramétres pour une langue sous-dotée.

Des recherches en linguistiques informatique, visant notamment à l'identification automatique de la langue, au calcul de la distance entre variétés, à la désambiguïsation lexicale et morphologique, seront conduites en vue de revisiter l’état de l’art et introduire de nouvelles problématiques de recherche soutenues par les données écrites et orales rendues disponibles par le projet.

Partenaires :
Institut national des langues et civilisations orientales (Inalco)
Structure et Dynamique des Langues (SeDyL, CNRS, IRD, Inalco)
Équipe de recherche texte, informatique, multilinguisme (ERTIM, Inalco)
Laboratoire d'Informatique de Paris-Nord (LIPN, CNRS, Université Sorbonne Paris Nord)
Digital Library of Classical Armenian Literature (Digilib, American University of Armenia)
Russian Language Institute, Russian Academy of Sciences (RAS)
Laboratoire d’excellence “Fondements Empiriques de la Linguistique” (Labex EFL)

Digitizing Armenian Linguistic Heritage (DALiH): Armenian Multivariational Corpus and Data Processing

Project funded by French National Research Agency ANR-21-CE38-0006.

The project Digitizing Armenian Linguistic Heritage (DALiH): Armenian Multivariational Corpus and Data Processing aims at building for the first time an open-access and open-source unified digital linguistic platform for the whole spectrum of Armenian language variation, more particularly annotated corpora for :

1) Classical Armenian;
2) Modern Western Armenian;
3) a pilot corpus of Middle Armenian;
4) three pilot corpora of dialects, and
5) one updated Modern Eastern Armenian corpus on the basis of the existing one.

Research will be conducted in Natural language processing (NLP) and linguistic perspectives in order to provide full grammatical annotation and Automatic speech recognition (ASR) models for the target Armenian varieties. Multi-approach deep-learning and rule-based resources will be designed in order to process the written and oral databases and to cross-check their value for further corpus enlargement, in a context of multiparameter language variation for an under-resourced language.

NLP-based linguistic researches, such as language identification and variety distance measuring, lexical and morphological disambiguation, will be carried out to revisit the existing research issues and to introduce new ones backed by the new available processed written and oral data.

Partners:
Institut National des Langues et Civilisations Orientales (INALCO)
Structure et Dynamique des Langues (SeDyL, CNRS, IRD, INALCO)
Équipe de recherche texte, informatique, multilinguisme (ERTIM, INALCO)
Laboratoire d'Informatique de Paris-Nord (LIPN, CNRS, Université Sorbonne Paris Nord)
Digital Library of Classical Armenian Literature (Digilib, American University of Armenia)
Russian Language Institute, Russian Academy of Sciences (RAS)
Laboratoire d’excellence “Empirical Foundations of Linguistics” (Labex EFL)

LIENS UTILES

Les premiers résultats de l'Appel à projets générique (AAPG) 2021 de l'ANR

Projet DALiH - Visuel (2.41 Mo, .pdf)

Télécharger le fichier