Diversité des Langues Sinitiques et Humanités Numériques – DLS-HN

Résumé

Le développement des pratiques en humanités numériques (HN) et la disponibilité croissante de corpus ouvrent de nouveaux domaines d’applications et défis pour le traitement automatique des langues (TAL). Le TAL des langues sinitiques ne fait pas exception, tout en présentant certains problèmes spécifiques. Nous proposons un projet qui vise à décrire et relever certains de ces défis en abordant cette question sous l’angle de la variation.
Nous distinguerons trois axes de variations : temporelle (diachronique), géographique (dialectale/diatopique) et grapholinguistique (rapport langue-écriture). Nous souhaitons ainsi questionner les représentations formelles (normalisation et vectorisation des données) et les choix de corpus à la base de tout traitement de langues sinitiques.
Nous étudierons plusieurs situations de variation et différentes applications du TAL aux HN et pour les langues d'héritages.
Notre contribution sera double. Elle portera d’une part sur l’évaluation et la conception des méthodes de TAL sur des données situées à différentes positions le long de ces axes, et d’autre part sur la diffusion de ces méthodes et leur applications. Nous travaillerons à la fois sur des données écrites et orales.

L'axe temporel sera exploré principalement au travers du corpus du Shun-Pao, premier journal quotidien imprimé en sinogramme entre 1872 et 1949. Ce corpus permet d'aborder des questions aussi bien linguistiques qu'historiques, et sera travaillé en collaboration avec les historiens impliqués dans le projet ENP-China.
L'axe géographique sera étudié grâce aux cas du hokkien de Taïwan et du teochew (avec un focus sur la variante parlée en France). Il s'agit là de deux langues de la même famille, relativement proches l'une de l'autre et distantes du mandarin. Elles sont cependant dans des situations sociolinguistiques assez différentes, et elles nous permettront d'explorer les méthodes de transfert en TAL. Cette partie se fera en collaboration avec des collègues taïwanais et Wikimedia France pour faciliter un retour vers les locuteurs.

Dates et durée

12/2023 – 05/2027 (48 mois)

Coordination scientifique

Pierre MAGISTRY (ERTIM, Inalco)

Objectifs

Étudier les limites des méthodes et outils pour le traitement automatique des langues sinitiques peu dotées, peu ou non standardisées, en étudiant particulièrement les cas du teochew, du taïwanais (taigi) et de différents stades du chinois classique.

Méthodologie

• Collecte et analyse de corpus oraux et écrit
• Entraînement et évaluation de modèles de traitement de la parole (synthèse, reconnaissance) et du texte (modèles de langue, segmentation, reconnaissance d’entités, claviers virtuels)

Résultats attendus

• Outillage des langues en technologie du langage
• Diffusion de modèles
• Évaluation de modèles existants
• Valorisation de langues minorées (notamment le teochew de France)

Mots-clefs

langues sinitiques (minnan, chinois classique), traitement automatique des langues (TAL/NLP), technologies du langage

Références

CV HAL du porteur : https://cv.hal.science/pierre-magistry (articles et posters)