Récupération d’information interlingue pour la littérature scientifique en langues moyennement dotées – CLingS

Résumé

Ce projet vise à développer un système de recherche d'informations multilingue adapté à la littérature scientifique dans les langues sous-représentées. Il aborde les défis critiques des technologies linguistiques, notamment l'absence de jeux de données scientifiques annotés, le manque de modèles linguistiques spécifiques pour les langues moins dotées en ressources et la prédominance de l'anglais dans la communication scientifique. Le projet se concentrera sur la construction de corpus comparables dans des domaines ciblés (linguistique, médecine, mathématiques, géographie et jurisprudence), la formation de modèles linguistiques adaptés au discours scientifique et leur alignement dans un espace d'intégration multilingue partagé. Ces modèles alimenteront un système de recherche qui permettra un accès structuré à l'information dans toutes les langues, soutenu par la génération augmentée par la recherche (graph-RAG) et des architectures multi-agents.

Sur le plan scientifique, le projet introduit une approche novatrice du calcul scientifique multilingue en comblant les écarts linguistiques tant au niveau formel que conceptuel. Il étudie la structure du discours scientifique dans des langues typologiquement et sociolinguistiquement diverses, contribuant ainsi à la fois au NLP et à l'histoire intellectuelle. Le système favorisera l'autoreprésentation linguistique dans des contextes scientifiques, enrichira les ressources terminologiques et fournira des outils pour analyser la diffusion et la transformation des connaissances à travers les cultures et le temps. Les méthodologies garantiront la reproductibilité et une évaluation rigoureuse, jetant ainsi les bases d'une approche linguistique inclusive.

Concrètement, le projet aboutira à : (1) des ensembles de données sélectionnées dans les domaines scientifiques ciblés pour sept langues : bélarussien, estonien, pendjabi, slovaque, taïwanais (Tâigí), ukrainien et yiddish ; (2) des modèles linguistiques d'encodeurs et de décodeurs adaptés aux textes scientifiques dans chaque langue sélectionnée ; (3) des espaces vectoriels multilingues partagés pour l'alignement des informations scientifiques ; (4) une plateforme interactive basée sur l'IA pour la recherche et la génération d'informations scientifiques ; et (5) des benchmarks et des protocoles d'évaluation adaptés au discours scientifique multilingue.

Le système développé facilitera non seulement la recherche multilingue, mais soutiendra également le développement de la terminologie, les pratiques de traduction et l'éducation multilingue. Il fournira des outils en libre accès aux éducateurs, aux chercheurs et aux décideurs politiques dans les communautés historiquement exclues du discours scientifique mondial. Grâce à la documentation et au partage open source, le projet favorise la reproductibilité et l'adoption dans d'autres contextes à faibles ressources.

Dates et durée

01/2026 – 12/2028 (36 mois)

Coordination et équipe scientifiques

Partenaire	Pays, ville	Responsable
Inalco (institution coordinatrice)	France, Paris	Valentina FEDCHENKO
Institut d'informatique de l'Académie des sciences de Slovaquie	Slovaquie, Bratislava	Milan RUSKO
Université de Constantine Philosophe (partenaire non financé)	Slovaquie, Nitra	Martin DIWEG-PUKANEC
Académie nationale pour la recherche pédagogique	Taïwan, Taipei	Ka-I LIM

Objectifs

Constituer et annoter des corpus scientifiques couvrant les domaines suivants : linguistique/philologie, médecine, mathématiques, géographie et jurisprudence.

Entraîner et déployer un système de recherche d’information scientifique interlingue permettant la recherche au niveau des documents et des passages.

Développer un moteur de cartographie et d’alignement terminologique capable d’apprendre les correspondances entre lexiques scientifiques.

Mener une évaluation centrée sur les utilisateurs, impliquant des experts de domaine et des linguistes.

Mettre à disposition l’ensemble des jeux de données, modèles et outils sous licence open source permissive.

Méthodologie

Création et enrichissement de corpus spécialisés multilingues.
Développement d’un système de recherche d’information interlinguistique.
Alignement terminologique et outils d’évaluation.
Pipelines d’adaptation de modèles (tokenisation, fine-tuning, évaluation) reproductibles.
Apprentissage contrastif et par recherche dense sur corpus scientifiques.
Intégration d’annotations terminologiques pour la précision conceptuelle.
Boucles de validation avec experts (human-in-the-loop).

Résultats attendus

• Plateforme centralisée de recherche scientifique interlinguistique.
• Architecture multi-agents pour le traitement distribué des contenus.
• Interfaces de requêtage multilingues.
• APIs pour l’intégration avec des bases de données scientifiques existantes.
• Méthodes transférables d’adaptation de modèles aux domaines scientifiques peu dotés.
• Protocoles d’évaluation pour la RI scientifique multilingue.

Livrables

• Corpus scientifiques normalisés dans 7 langues peu dotées.
• Modèles d’embeddings scientifiques spécialisés par langue.
• Graphes terminologiques multilingues reliant les concepts.
• Jeux de données de référence pour l’évaluation de la recherche d’information scientifique multilingue.
• Publications scientifiques (articles).

Mots-clefs

extraction d’information, RAG, littérature scientifique, langues moyennement dotées, alignement terminologique

Références

Fedchenko V. et al. (eds.). Elye Falkovitsh. Jiddisch. Phonetik, Graphemik, lexik und Grammatik. Düsseldorf : De Gruyter, 2024.

Yen-Chun Lai et al. Construction of Large Language Models for Taigi and Hakka Using Transfer Learning. 27th Conference of the Oriental COCOSDA, 2024.

Agence de financement

Agence nationale de la recherche (ANR) & CHIST-ERA - Appel à projets de l’ERA-NET "La science dans votre langue" (SOL)