Contrat Post-doctoral/ Collaborateur scientifique sur le projet "ClingS: récupération d'information interlingue pour la littérature scientifique en langues moyennement dotées"
Type de contrat : Post-doctoral selon l’Article L412-4 du code de la recherche ou selon l’Article L332-2 du Code Général de la Fonction Publique.
1 poste à pourvoir
Contexte et objectifs du poste
L’Inalco est un établissement public unique au cœur du Nouveau quartier latin. Créé en 1795, il est le seul établissement public d’enseignement supérieur et de recherche au monde à proposer une offre de formation en langues et sciences humaines et sociales aussi riche et reconnue en France comme à l’international avec plus de 100 langues et civilisations enseignées.
L’Inalco enseigne auprès de 9 000 étudiants en formation initiale. L’Institut compte plus de 500 personnels.
Le recrutement s'effectue dans le cadre de la Chaire de Professeur Junior "Intelligence artificielle pour les langues rares ou peu dotées" dont l'Inalco est lauréat et du projet CHIST-ERA « ClingS : Récupération d’information interlingue pour la littérature scientifique en langues moyennement dotées ».
Ce projet vise à développer un système de recherche d'informations multilingue adapté à la littérature scientifique dans les langues sous-représentées. Il aborde les défis critiques des technologies linguistiques, notamment l'absence de jeux de données scientifiques annotés, le manque de modèles spécifiques à certaines langues pour les langues moins dotées en ressources et la prédominance de l'anglais dans la communication scientifique. Le projet se concentrera sur la construction de corpus comparables dans des domaines ciblés (linguistique, médecine, mathématiques, géographie et jurisprudence), la formation de modèles linguistiques adaptés au discours scientifique et leur alignement dans un espace d'intégration multilingue partagé. Ces modèles alimenteront un système de recherche qui permettra un accès structuré
à l'information dans toutes les langues, soutenu par la génération augmentée par la recherche (graph-RAG) et des architectures multi-agents.
Nous recherchons un(e) Post Doctorant(e) spécialisé(e) en linguistique de corpus et en corpus multilingue, avec une bonne expertise en linguistique générale, en contactes linguistiques, en annotation des corpus et contextes peu dotés.
Le candidat retenu travaillera dans le cadre du projet CHIST-ERA « ClingS : Récupération d’information interlingue pour la littérature scientifique en langues moyennement dotées » et la Chaire Professeur Junior "Intelligence artificielle pour les langues peu dotées", afin de faire progresser la recherche sur le les systèmes RAG multilingues et créer un système d’extraction d’information interlingue pour la littérature scientifique en langues moyennement dotées.
Missions et activités
Le chercheur recruté travaillera en étroite collaboration avec le titulaire de la Chaire « Intelligence artificielle pour les langues rares ou peu dotées » ainsi qu’avec l’équipe ERTIM (Équipe de Recherche Textes, Informatique, Multilinguisme) de l’INALCO, en particulier avec l’équipe du projet CLingS. Site web de l’ERTIM : https://www.inalco.fr/ertim
Le chercheur se concentrera sur :
- Développement de corpus : Constituer et annoter des corpus scientifiques couvrant les domaines suivants : linguistique/philologie, médecine, mathématiques, géographie et jurisprudence. Ces corpus contiendront au minimum entre 1 et 2 millions de tokens par langue, selon la disponibilité des données pour chaque langue, et incluront des métadonnées ainsi qu’une annotation terminologique.
- Participation à la conception d’une ressource s’inspirant de Perplexity.ai pour ces langues : envisager des cas d’usage, définir et réaliser des tests d’évaluation, analyser les erreurs et coordonner l’évaluation de l’outil avec des experts linguistiques.
- Contribution à l’organisation et participation à la campagne d’annotation des corpus multilingue du projet CLingS en entités nommées et en relations sémantiques.
- Validation du système développé par la communauté scientifique multilingue : Mener une évaluation centrée sur les utilisateurs, impliquant des experts de domaine et des linguistes.
Les activités scientifiques du ou de l’ingénieur(e) concerneront :
- Participation et assistance aux activités de la Chaire en intelligence artificielle pour les langues à faibles ressources.
- Organisation et participation à un événement scientifique (conférence d'une journée en mai 2026, ateliers) lié au projet de recherche et aux activités de la Chaire.
- Participation régulière aux activités scientifiques de l'ERTIM.
- Participation à la campagne d'annotation pour les données du projet.
- Publication d'un ou deux articles dans des revues à comité de lecture.
Compétences attendues
- Doctorat en linguistique générale, TAL, apprentissage automatique ou domaine connexe, obtenu avant janvier 2026.
- Expérience approfondie en linguistique de corpus.
- Familiarité avec la modélisation des langues peu dotées et les défis liés à la diversité linguistique.
- Expérience dans le travail avec une langue peu dotée.
- Compétences en programmation (Python, R).
- Excellentes compétences en rédaction scientifique.
Informations RH
- Type de contrat : Post-doctoral selon l’Article L412-4 du code de la recherche ou selon l’Article L332-2 du Code Général de la Fonction Publique d’une durée de 12 mois (renouvelable)
- Rémunération brute : 2 800 € brut mensuel
- Temps plein : 38h45 hebdomadaire
- 54 jours de congés payés annuels dont 2 périodes de fermeture obligatoire (3 semaines en été et 1 semaine à Noël) ;
- Tous les postes de l’Inalco sont ouverts aux personnes en situation de handicap ;
- Localisation du poste : Maison de la recherche Inalco, ERTIM, 2 rue de Lille, 75007, Paris ;
- Date de prise de poste souhaitée : à compter du 1 juin 2026.
Le dossier de candidature composé de :
- Une copie du diplôme de doctorat ou attestation de réussite.
- Une lettre de candidature expliquant leur intérêt et leur adéquation avec le poste.
- Un CV détaillé accompagné de la liste des publications.
Le dossier de candidature est à retourner sous forme électronique au plus tard le 8 avril 2026 aux adresses suivantes :
Mme Valentina Fedchenko, Chaire de Professeur junior : Voir l'e-mail et copie à Voir l'e-mail