Séminaire Théories et données linguistiques

Dates :
Vendredi 8 décembre 2023 - 14:30 - 17:30
Lieu :
INALCO-PLC, salle 3.11

Max Silberztein, Olena Saint-Joanis, Masako Watabe, Université de Franche-Comté

 

Max Silberztein, Université de Franche-Comté
Approches formelle et empirique pour l'analyse linguistique

Depuis une dizaine d'années, les méthodes empiriques sont à la mode, en partie grâce aux résultats spectaculaires produits par DeepMind AlphaZero, Google Translate, DeepL, Amazon Alexa, Apple SIRI, et plus récemment OpenAI ChatGPT. En conséquence, la plupart des collègues qui travaillent aujourd'hui sur des projets de TAL ou des Humanités Numériques suivent des approches empiriques, notamment en utilisant des corpus d'apprentissage utilisés comme des antisèches, plutôt que d'essayer de décrire les langues et comprendre leur fonctionnement.
 
En examinant les résultats produits par ces outils, ainsi que les données contenues dans les corpus d'apprentissage de référence, je montrerai les limites de l'approche empirique, présenterai quelques solutions linguistiques, et essaierai de convaincre les collègues que la meilleure approche pour résoudre tous les problèmes liés à l'utilisation de la langue est linguistique.
 
Max Silberztein, Ed. Linguistic Resources for Natural Language Processing: On the Necessity of Using Linguistic Methods to Develop NLP Software. Springer Nature Switzerland, 2024 (216 pages).
 

Max Silberztein, Université de Franche-Comté
Grammaire transformationnelle : le projet NooJ

NooJ est un environnement de développement utilisé pour décrire précisément des phénomènes linguistiques relevant d'une douzaine de niveaux, du niveau orthographique au niveau sémantique. NooJ offre aux linguistes des outils pour développer, tester, accumuler et entretenir des dictionnaires et des grammaires à large couverture. Une des caractéristiques principales de NooJ est que les descriptions à tous les niveaux peuvent être combinées, ce qui permet de produire des analyses complexes tenant compte de contraintes lexicales, distributionnelles, morphologiques, syntaxiques et sémantiques.
 
L'application phare de NooJ est l'analyse transformationnelle automatique au sens de Zellig Harris. Etant donnée une phrase complexe, NooJ permet alors de produire :
- l'analyse transformationnelle de cette phrase complexe, ex. :
Jean n'a jamais cessé d'être follement amoureux de Marie => Jean aime Marie + Adjectivation + Intensif + Aspect + Négation
- ou inversement, plusieurs millions d'énoncés potentiels construits à partir d'un prédicat élémentaire donné.
Je décrirai l'architecture de NooJ et montrerai des exemples de ressources linguistiques formalisées.
 
Max Silberztein, 2015, Formaliser les langues : l'approche de NooJ. ISTE : Londres. (425 pages).
 

Olena Saint-Joanis, Université de Franche-Comté
Ressources lexicales, morphologiques et syntaxiques pour l'ukrainien

Bien que l’intérêt pour la langue ukrainienne ait fortement augmenté ces dernières années, elle reste peu décrite et schématisée dans le monde occidental. Ainsi, la formalisation de l’ukrainien à travers un outil informatique fiable et motivé linguistiquement nous paraît un défi important.
Pour ce faire, nous avons sélectionné la plateforme NooJ qui permet d’importer des ressources existantes ou de créer ses propres ressources, telles que les dictionnaires ou les corpus annotés sans ambiguïtés et de faire diverses analyses. À ce jour, un certain nombre de ressources ukrainiennes pour NooJ sont déjà publiées en open-source sur le site Web de NooJ. Parmi elles sont :
-   un dictionnaire qui contient plus de 172 mille lemmes, lié aux fichiers qui contiennent des paradigmes et des dérivations et donc permet de générer les formes fléchies de toutes les classes variables et de relier les verbes perfectifs et imperfectifs ;
-   20 grammaires morphologiques qui produisent des lemmes et leurs formes fléchies absentes du dictionnaire ;
-   11 grammaires syntaxiques de désambiguïsation.
Dans cet exposé, j’expliquerai donc comment j’ai procédé pour créer ces ressources.
 

Masako Watabe, Université de Franche-Comté
Un dictionnaire polylectal pour le rromani

Aujourd’hui, la communication se réalise souvent par écrit et de façon digitale. Pourtant, les Rroms ne bénéficient pas pleinement de nouvelles technologies qui seraient adaptées à leur propre langue et communes à l’ensemble des locuteurs. Notre projet est d’élaborer des ressources linguistiques du rromani accessibles (téléchargeables) librement qui peuvent servir à l’ensemble des locuteurs. Comment les Rroms qui vivent dans différents pays et parlent différents dialectes peuvent-ils communiquer facilement par écrit sur internet ? Comment les locuteurs natifs et les apprenants du rromani peuvent-ils comprendre les corpus, y compris les variantes dialectales, sans en être perturbés ?
Nous avons décidé d’incorporer dans la plateforme NooJ (https://nooj.univ-fcomte.fr) un dictionnaire polylectal publié en papier (Courthiade, Marcel. et al. 2009) qui inclut les dialectes principaux du rromani et qui adopte l’alphabet rromani standardisé (défini par l’Union Rromani Internationale en 1990). Certaines informations lexicales et morphologiques du dictionnaire initial sont ambiguës ou insuffisamment précises pour être traitées par l'analyseur NooJ. Nous expliquerons la procédure de convertir les informations associées à chaque entrée du dictionnaire initial en codes de propriétés formalisés pour construire le dictionnaire électronique NooJ.
Nous avons reconnu 2559 noms, 830 adjectifs et 686 verbes parmi 4524 mots d’entrée du dictionnaire initial. L’étape actuelle est de définir un système d’étiquetage dialectal pour chacune de ces entrées.
 
 
 
Equipe de recherche :

Type : 

  • Séminaires doctoraux