Appel à communications : Colloque international "La linguistique de l’oral spontané à travers les langues : création, annotation et analyse de corpus, segmentation du discours"

Le Centre de recherches Europes-Eurasie (Inalco) lance l'appel à communication pour le colloque international : « La linguistique de l’oral spontané à travers les langues : création, annotation et analyse de corpus, segmentation du discours », qui se déroulera les 23 et 24 mai 2024 par l’Inalco. Date limite de soumission des contributions : le 15 janvier 2024.
2 personnes dessinées en bleu
Date limite :
Lundi, 15 janvier, 2024
Equipe de recherche :
  • Colloque international : « La linguistique de l’oral spontané à travers les langues : création, annotation et analyse de corpus, segmentation du discours »

  • Lieu : Inalco - Pôle des Langues et Civilisations - 65 rue des Grands Moulins, Paris 13ème et Maison de la Recherche de l'Inalco - 2, rue de Lille, Paris 7ème

  • Dates : 23 et 24 mai 2024


Ce colloque a pour objectif de mettre en dialogue des approches linguistiques ou psycho-/sociolinguistiques qui abordent la langue et le discours oral spontané, monologal ou en interaction, à travers la question de la constitution et l’analyse de corpus oraux, qui pose des problèmes spécifiques et différents de ceux rencontrés pour les corpus de langue écrite. En effet, alors qu’il existe de nombreux corpus de langue écrite, s’appuyant parfois sur les quantités considérables de données rendues disponibles par internet, les ressources pour l’oral restent encore modestes, particulièrement pour l’oral spontané dans les interactions quotidiennes, qu’elles soient spécialisées (interactions médecin-patient, interactions en classe, interactions dans les institutions et les commerces) ou non : conversations en famille ou entre amis, sans enjeux particuliers (small talk, débats de la vie quotidienne, disputes, échange de nouvelles et d’expériences), ou avec des enjeux privés (inviter quelqu’un, se mettre d’accord sur quelque chose). Nous disposons évidemment d’un certain nombre de ressources de langage oral à travers les émissions de radio et la télévision (entretiens, interviews, débats), les ressources d’internet (sites d’hébergement de vidéos, réseaux sociaux), ou à travers la production cinématographique (films ou séries), avec, pour cette dernière, la question de la correspondance entre les interactions fictionnelles écrites et scénarisées et les interactions réelles. Un certain nombre de ces matériaux peuvent être aujourd’hui mis à disposition et exploités rapidement, même si cela est limité par des questions de droit. Mais il s’agit d’interactions d’un type assez différent, dans lequel on peut avoir une certaine asymétrie entre le rôle du journaliste/présentateur/modérateur, dont la parole, généralement guidée par des prompteurs, est souvent limitée à des questions ou des commentaires, et qui sert de prétexte à la prise de parole d’invités, dont la parole est privilégiée. Tous ces matériaux, si utiles soient-ils, laissent de côté tous ces aspects de la prise de parole spontanée quotidienne que nous avons évoqués.

La faible représentation de ces interactions du quotidien dans les corpus, en dépit du fait qu’elles représentent, pour la plupart d’entre nous, la part essentielle de notre utilisation du langage au cours d’une journée, n’est pas dû seulement au biais linguistique en faveur de l’écrit, dénoncé par certains linguistes (Linell 2005) et qui relève d’une certaine idéologie (poids de la grammaire normative, prestige de la tradition écrite dans les langues dominantes, etc.). Le problème est aussi pratique : l’obtention de données est difficile, car ces interactions du quotidien se laissent difficilement saisir. Par ailleurs, plus que dans les interactions médiatiques, se pose la question de l’enregistrement des données, de la transcription, pour laquelle il existe plusieurs normes concurrentes, des données pertinentes à prendre en compte (métadonnées des interactions, informations verbales, prosodiques, multimodales) et on se rend compte que ces questions sont déjà chargées d’enjeux théoriques. Cette difficulté rend difficile l’automatisation de la transcription de corpus et, contribue aussi à la lenteur dans la constitution de corpus oraux de grande taille.

Par ailleurs, une autre question, loin d’être résolue et lié à la précédente, est celle de la segmentation du discours en unités. Si le corpus écrit présente généralement déjà une segmentation préalable, celle donnée par la ponctuation, qui permet d’identifier des segments, tels que les a choisis le scripteur (même s’il faut aussi se poser la question de la nature réelle de ces unités), toute personne ayant travaillé sur l’oral sait très bien que celui-ci ne se prête pas à un découpage aussi discipliné et que la ponctuation n’est pas un bon modèle pour rendre compte de sa segmentation. Cela a même conduit certains auteurs à parler d’une macro-syntaxe (Groupe de Fribourg 2012) ou d’une syntaxe thétique (Kaltenböck, Heine, et Kuteva 2011), distincte dans la syntaxe de la proposition/clause, organisée autour des relations prédicats arguments. Si la segmentation du discours doit s’appuyer sur des marques formelles (intonation, pauses et variations de rythme, marqueurs discursifs, constructions syntaxiques spécialisées), elle suppose aussi que l’on identifie le rôle sémantique, pragmatique et discursif de chacune des unités, aussi bien à l’intérieur des parties monologiques, appelées « tours de paroles » dans la tradition de l’Analyse Conversationnelle, ou « interventions » (Sinclair et Coulthard 1975; Roulet et al. 2001) que dans l’enchaînement dialogal ou polylogal de ces parties monologiques, sans méconnaître le fait que les chevauchements et interruptions ne rendent pas ces enchaînements totalement étanches. Ces dernières années, de nombreux travaux ont tenté d’énumérer et de décrire ces unités de segmentation (Cortés Rodríguez et Camacho Adarve 2005; Fuentes Rodríguez 2007; Dehé 2014; Heine 2023), sans que l’on ait encore atteint un certain degré d’accord sur le nombre d’unités pertinentes et leur rôle. De façon assez similaire, certains modèles du discours (Pop 2000; 2005; Roulet et al. 2001) voient celui-ci comme une espèce de mille-feuilles, dans lequel sont exprimés des informations très diverses (jugements épistémiques ou évidentiels, commentaires métalinguistiques ou métadiscursifs, réactions émotionnelles, marques phatiques, organisation du discours ou de l’interaction, polyphonie…), en montrant que l’hétérogénéité l’emporte sur la capacité à distinguer des unités formant un tout homogène et s’enchainant de façon disciplinée, telles que la phrase.

Malgré leur grand intérêt, théorique autant que pratique, nous laisserons de côté la question de la constitution du corpus (choix des participants, questions éthiques et légales, sélection des métadonnées nécessaires et suffisantes).

- Questions abordées dans le colloque :
  • Questions de transcriptions : quel type de transcription utiliser ? Pour quelle fin ? Peut-on imaginer une transcription multiple en fonction des besoins (par exemple une transcription phonétique/phonologique, ou une transcription orthographique adaptée) ? Quelle transcription pour l’intonation ? Pour les informations multimodales ? Faut-il privilégier dans la multimodalité ce qui constitue une information sciemment recherchée (certains gestes signifiants, un clin d’œil) ou noter aussi des aspects de la multimodalité qui fournissent des informations incontrôlées (marques d’émotions, de nervosité) ? Quelle place accorder aux activités concomitantes sans valeur communicatives (par ex. les interlocuteurs préparent le repas tout en discutant, l’activité n’est pas évoquée dans le discours ou seulement en passant, mais peut entraîner des interruptions à l’intérieur de la communication) ?
  • Segmentation du discours : combien d’unités faut-il reconnaître ? Quelles sont les unités minimales du discours : des phrases, des énoncés, des actes ? Faut-il poser l’existence d’une autre syntaxe à côté de la syntaxe propositionnelle, basée autour de la relation prédicat-arguments, ou bien peut-on accommoder la plupart voire l’intégralité des unités dans une même syntaxe à plusieurs niveaux, distincts du point de vue paradigmatique, mais liés du point de vue syntagmatique ? Quels sont les corrélats sémantiques, pragmatiques, discursifs de ces unités ? A quel point la syntaxe du discours oral diffère-t-elle de celle de l’écrit ?
  • Cohérence et cohésion du discours oral : la segmentation du discours en unités doit être complétée par la question de la relation entre ces unités dans le cadre plus large du discours. On peut voir les relations de cohérence à deux niveaux : la contribution des unités à la cohérence à l’intérieur d’un tour de parole (relations rhétoriques/communicatives, constitution de séquences) et entre les tours de paroles (relations illocutoires, phatiques, relations de politesse/impolitesse).
  • Annotation du discours oral. En lien avec l’ensemble des questions qui précèdent se pose la question de l’annotation : quel type d’annotation utiliser ? Faut-il, par exemple, distinguer, les relations à l’intérieur et à l’extérieur du tour, comme nous l’avons suggéré plus haut ? Dans quelle mesure une telle annotation pourrait-elle être automatisée ? Doit-elle s’appuyer sur des systèmes experts ou peut-on imaginer d’autres formes d’apprentissage automatique ?

- Modalités de soumission

Les langues du colloque sont le français et l’anglais.

Les propositions, rédigées dans l’une des deux langues, ne dépasseront pas 500 mots, titre compris (à l’exclusion d’éventuelles figures ou tables et d’une bibliographie succincte [10 références maximum]), en deux versions, l’une anonymisée et l’autre non. Dans la version non-anonyme, elles comporteront également les noms, adresses électroniques et l’Université de rattachement des autrices/auteurs, des mots clés, ainsi qu’une notice bio-bibliographique. Elles seront envoyées en format Word et PDF avant le 15 janvier 2024 aux adresses suivantes :  corpusconf2024@gmail.com et colloquecorpusmai2024@gmail.com.

- Calendrier
  • Jusqu’au 15 janvier 2024 : réception des propositions ;
  • Jusqu’au 1er mars 2024 : communication du résultat de l’évaluation des propositions.
  • Jeudi 23 mai et vendredi 24 mai 2024 : tenue du Colloque.

- Comité scientifique :
  • Olga Artyushkina, Université Jean Moulin Lyon 3
  • Angelina Biktchourina, Inalco
  • Outi Duvallon, Inalco
  • Elena Graf, Université Louis-et-Maximilien de Munich
  • Sylvie Hanote, Université de Poitiers
  • Victoria Khurshudyan, Inalco
  • Renata Krupa, Université Jean Moulin Lyon 3
  • Svetlana Krylosova, Inalco
  • Mariya Lyakhova, Université Jean Moulin Lyon 3
  • Pierre-Yves Modicom, Université Jean Moulin Lyon 3
  • Thierry Ruchot, Université Caen Normandie
 
- Comité d’organisation :
  • Olga Artyushkina, CEL Université Jean Moulin Lyon 3
  • Angelina Biktchourina, CREE Inalco
  • Thierry Ruchot, CRISCO Université Caen Normandie
 
- Bibliographie
  • Cortés Rodríguez, Luis, et María Matilde Camacho Adarve. 2005. Unidades de segmentación y marcadores del discurso: elementos esenciales en el procesamiento discursivo oral. Madrid, Espagne: Arco Libros.
  • Dehé, Nicole. 2014. Parentheticals in spoken English: the syntax-prosody relation. Cambridge, Royaume-Uni de Grande-Bretagne et d’Irlande du Nord: Cambridge University Press.
  • Fuentes Rodríguez, Catalina. 2007. Sintaxis del enunciado: los complementos periféricos. Madrid, Espagne: Arco.
  • Groupe de Fribourg. 2012. Grammaire de la période. Bern, Suisse, Allemagne, Belgique: Peter Lang.
  • Heine, Bernd. 2023. The grammar of interactives. New York: Oxford University Press.
  • Kaltenböck, Gunther, Bernd Heine, et Tania Kuteva. 2011. « On Thetical Grammar ». Studies in Language 35 (4): 852‑97. https://doi.org/10.1075/sl.35.4.03kal.
  • Linell, Per. 2005. The written language bias in linguistics: its nature, origins and transformations. London, Royaume-Uni de Grande-Bretagne et d’Irlande du Nord, Etats-Unis d’Amérique.
  • Pop, Liana. 2000. Espaces discursifs: pour une représentation des hétérogénéités discursives. Louvain, Belgique, France.
  • ———. 2005. La grammaire graduelle, à une virgule près. Bern, Suisse, Pays multiples.
  • Roulet, Eddy, Laurent Filliettaz, Anne Grobet, et Marcel Burger. 2001. Un modèle et un instrument d’analyse de l’organisation du discours. Bern, Suisse.
  • Sinclair, John M., et Malcolm Coulthard. 1975. Towards an analysis of discourse: the English used by teachers and pupils. London, Royaume-Uni de Grande-Bretagne et d’Irlande du Nord: Oxford University Press.
Ecriture sur fond bleu