À propos: EIIDA français

Corpus comparable de communications écrites et de transcriptions de conférences en linguistique et géochimie.

Description

Le projet d’Étude interdisciplinaire et interlinguistique du discours académique (EIIDA) fut piloté Shirley Carter-Thomas et Jeanne-Marie Debaisieux (LATTICE) et financé dans le cadre du LABEX TransferS (janvier 2012 à décembre 2014). Ont aussi participé au projet : Saliha Ben Chikh, Gregory Furmaniak, Elsa Pic (LATTICE/Paris 3), Lolita Bérard, Clive Hamilton, Noalig Tanguy (LATTICE), Céline Poudat (LDI/Paris 13), Emmanuelle Esperança-Rodiez (LIG/UGA), Laura Hartwell, Marie-Paule Jacques (Lidilem/UGA), Elizabeth Rowley-Jolivet (LLL/Université d’Orléans), Fanny Rinck (Modyc/Paris 10), Anna López Samaniego, Raquel Taranilla (Université de Barcelone, Espagne), Kjersti Flottum (Université de Bergen, Norvège), Luis Gonzalez.

Ce projet a donné lieu à des publications et le corpus comparable EIIDA. Pour chaque langue (français, anglais, espagnol) le groupe a collecté 60 textes répartis en deux domaines : « Géochimie » (15 publications et 15 communications orales transcrites) et « Linguistique générale » (15 publications et 15 communications orales transcrites). Hormis une partie des données de l’espagnol, l’ensemble du corpus oral a été transcrit et corrigé et saisi en XML. Les transcriptions ont été vérifiées et amendées par au moins deux chercheurs afin d’en garantir la validité. Les textes écrits ont été convertis et harmonisés en termes de format (traitement des figures, traitement des notes de bas de page). Les annotations concernent le découpage textuel en sections majeures : introduction, texte, conclusion et en sous-section (titres, intertitres). Compte tenu des objectifs de la recherche, certains segments ont donné lieu à un balisage spécifique : citations, exemples, emplois métalinguistiques, caractéristiques typographiques. La partie orale (300.000 mots) correspond à une vingtaine d’heures d’enregistrement et constitue un des premiers corpus oral multilingue de données académiques. Nous remercions John Swales et Ute Römer pour la permission d’incorporer des transcrits du corpus John Swales Conference Corpus.

Laura Hartwell et Achille Falaise (LIG/UGA) ont cordonné sa mise en place sur ScienQuest avec l’assistance d’Agnès Tutin (Lidilem/UGA). Alice Henderson (Lidilem/UGA) a coordonné un financement CORLI permettant Adrien Méli et Nicolas Balliertravaille d’incorporer des annotations phonologiques au corpus en anglais.

Sélection de publications

  • Carter-Thomas S. & M.P. Jacques (Eds). 2017. CHIMERA. Romance Corpora and Linguistic Studies, https://revistas.uam.es/index.php/chimera/issue/view/679
  • Voir aussi : Grossmann, F., M. Luodonpää-Manni & A. Tutin (Eds). (En cours). Les routines discursives dans le discours scientifique oral et écrit. Grenoble : Presses Universitaires de Grenoble.