EIIDA
EIIDA anglais
Études interdisciplinaires et interlinguistiques du discours académique − Corpus anglais
L’objectif du projet EIIDA est de comparer le discours scientifique écrit et oral, et d’interroger l’impact de la transmission directe sur le discours scientifique. L’étude interlinguistique porte sur la comparaison des discours académiques écrits et oraux (articles de recherche vs communications de congrès) en trois langues – anglais, français et espagnol – afin d’analyser l’impact de la culture linguistique de l’orateur/le scripteur dans ces deux modes de communication. Pour la comparaison interdisciplinaire, nous rassemblons des corpus en sciences exactes (géochimie) et en sciences humaines (linguistique). Les corpus en anglais et en français, dont les transcriptions ont été vérifiées, sont disponibles sur ScienQuest. Ce corpus contient les contenus en anglais.
Ce corpus contient 60 textes (289 235 mots).
EIIDA français
Études interdisciplinaires et interlinguistiques du discours académique − Corpus français
L’objectif du projet EIIDA est de comparer le discours scientifique écrit et oral, et d’interroger l’impact de la transmission directe sur le discours scientifique. L’étude interlinguistique porte sur la comparaison des discours académiques écrits et oraux (articles de recherche vs communications de congrès) en trois langues – anglais, français et espagnol – afin d’analyser l’impact de la culture linguistique de l’orateur/le scripteur dans ces deux modes de communication. Pour la comparaison interdisciplinaire, nous rassemblons des corpus en sciences exactes (géochimie) et en sciences humaines (linguistique). Les corpus en anglais et en français, dont les transcriptions ont été vérifiées, sont disponibles sur ScienQuest. Ce corpus contient les contenus en français.
Ce corpus contient 60 textes (349 476 mots).
Scientext
TALN
Actes de TALN
Le corpus TALN Archives a été collecté en 2013 par Florian Bourdin à partir des différents sites Web des conférences TALN et RÉCITAL (1997-2014). Il s'agit d'un corpus de textes au format pdf, accompagnés de méta-données (notice bibtex et résumé). Un sous-ensemble de 586 articles a ensuite été sélectionné et traité par Ludovic Tanguy, afin d'en extraire le texte intégral, et de l'analyser avec TALISMANE. Le corpus arboré ainsi obtenu contient 2,3 millions de tokens, annotés en parties du discours, en lemmes et en dépendances syntaxiques.
Ce corpus contient 586 textes (2 335 943 mots).
Textes d'évaluation
Corpus Scientext - Évaluations du colloque CÉDIL 2010
Ce corpus contient 520 commentaires évaluatifs de relecteurs pour un colloque de jeunes chercheurs en sciences du langage (Colloque international des Étudiants chercheurs en Didactique des Langues et en Linguistique, 2010).
Version 1.0 du corpus, constitué au LIDILEM par Françoise Boch et Achille Falaise, dans le cadre du projet ANR Scientext.
Annotation avec l'analyseur Syntex développé par Didier Bourigault.
Ce corpus contient 570 textes (34 805 mots).
Anglais langue étrangère
Corpus Scientext - Écrits en anglais langue étrangère
Ce corpus comporte des travaux d'apprenants universitaires français écrivant en anglais, principalement des étudiants de 2e et 3e année du cursus d'anglicistes apprenant à rédiger de textes argumentatifs longs (4500 mots) qui s'appuient sur des recherches documentaires approfondies.
Version 1.0 du corpus, constitué au LLS par John Osborne, Alice Henderson et Robert Barr, dans le cadre du projet ANR Scientext.
Annotation avec l'analyseur Syntex développé par Didier Bourigault.
Ce corpus contient 272 textes (1 020 146 mots).
Écrits scientifiques en anglais
Corpus Scientext - Écrits scientifiques en anglais
Ce corpus a été élaboré par l’équipe LiCorn de l’Université de Bretagne Sud (Geoffrey Williams, Chrystel Millon). Les textes proviennent de la maison d’édition indépendante BioMed Central et portent exclusivement sur la biologie et la médecine
Annotation avec l'analyseur Syntex développé par Didier Bourigault.
Ce corpus contient 7 564 textes (35 244 378 mots).
Écrits scientifiques en français
Corpus Scientext - Écrits scientifiques en français
Ce corpus a été conçu pour être représentatif des différents genres et disciplines scientifiques. Trois familles de disciplines sont incluses : les sciences humaines (la linguistique, la psychologie, les sciences de l’éducation et dans une certaine mesure, le traitement automatique des langues), les sciences expérimentales (biologie, médecine) et les sciences appliquées ou sciences pour l’ingénieur (électronique, mécanique), les frontières entre ces familles n’étant bien entendu pas étanches.
Annotation avec l'analyseur Syntex développé par Didier Bourigault.
Ce corpus contient 205 textes (5 063 315 mots).
Démo
Démo
Corpus de démonstration
Corpus en phase de test.
Ce corpus contient 903 textes (5 644 340 mots).
Presse
Est Républicain
Corpus du quotidien régional «l'Est Républicain» (1999-2003)
Ce corpus contient 58 numéros issus de la version 0.3 du corpus, normalisé par Bertrand Gaiffe et Kamel Nehbi sous la direction de Bertrand Gaiffe, distribué sous licence Creative Commons par le CNRTL.
Annotation pour ScienQuest avec MElt et Malt, entraînnés sur le French Treebank.
Ce corpus contient 58 textes (15 668 642 mots).
Le corpus (non annoté) est téléchargeable ici: http://www.cnrtl.fr/corpus/estrepublicain/
Les logiciels d'annotation sont téléchargeables ici: http://alpage.inria.fr/statgram/frdep/fr_stat_dep_malt.html
Est Républicain
Corpus du quotidien régional «l'Est Républicain» (1999-2003)
Ce corpus contient tous les numéros de la version 0.3 du corpus, normalisé par Bertrand Gaiffe et Kamel Nehbi sous la direction de Bertrand Gaiffe, distribué sous licence Creative Commons par le CNRTL.
Annotation pour ScienQuest avec MElt et Malt, entraînnés sur le French Treebank.
Ce corpus contient 8 894 textes (87 070 727 mots).
Le corpus (non annoté) est téléchargeable ici: http://www.cnrtl.fr/corpus/estrepublicain/
Les logiciels d'annotation sont téléchargeables ici: http://alpage.inria.fr/statgram/frdep/fr_stat_dep_malt.html
Tourisme
Wikivoyage
Wikivoyage
Corpus en phase de test.
Wikivoyage est un guide touristique sur le Web, rédigé de manière participative par des auteurs bénévoles, et dont le contenu est sous licence libre.
Annotation avec l'analyseur Talismane.
Ce corpus contient 639 textes (1 472 582 mots).