Scientext
TALN
Actes de TALN
Le corpus TALN Archives a été collecté en 2013 par Florian Bourdin à partir des différents sites Web des conférences TALN et RÉCITAL (1997-2014). Il s'agit d'un corpus de textes au format pdf, accompagnés de méta-données (notice bibtex et résumé). Un sous-ensemble de 586 articles a ensuite été sélectionné et traité par Ludovic Tanguy, afin d'en extraire le texte intégral, et de l'analyser avec TALISMANE. Le corpus arboré ainsi obtenu contient 2,3 millions de tokens, annotés en parties du discours, en lemmes et en dépendances syntaxiques.
Ce corpus contient 586 textes (2 335 943 mots).
Textes d'évaluation
Corpus Scientext - Évaluations du colloque CÉDIL 2010
Ce corpus contient 520 commentaires évaluatifs de relecteurs pour un colloque de jeunes chercheurs en sciences du langage (Colloque international des Étudiants chercheurs en Didactique des Langues et en Linguistique, 2010).
Version 1.0 du corpus, constitué au LIDILEM par Françoise Boch et Achille Falaise, dans le cadre du projet ANR Scientext.
Annotation avec l'analyseur Syntex développé par Didier Bourigault.
Ce corpus contient 570 textes (34 805 mots).
Anglais langue étangère
Corpus Scientext - Écrits en anglais langue étangère
Ce corpus comporte des travaux d'apprenants universitaires français écrivant en anglais, principalement des étudiants de 2e et 3e année du cursus d'anglicistes apprenant à rédiger de textes argumentatifs longs (4500 mots) qui s'appuient sur des recherches documentaires approfondies.
Version 1.0 du corpus, constitué au LLS par John Osborne, Alice Henderson et Robert Barr, dans le cadre du projet ANR Scientext.
Annotation avec l'analyseur Syntex développé par Didier Bourigault.
Ce corpus contient 272 textes (1 020 146 mots).
Écrits scientifiques en anglais
Corpus Scientext - Écrits scientifiques en anglais
Ce corpus a été élaboré par l’équipe LiCorn de l’Université de Bretagne Sud (Geoffrey Williams, Chrystel Millon). Les textes proviennent de la maison d’édition indépendante BioMed Central et portent exclusivement sur la biologie et la médecine
Annotation avec l'analyseur Syntex développé par Didier Bourigault.
Ce corpus contient 7 564 textes (35 244 378 mots).
Écrits scientifiques en français
Corpus Scientext - Écrits scientifiques en français
Ce corpus a été conçu pour être représentatif des différents genres et disciplines scientifiques. Trois familles de disciplines sont incluses : les sciences humaines (la linguistique, la psychologie, les sciences de l’éducation et dans une certaine mesure, le traitement automatique des langues), les sciences expérimentales (biologie, médecine) et les sciences appliquées ou sciences pour l’ingénieur (électronique, mécanique), les frontières entre ces familles n’étant bien entendu pas étanches.
Annotation avec l'analyseur Syntex développé par Didier Bourigault.
Ce corpus contient 205 textes (5 063 315 mots).
Est Républicain
Est Républicain
Corpus du quotidien régional «l'Est Républicain» (1999-2003)
Ce corpus contient quelques textes issus de la version 0.3 du corpus, normalisé par Bertrand Gaiffe et Kamel Nehbi sous la direction de Bertrand Gaiffe, distribué sous licence Creative Commons par le CNRTL.
Annotation avec MElt et Malt, entraînnés sur le French Treebank.
Ce corpus contient 22 textes (5 655 742 mots).
Le corpus (non annoté) est téléchargeable ici: http://www.cnrtl.fr/corpus/estrepublicain/
Les logiciels d'annotation sont téléchargeables ici: http://alpage.inria.fr/statgram/frdep/fr_stat_dep_malt.html