ScienQuest

Attention, ScienQuest n'est testé qu'avec Firefox.

Scientext

TALN

Actes de TALN

Le corpus TALN Archives a été collecté en 2013 par Florian Bourdin à partir des différents sites Web des conférences TALN et RÉCITAL (1997-2014). Il s'agit d'un corpus de textes au format pdf, accompagnés de méta-données (notice bibtex et résumé). Un sous-ensemble de 586 articles a ensuite été sélectionné et traité par Ludovic Tanguy, afin d'en extraire le texte intégral, et de l'analyser avec TALISMANE. Le corpus arboré ainsi obtenu contient 2,3 millions de tokens, annotés en parties du discours, en lemmes et en dépendances syntaxiques.

Ce corpus contient 586 textes (2 335 943 mots).

Corpus sélectionné, cliquez sur l'onglet « Recherche » pour l'explorer.

Textes d'évaluation

Corpus Scientext - Évaluations du colloque CÉDIL 2010

Ce corpus contient 520 commentaires évaluatifs de relecteurs pour un colloque de jeunes chercheurs en sciences du langage (Colloque international des Étudiants chercheurs en Didactique des Langues et en Linguistique, 2010).

Version 1.0 du corpus, constitué au LIDILEM par Françoise Boch et Achille Falaise, dans le cadre du projet ANR Scientext.

Annotation avec l'analyseur Syntex développé par Didier Bourigault.

Ce corpus contient 570 textes (34 805 mots).

Corpus sélectionné, cliquez sur l'onglet « Recherche » pour l'explorer.

Anglais langue étangère

Corpus Scientext - Écrits en anglais langue étangère

Ce corpus comporte des travaux d'apprenants universitaires français écrivant en anglais, principalement des étudiants de 2e et 3e année du cursus d'anglicistes apprenant à rédiger de textes argumentatifs longs (4500 mots) qui s'appuient sur des recherches documentaires approfondies.

Version 1.0 du corpus, constitué au LLS par John Osborne, Alice Henderson et Robert Barr, dans le cadre du projet ANR Scientext.

Annotation avec l'analyseur Syntex développé par Didier Bourigault.

Ce corpus contient 272 textes (1 020 146 mots).

Corpus sélectionné, cliquez sur l'onglet « Recherche » pour l'explorer.

Écrits scientifiques en anglais

Corpus Scientext - Écrits scientifiques en anglais

Ce corpus a été élaboré par l’équipe LiCorn de l’Université de Bretagne Sud (Geoffrey Williams, Chrystel Millon). Les textes proviennent de la maison d’édition indépendante BioMed Central et portent exclusivement sur la biologie et la médecine

Annotation avec l'analyseur Syntex développé par Didier Bourigault.

Ce corpus contient 7 564 textes (35 244 378 mots).

Corpus sélectionné, cliquez sur l'onglet « Recherche » pour l'explorer.

Écrits scientifiques en français

Corpus Scientext - Écrits scientifiques en français

Ce corpus a été conçu pour être représentatif des différents genres et disciplines scientifiques. Trois familles de disciplines sont incluses : les sciences humaines (la linguistique, la psychologie, les sciences de l’éducation et dans une certaine mesure, le traitement automatique des langues), les sciences expérimentales (biologie, médecine) et les sciences appliquées ou sciences pour l’ingénieur (électronique, mécanique), les frontières entre ces familles n’étant bien entendu pas étanches.

Annotation avec l'analyseur Syntex développé par Didier Bourigault.

Ce corpus contient 205 textes (5 063 315 mots).

Corpus sélectionné, cliquez sur l'onglet « Recherche » pour l'explorer.

Presse

Est Républicain

Corpus du quotidien régional «l'Est Républicain» (1999-2003)

Ce corpus contient 58 numéros issus de la version 0.3 du corpus, normalisé par Bertrand Gaiffe et Kamel Nehbi sous la direction de Bertrand Gaiffe, distribué sous licence Creative Commons par le CNRTL.

Annotation pour ScienQuest avec MElt et Malt, entraînnés sur le French Treebank.

Ce corpus contient 58 textes (15 668 642 mots).

Le corpus (non annoté) est téléchargeable ici: http://www.cnrtl.fr/corpus/estrepublicain/

Les logiciels d'annotation sont téléchargeables ici: http://alpage.inria.fr/statgram/frdep/fr_stat_dep_malt.html

Corpus sélectionné, cliquez sur l'onglet « Recherche » pour l'explorer.