À propos du corpus Écrits scientifiques en français

Ce corpus a été conçu pour être représentatif des différents genres et disciplines scientifiques.

Description

Trois familles de disciplines sont incluses : les sciences humaines (la linguistique, la psychologie, les sciences de l’éducation et dans une certaine mesure, le traitement automatique des langues), les sciences expérimentales (biologie, médecine) et les sciences appliquées ou sciences pour l’ingénieur (électronique, mécanique), les frontières entre ces familles n’étant bien entendu pas étanches.

Annotation avec l'analyseur Syntex développé par Didier Bourigault.

Pour étudier les points linguistiques que nous souhaitions explorer, le raisonnement et le positionnement de l’auteur, nous avons constitué pour le français un corpus d’écrits scientifiques diversifié, aussi bien en ce qui concerne le sous-genre (articles scientifiques, communications écrites, thèses ou mémoires d’habilitation à diriger des recherches) que les disciplines. Nous avons sélectionné des disciplines qui nous paraissaient représentatives et pour lesquelles les écrits étaient facilement disponibles.

Trois familles de disciplines sont incluses : les sciences humaines (linguistique, psychologie, sciences de l’éducation et traitement automatique des langues), les sciences expérimentales (biologie, médecine) et les sciences appliquées ou sciences pour l’ingénieur (électronique, mécanique). Les sous-genres sélectionnés intègrent des articles de recherche, des communications écrites à des colloques, des thèses de doctorat et des mémoires d’habilitation à diriger les recherches . Le corpus public comporte 4,8 millions de mots.

Ce corpus est disponible pour une utilisation destinée exclusivement à la recherche non commerciale, sous licence Creative Commons, à condition de mentionner la source et le projet ANR, après signature d’une convention.

Format
XML - TEI
Contact
Agnès Tutin