Bienvenue sur ScienQuest

ScienQuest un logiciel permettant de consulter des corpus textuels structurés et annotés, d'y rechercher des mots, séquences de mots, ou arbres syntaxiques, et d'afficher les résultats sous forme de concordances KWIC ainsi que des fréquences lexicales. La plupart des corpus présents sur ScienQuest comportent des annotations en parties du discours, lemmes et dépendances syntaxiques, mais des corpus différents ne sont pas nécessairement annotés de la même manière.

Choisissez un corpus

Dans un premier temps, choisissez un corpus en fonction de la langue et du genre textuel que vous souhaitez étudier.
Pour chaque corpus, est indiqué un court descriptif, le nombre de textes et de mots qu'il contient, ainsi que le logiciel ayant servi à l'analyse.

Démo

Démo
fr
903 textes
6M mots
Talismane
Comparaison de 5 genres textuels: encyclopédie, littérature, presse, science, tourisme.
En savoir plus.

Scientext

TALN
fr
586 textes
2M mots
Talismane
Actes des conférences TALN et RÉCITAL (1997-2014). En savoir plus.
Textes d'évaluation
fr
570 textes
35k mots
Syntex
Commentaires évaluatifs de relecteurs pour le colloque de jeunes chercheurs en sciences du langage CÉDIL (Colloque international des Étudiants chercheurs en Didactique des Langues et en Linguistique, 2010). En savoir plus.
Anglais langue étrangère
en
272 textes
1M mots
Syntex
Travaux d'apprenants universitaires français écrivant en anglais, principalement des étudiants de 2e et 3e année du cursus d'anglicistes apprenant à rédiger de textes argumentatifs longs (4500 mots) qui s'appuient sur des recherches documentaires approfondies.
En savoir plus.
Écrits scientifiques en anglais Version:
en
8k textes
43M mots
Syntex
Textes de biologie et de médecine de la maison d’édition indépendante BioMed Central.
En savoir plus.
Écrits scientifiques en français
fr
205 textes
6M mots
Syntex
Ce corpus a été conçu pour être représentatif des différents genres et disciplines scientifiques. En savoir plus.

Discours académique

EIIDA anglais
en
60 textes
332k mots
TreeTagger/Susanne
Corpus comparable de communications écrites et de transcriptions de conférences en linguistique et géochimie. En savoir plus.
EIIDA français
fr
60 textes
410k mots
TreeTagger/PERCEO
Corpus comparable de communications écrites et de transcriptions de conférences en linguistique et géochimie. En savoir plus.

Masse textuelle

frWaC
fr
1 textes
1G mots
Mind the gap
Corpus construit automatiquement à partir des sites Web du domaine fr. En savoir plus.

Presse

Est Républicain Version:
fr
9k textes
87M mots
Talismane
Les 8894 numéros de la version 0.3 du Corpus du Journal de l'Est Républicain.
En savoir plus.

Tourisme

Wikivoyage
fr
639 textes
1M mots
Talismane
Corpus en phase de test.
Wikivoyage est un guide touristique sur le Web, rédigé de manière participative par des auteurs bénévoles.
En savoir plus.