Bienvenue sur ScienQuest

ScienQuest est un site Web permettant de consulter des corpus textuels structurés et annotés, sans être spécialiste du traitement automatique des langues. Sur ScienQuest, vous pouvez rechercher en corpus des mots, séquences de mots, ou arbres syntaxiques, et afficher les résultats soit sous forme de concordances KWIC, soit sous forme de tables de fréquences lexicales.

La plupart des corpus présents sur ScienQuest comportent des annotations en parties du discours, lemmes et dépendances syntaxiques, mais dans le détail chaque corpus est différent.

Vous débutez ? Pour commencer, sélectionnez un corpus ! Essayez le corpus Démo.
Démo
Comparaison de 5 genres textuels: encyclopédie, littérature, presse, science, tourisme.
Comere GETALP
Comere Intermitents
Corpus #Intermittent, tweets liés à un événement discursif controversé.
CoMeRe SMSAlpes
Alpes4science, corpus de SMS réels dans les Alpes
CoMeRe WikiConflicts
Conflits dans le Wikipédia francophone
Discours académique − EIIDA anglais
Corpus comparable de communications écrites et de transcriptions de conférences en linguistique et géochimie.
Discours académique − EIIDA français
Corpus comparable de communications écrites et de transcriptions de conférences en linguistique et géochimie.
Est Républicain
Les 8894 numéros de la version 0.3 du Corpus du Journal de l'Est Républicain.
frWaC
Corpus construit automatiquement à partir des sites Web du domaine fr.
OpenSubtitles − OpenSubs-en
Échantillon du corpus OpenSubtitles d'Opus.
OpenSubtitles − OpenSubs-es
Échantillon du corpus OpenSubtitles d'Opus.
OpenSubtitles − OpenSubs-fr
Échantillon du corpus OpenSubtitles d'Opus.
OpenSubtitles − OpenSubs-ro
Échantillon du corpus OpenSubtitles d'Opus.
OpenSubtitles − OpenSubs-zh
Échantillon du corpus OpenSubtitles d'Opus.
Scientext − Textes d'évaluation
Commentaires évaluatifs de relecteurs pour le colloque de jeunes chercheurs en sciences du langage CÉDIL (Colloque international des Étudiants chercheurs en Didactique des Langues et en Linguistique, 2010).
Scientext − Anglais langue étrangère
Travaux d'apprenants universitaires français écrivant en anglais, principalement des étudiants de 2e et 3e année du cursus d'anglicistes apprenant à rédiger de textes argumentatifs longs (4500 mots) qui s'appuient sur des recherches documentaires approfondies.
Scientext − Écrits scientifiques en anglais
Textes de biologie et de médecine de la maison d’édition indépendante BioMed Central.
Scientext − Écrits scientifiques en français
Ce corpus a été conçu pour être représentatif des différents genres et disciplines scientifiques.
TALN
Actes des conférences TALN et RÉCITAL (1997-2014).
Wikivoyage
Corpus en phase de test.
Wikivoyage est un guide touristique sur le Web, rédigé de manière participative par des auteurs bénévoles.