À propos de ScienQuest

Qu'est-ce que ScienQuest ?

ScienQuest est un outil d'exploitation de corpus annotés (en parties du discours, lemmes et dépendances syntaxiques) simple à utiliser, pour des utilisateurs non spécialistes du TALN. Il s'agit d'un outil en ligne, ne nécessitant aucune installation, mais limité aux corpus présents sur la plateforme (on ne peut pas importer son propre corpus). La plupart de ces corpus sont actuellement des corpus de textes scientifiques, français et anglais.

Citer ScienQuest

Pour mentionner ScienQuest dans une publication, vous pouvez utiliser la référence suivante:

Achille Falaise, Agnès Tutin, Olivier Kraif (2011). « Une interface pour l'exploitation de corpus arborés par des non informaticiens : la plate-forme ScienQuest du projet Scientext », Revue TAL, Volume 52 – n° 3/2011, pages 103 à 128, 2011. [Lien] [HAL]

N'oubliez-pas de citer aussi le corpus que vous utilisez !

Histoire

Le développement de ScienQuest a débuté en 2008, dans le cadre du projet Scientext (projet ANR dirigé par Agnès Tutin et Francis Grossmann, LIDILEM, U. Grenoble-3).

Contributions

Développement et maintenance de la plateforme: Achille Falaise

Version anglaise du site: Melanie Wilkos et Laura Hartwell pour les parties bien écrites; Achille Falaise là où il y a des fautes...

Évaluation et conseils: plein de monde !

Les auteurs des corpus libres utilisés dans ScienQuest sont indiqués dans l'onglet corpus.

Contact

Achille Falaise, achille.falaiseuniv-paris-diderot.fr

Ressources

Hébergement

So you start

Serveur

GNU/Linux −

Debian

Apache

MariaDB

PHP
Mustache, GraphViz

Client

JQUery, DataTables, Flot, CodeMirror

Images

Statistiques d'utilisation

Ces statistiques sont mises à jour toutes les 24h.

Mois	Sess.^(*)	Pays^(**)	Régions^(**)	Corpus

(*) Sessions comportant au moins une recherche dans un corpus; les robots et les internautes égarés sur ScienQuest ne sont donc pas comptabilisés.

(**) Pays et régions comptabilisant au moins 5 sessions dans le mois, identifiés par l'adresse IP et la base GeoLite. Cette information n'est pas toujours disponible.

Journal des modifications

Mise à jour d'octobre 2019

Bugs corrigés:
- Bug d'affichage des contextes élargis et des arbres syntaxiques.

Mise à jour de mai 2019

Bugs corrigés:
- Bug d'affichage des collections de corpus dans Chromium.
- L'optimisation effectuée en mars ("La mémoire attribuée aux jointures est calculée à la volée en fonction de la mémoire libre.") n'était plus active.

Mise à jour d'avril 2019

Bugs corrigés:
- Le chien de garde ne redémarrait pas MySQL après avoir fait le ménage.
- On peut refaire une requête qui n'a pas donné de résultat dans le temps imparti (sqlTimeout), par exemple parce qu'elle a planté.

Mise à jour de mars 2019

Bugs corrigés:
- Correction d'un bug de corruption du cache de requêtes.
Optimisation:
- La mémoire attribuée aux jointures est calculée à la volée en fonction de la mémoire libre.

Mise à jour de février 2019

Bugs corrigés:
- Correction d'un bug d'affichage pour les mots n'ayant pas de traits morpho-syntaxiques.
- Correction d'un bug d'affichage pour les parties ne comportant que deux phrases.
- Dans les stats, on n'affiche que les types de stats pour lesquelles il y a plusieurs résultats.
- Suppression des graphiques pour les statistiques sur les formes, les lemmes, et les POS. À la place, on affiche des barres de pourcentage dans le tableau.
- Dans les concordances, la colonne centrale n'affichait pas toujours correctement l'occurrence.
- Ordre des mots parfois erroné dans le contexte droit des concordances.
Corpus:
- Mise en forme du corpus frwac.
- Mise en ligne et mise en forme de la version 2015 du corpus sctexts-en.
Fonctionnalités:
À faire:

Mise à jour de janvier 2019

Bugs corrigés:
- Correction de plusieurs bugs qui empêchaient les concordances de s'afficher.
- On n'affiche pas "Recherche sémantique" dans le menu pour les corpus qui n'ont pas de grammaires.
- Affichage du nb de mots et de textes dans la page de sélection des corpus.
- Bug sur la sélection de corpus ayant plusieurs versions.
Performances:
- Mise en cache de la liste des relations possibles.
- Ajout d'un timeout pour les requêtes d'assistance (formes/lemmes les plus fréquents, catégories/relations possibles) qui prennent parfois très longtemps, et pénalisent les performances.

Mise à jour de décembre 2018

Performances:
- Les recherches retournant beaucoup de résultats sont beaucoup plus rapides (suppression d'un GROUP BY).
Corpus:
- Contraintes morphologiques (nom propre, commun, singulier, pluriel...) pour plusieurs corpus français.

Mise à jour d'octobre 2018

Corpus:
- Ajout des corpus Démo, EIIDA-en et Wikivoyage.
- Màj du corpus EIIDA-fr.
Fonctionnalités:
- Liste des textes: retour des boutons "Sélectionner tout" et "Désélectionner tout".
Performances:
- Réduction de 25% de l'occupation mémoire de la liste des textes.

Bugs corrigés

Bugs corrigés:
- Liste des textes: la sélection/déselection des textes fonctionne.

Mise à jour d'août 2018

Fonctionnalités:
- Statistiques concernant le corpus et le sous-corpus (= "sélection"): mots les plus fréquents.
Performances:
- Suppression des appels de fonctions dans les champs SELECT, et remplacement par des jointures. Les requêtes sont environ 3,3 fois plus rapides.
- Les contextes ne sont recherchés que pour les concordances. Les requêtes comportant beaucoup de résultats (>10k) sont environ 10x plus rapides (requêtes de 1 mot; le gain est à diviser par le nombre de mots dans la requête: 5x pour deux mots, etc.).
- BUG: pas de concordances au-delà de resultsProcessMaxSlice résultats.
- BUG: sur les requêtes qui comportent plusieurs Main.

Bugs corrigés

Bugs corrigés:
- Correction d'un bug sur les grammaires qui comportaient les caractères // (utilisés pour les commentaires).

Mise à jour de mai 2018

Améliorations

Ergonomie:
- Refonte de la page de sélection de corpus.
- Un corpus peut avoir plusieurs versions.
- Ajout d'un pied de page.
- Clarification du rôle de la page de connexion.
- Outils déplacés dans une page spécifique.
- Le menu ne comporte une entrée "Historique" que quand il y a un historique à afficher.
- Refonte de la page "À propos".
- Ajout d'une option pour un affichage prenant en compte les limites de phrases.
Performances:
- Les tailles des champs de la base de données sont optimisées séparément pour chaque corpus, afin de s'adapter au plus prêt à chaque corpus. Le gain d'espace est de l'ordre de 6% sur les corpus de moins de 16M mots, et de 2% sur les corpus de plus de 16M de mots.
- Suprression de deux index inutilisés (corpus.name_corpus et dependencies.gouv_id). Les bases occupent environ 3% d'espace en moins.

Bugs corrigés

Bugs corrigés:
- La page de connexion et le menu laissaient croire que l'utilisateur était connecté même lorsque celui-ci s'était trompé de mot de passe. Les corpus privés n'étaient par contre pas accessibles dans ce cas.
- La liste des textes d'un corpus n'est plus sauvegardée dans le cache lorsque ce dernier est activé. Cela saturait parfois la mémoire lorsque la liste des tous les corpus était affichée.
- Réduction de la consommation de mémoire lors de la mise en cache des corpus.

Mise à jour d'avril 2018

Améliorations

Ergonomie:
- La page "à propos" affiche les statistiques d'utilisation de ScienQuest.
Performances:
- Le temps de recherche pour les requêtes comportant des relations syntaxiques a été divisé par 10 grâce à l'optimisation des requêtes SQL.

Bugs corrigés

Bugs corrigés:
- Les requêtes comportant des relations syntaxiques où deux mots étaient identiques (par exemple, tous les verbes ayant deux noms en complément d'objet) ne prenaient en compte qu'un seul de ces deux noms.
- Les arbres syntaxiques n'affichaient que le premier gouverneur des tokens en possédant plusieurs.

Mise à jour de mars 2018

Améliorations

Ergonomie:
- On affiche directement la liste des textes quand un corpus est sélectionné.
- L'onglet recherche n'est plus accessible quand aucun texte n'est sélectionné.
- En recherche libre, les suggestions de formes et de lemmes (menu déroulant lors de la saisie) tiennent désormais compte du sous-corpus sélectionné (critères et parties textuels).
Performances:
- Nettoyage du cache de l'objet Corpus avant la sauvegarde de la session. La taille de la session est divisée par 5; les requêtes HTTP sont plus rapides, en particulier sur les corpus comportant beaucoup de textes.
- Seules les statstiques affichables sont calculées et passées à la page de statistiques; le traitement est donc légèrement allégé sur le serveur et le client.
- Plusieurs champs de la base de données ont été réduits: document_id(MEDIUMINT->SMALLINT). Les bases sont un peu plus petites et les recherches un peu plus rapides.
Bibliothèques JavaScript:
- Màj de jQuery: 1.12.4 -> 3.3.1.
- Màj de jQuery-UI: 1.10.4 -> 1.12.1.
- Màj de DataTables: 1.10.12 -> 1.10.16.
- Màj de Flot.

Bugs corrigés

En mode avancé, les requêtes comportant une partie droite sous-spécifiée du type (,#0,#1) ne s'arrêtaient jamais. Désormais, ce type de requête sous-spécifié recherche n'importe quelle relation
Un bug dans la conversion ConcQuest -> SQL faisait planter la recherche sur certaines requêtes comportant plusieurs relations syntaxiques. Bug corrigé.

Mise à jour de septembre 2017

Améliorations

La page de résultats est rafraîchie plus souvent sur les requêtes courtes, et (beaucoup) moins souvent sur les requêtes longues, ce qui soulage beaucoup le serveur dans le cas où plusieurs utilisateurs effectuent simultanément des recherches longues..
Les sessions et le cache sont sauvegardés en RAM, ce qui accélère l'affichage, en particulier pour les corpus comportant beaucoup de textes.

Bugs corrigés

Dans la page de sélection de sous-corpus, le nombre de tokens et le nombre de textes dans la sélection était parfois indiqué par erreur à zéro.

Mise à jour de juillet 2017

Améliorations

2017-07-18. Message d'avertissement et lien vers la dernière version sur les versions obsolètes de ScienQuest.

Mise à jour de juin 2017

Améliorations

Chaque corpus a un cache distinct; cela simplifie la maintenance.
Les statistiques sont triées par fréquence relative par défaut.

Mise à jour de mai 2017

Améliorations

2017-05-11. Mise en production de la version 1.9.
Mise à jour de la documentation en français.

Bugs corrigés

Le lien vers la documentation en français ne fonctionnait (erreur 404) pas si on n'avait pas sélectionné préalablement la langue de l'interface.
Le cache ne fonctionnait pas sur la page d'accueil, qui se chargeait lentement.

Mise à jour d'avril 2017

Améliorations

Le contexte n'est plus limité à 25 mots. La limite est maintenant fixée à 100 mots à gauche et à droite, jusqu'à 1 phrase de distance, dans le même paragraphe.
Le corpus estrep est porté à 58 textes.
Ajout d'une section "à propos".

Bugs corrigés

Correction des dépendances syntaxiques dans le corpus estrep (elles étaient orientées à l'envers).

Mise à jour de février 2017

Améliorations

Mode avancé: quantifieur {i} pour les fenêtres de tokens, par exemple <lemma=hypothèse><>{2}<cat=V> pour chercher le lemme hypothèse suivi d'un verbe et séparés par jusqu'à deux tokens.

Mise à jour d'octobre 2016

Améliorations

Spécificités de Lafon dans les stats (désactivées par défaut).
Les arbres syntaxiques (svg et dot) ont leur propre cache.
Les spécificités ont leur propre cache.

Bugs corrigés

Les valeurs numériques des attributs des textes (par exemple date du texte) ne s'affichaient pas toujours dans les résultats.
Les arbres syntaxiques ne s'affichaient pas pour les phrases comportant des guillemets.

Mise à jour d'août 2016

Améliorations

Les droits d'accès sont personnalisés en fonction des corpus.
On ne calcule pas les stats pour les critères textuels qui ne sont pas utilisés dans le corpus.
Les stats sont toujours affichées en batons.

Bugs corrigés

Correction d'un bug dans l'affichage des stats lorsqu'il n'y a pas de texte localisé pour l'un des critères.
Correction d'un bug dans le calcul des stats (qui n'étaient pas calculées) lorsqu'on charge un résultat depuis l'historique.

Mise à jour d'avril 2016

Améliorations

Affichage du nom des revues/conférences pour le corpus Scientext français.
Amélioration de l'affichage des infos éditoriales dans les contextes élargis.

Bugs corrigés

Mode avancé: quand plusieurs Main, les relations syntaxiques sur la première ligne étaient ignorées.
Mode libre, config du corpus Scientext: NOMPRED->NOMPREP

Mise à jour de mars 2016

Bugs corrigés

Lorsqu'on exporte les concordances aux formats CSV ou XLSX, le nom de fichier par défaut n'avait pas d'extension.
Les statistiques portant sur les critères textuels (genre textuel, etc.) comptaient à partir de 0 et non de 1.
Les statistiques affichent un nombre normalisé plus précis.
Bugs sur la liste détaillée des textes (problème de cache).
Le nombre de textes sélectionnés était parfois affiché à 0 alors que ce n'était pas le cas (problème de cache).
Les requêtes retournaient parfois des occurrences dans des textes privés sans que l'utilisateur soit identifié, ce qui provoquait des bugs d'affichage (problème de cache).
Critères textuels pas toujours pris en compte (problème de cache).

Mise à jour de février 2016

Améliorations

Organisation des corpus en collections.
Réorganisation de la page de sélection des corpus.
Boutton pour changer la langue.
Amélioration du logiciel d'importation de corpus: précompilation des règles d'importation, et quelques autres optimisations. L'importation de corpus est sensiblement accélérée (environ 50%).

Mise à jour de décembre 2015

Bugs corrigés

La langue entrée par l'utilisateur n'était pas toujours prise en compte par l'interface.
La langue entrée par l'utilisateur revenait à la langue par défaut lors de la sélection d'un corpus.

Améliorations

Localisation en anglais (Melanie Wilkos et Laura Hartwell).
Support du CSV, en plus du JSON, pour les fichiers de localisation.

Mise à jour d'octobre 2015

Bugs corrigés

Suite à l'enrichissement du mode avancé, certaines requêtes SQL multimots ne fonctionnaient plus.

Améliorations

Toutes les chaînes de caractères localisables ont été extraites du code, en vue de rendre l'interface multilingue.

Mise à jour de septembre 2015

Améliorations

Un corpus mal configuré ne bloque plus l'ensemble de la plateforme. Un message d'erreur apparaît sur la page d'accueil.
Les clés de cache sont construites avec la fonction json_encode($selection) plutôt que serialize($selection), 2 à 3 fois plus rapide.
Les clés de cache sont mieux mutualisées lorsque c'est possible. Avant, toutes les clés tenaient compte de la requête effectuée et de tout le paramétrage de ScienQuest (taille du contexte, page active, etc.), même pour les fonctions dont le résultat n'en dépendait pas (par exemple, la liste détaillée des textes sélectionnés, qui ne dépend que des textes sélectionnés), engendrant beaucoup de doublons, ce qui est particulièrement innefficace dans un cache. Maintenant, certaines clés de cache ne tiennent compte que des informations pertinentes. Cela est particulièrement sensible sur les requêtes portant sur beaucoup de textes (par exemple le corpus de textes scientifiques anglais: l'étape de "Préparation de la requête" passe ainsi d'environ 30s à 1s).
L'id des textes est affiché dans la liste des textes.

Bugs corrigés

Seule la première page de résultat s'affichait. Maintenant, toutes les pages s'affichent. Par contre, plus on affiche une page de n° élevé, plus le calcul de la page prend de temps.
Toutes les pages de résultats permettent de voir le contexte étendu et l'arbre syntaxique, et pas seulement la première.

Mise à jour d'août 2015

Améliorations

Ajout d'un bouton "(dé)sélectionner tout" pour les concordances.
La page d'accueil affiche un lien vers le changelog (ce document).
EXPÉRIMENTAL: enrichissement du mode avancé:
<>
n'importe quel token

<>+
n'importe quel token répété [1..∞[ fois

<>*
n'importe quel token répété [0..∞[ fois

Bugs corrigés

Les résultats déselectionnés restent grisés même après le rechargement de la page de concordances.
Correction du code pour les requêtes comportant un <>*, qui pouvaient staturer l'espace disque et faire planter ScienQuest.
Ajout d'une chaîne de caractères localisée pour le code "cedil" dans le corpus de textes d'évaluation Cedil.

Mise à jour de juin 2015

Améliorations

Amélioration de la grammaire des citations pour le corpus TALN.
La connexion vers la base de données est mise en cache (ScienQuest->db).

Mise à jour de mai 2015

Bugs identifiés

Plus de résultats au-delà de la première page (retour d'un bug corrigé en décembre 2014).
Dans l'onglet de sélection des textes, lorsqu'on fait une partition donnée pour la première fois (= elle n'est pas encore en cache), l'interface affiche "0 textes sélectionnés". Recharger la page donne le nombre correct.

Bugs corrigés

Les contextes élargis n'apparaissaient pas toujours, ou alors ils ne correspondaient pas à la bonne phrase, ou alors ce n'était pas le bon token qui était surligné. Idem pour les arbres syntaxiques. Le problème est réglé.
Lorsqu'on cherche à accéder à la liste des textes, la requête SQL retourne énormément de doublons, pour les corpus où la langue des textes est mal configurée (cas de la plupart des corpus). Or, le module apache2-mariadb peut outrepasser les limites de consommation de mémoire fixées dans la configuration d'Apache, et donc faire tomber le serveur si il a trop de résultats à traiter. La requête SQL ne retourne plus de doublons.

Améliorations

Ajout d'un tooltip sur chaque occurrence: "Cliquer pour afficher le contexte large et l'arbre syntaxique" et "Garder cette occurrence pour l'exportation et les statisiques ?".
La présence d'un logo dans l'interface est maintenant optionnelle en fonction du corpus (afin de ne pas "s'approprier" les corpus non-Stendhal).
Ajout d'un message d'erreur dans Dicorpus, quand on fichier sqr est introuvable (erreur fréquente).
Dicorpus accepte des bases au format TSV (champs séparés par des tabulations) en plus du format CSV (champs séparés par des virgules). Il détecte automatiquement le bon format.

Corpus

Ajout du corpus TALN (public).
Ajout de la nouvelle version du corpus Scientext anglais (privé).

Mise à jour de avril 2015

Bugs corrigés

Exportation des statistiques au format CSV.

Mise à jour de février 2015

Bugs corrigés

Apostrophes et guillemets dans les champs de recherche.
Déconnexion de l'utilisateur lors du choix d'un corpus.
Les statistiques pouvaient être biaisées sur des résultats > 10k occurrences.

Mise à jour de janvier 2015

Améliorations

Nom du corpus dans le titre de la page.
Pour exportation des concordances, mettre à la fois la biblio complète + métadonnées des textes abrégées.

Mise à jour de décembre 2014

Améliorations

Sécurisation par htaccess.
Textes scientifiques français: «Notes» -> «Notes de bas de page»
Métadonnées des textes affichées dans les concordances (exports).
Parties textuelles affichées dans les concordances (ScienQuest et exports).

Bugs corrigés

On ne pouvait parfois pas afficher les pages de concordances au-delà de la première.

Mise à jour de novembre 2014

Améliorations

Message d'avertissement sur la page d'accueil lorsqu'on utilise un autre navigateur que Firefox.
Message "Corpus sélectionné, cliquez sur l'onglet « Recherche » pour l'explorer" losqu'un corpus est sélectionné.
Lien vers ce changelog dans l'onglet "Aide".

Bugs corrigés

La taille maximum d'un "contexte" (concaténation de la phrase précédant, de la phrase contenant et de la phrase suivant une occurrence) est limitée à 128kio. Si cette taille est dépassée (ce qui ne devrait jamais arriver sur un corpus "normal"), le contexte apparaît tronqué.
Correction d'un bug (introduit lors de la mise à jour d'octobre) qui empêchait de faire des recherches sur la forme.

Mise à jour d'octobre 2014

Nouvelles fonctionnalités

Ajout des négations dans le mode avancé.
Historique

Bugs corrigés

Correction d'un bug qui empêchait la mise en cache des pages de concordances, rendant l'interface moins réactive.
Correction d'un bug qui tendait à diminuer la priorité des processus Apache.
Plusieurs calculs cachables identiques (avec les mêmes arguments), pouvaient se lancer en parallèle (jusqu'à ce qu'un de ces calculs soit terminé, le cache prenait alors le relais), se qui rendait le cache moins utile et tendait à surcharger le serveur. Désormais, pour les calculs cachables longs (en particulier, calcul du nombre de résultats), chaque calcul cachable est placé en section critique, avec un verrou correspondant aux arguments du calcul.
Amélioration de la configuration d'Apache, pour éviter que trop de requêtes simultanées ne fassent tomber le serveur.
Correction d'un bug qui empêchait parfois les suggestions de formes et de lemmes de fonctionner.
Les regex peuvent contenir le symbole |.

Améliorations

Documentation pour Dicorpus.
Lorsqu'un grand nombre d'occurrences étaients trouvées (> 10000 occurrences dans la configuration par défaut), le temps de calcul du nombre d'occurrences et des statistiques augmentait de manière importante: pour un temps de calcul de 1 avec 10000 occurrences, on avait un temps de calcul de 3 pour 20000 occurrences, 6 pour 30000 occurrences, 10 pour 40000 occurrences, etc. La création d'un index pour le traitement des grands fichiers de résultats permet de passer à une progression proportionnelle: 2 pour 20000 occurrences, 3 pour 30000 occurrences, 4 pour 40000 occurrences, etc. Cela accélère considérablement les traitements portant sur un grand nombre de résultats.
Réduction importante de la taille des sessions (par exemple ~90% sur le corpus anglais) pour une meilleure réactivité de l'application.
Réduction de 26% de la taille des bases grâce à l'utilisation de type numériques plus petits. Les requêtes sont environ 7% plus rapides.
Utlisation optionnelle de XCache pour mettre une partie du cache en RAM.
Nouvelle page de sélection des corpus

Mise à jour de septembre 2014

Nouvelles fonctionnalités

Bugs corrigés

Mise à jour de ScienQuest 17-dev pour prendre en charge la nouvelle convetion de nommage des sessions dans PHP 5.4, qui empêchait l'importation de requêtes sauvegardées.

Améliorations

Documentation pour Dicorpus.

Mise à jour d'août 2014

Nouvelles fonctionnalités

Les bases de Dicorpus 18 peuvent soit utiliser des sauvegardes SQR2 (créés dans ScienQuest 18), soit des sauvegardes SQR (ScienQuest 17-dev). La version à utiliser est indiquée pour chaque base par la directive: !version=18 ou !version=17-dev . Par défaut, si cette directive est absente, c'est la version 18 qui est utilisée.

Bugs corrigés

Dans le concordancier, les contextes gauche et droit font maintenant toujours la taille désirée (jusqu'à 25 mots à gauche + 25 mots à droite).
Les requêtes MySQL généraient systématiquement des doublons. Cela n'était pas visible car ScienQuest intègre un dédoublonneur, mais cela consommait des ressources. Les requêtes MySQL ne génèrent plus (ou en tout cas moins) de doublons, ce qui entraînne une amélioration des performances.
La taille maximale d'une phrase était de 32768 caractères. Elle passe à 16777216 caractères pour prendre en charge certains corpus (où la "phrase" correspond en réalité à un paragraphe). Cela implique de passer la table sentence au format InnoDB au lieu de MyISAM, et le champ tokens de cette table en Mediumtext.

Améliorations

Chargement plus rapide de la page de choix des corpus. Le nombre de textes et de mots de chaque corpus est mis en cache et n'a plus besoin d'être recalculé à chaque fois.
Les contextes sont stockés de manière plus efficace, au niveau de la phrase et non plus au niveau du token. La taille des bases est ainsi réduite de 75%, et l'importation de corpus est légèrement plus rapide.
Dans les pages de sélection des textes, les détails des sélections ne sont plus affichés par défaut, mais seulement à la demande.
Dans l'autocomplétion, les mots sont triés par fréquence.