Site de l'université de Franche-Comté
Labo Adcost-elliadd

Presto

Chercheurs et étudiants qui pratiquent l’analyse de données textuelles assistée par l’informatique et la statistique sont bien souvent confrontés à des données numériques « bruitées », qui rendent particulièrement chronophage l’étape de constitution et de documentation du corpus.

Le caractère « bruité » des données textuelles peut résulter de l’océrisation (ou « OCR ») d’un document dégradé (exemple : presse antérieure à 1950) : les sorties caractérisées par un faible taux de reconnaissance optique des caractères impliquent une laborieuse face de correction qui vise restituer une version textuelle fidèle à celle inscrite sur le document d’origine. 

D’autres données numériques sont pour leur part « nativement bruitées » : c’est par exemple le cas des données textuelles issues des réseaux sociaux numériques (Facebook, Twitter) où abondent acronymes, sigles et/ou fautes d’orthographe et qui impliquent une nécessaire phase de normalisation des graphies.

Si correction et normalisation des données textuelles sont deux moments bien distincts (et parfois complémentaires) de l’étape de l’établissement des données, toutes deux sont  véritables choix heuristiques, qui ne peuvent être totalement automatisés sous peine de créer davantage de bruits dans les données. Parce qu’ils constituent autant de choix placés sous la responsabilité chercheur, dont il s’agit de garder trace, ces moments impliquent également de pouvoir être archivés, facilement documentés et partageables.

Le logiciel Presto se propose de faciliter les opérations de prétraitement de données textuelles  « bruitées » en offrant à l’utilisateur une interface conviviale, destinée à l’assister dans ses opérations de correction et de normalisation. Le logiciel Presto propose à l’utilisateur différents parcours de correction, permettant par exemple à l’utilisateur de corriger des formes fautives par lot de 25, tout en ayant une vue sur leur contexte d’emploi. L’utilisateur effectue alors la correction en une seule saisie en ayant la certitude de ne pas générer de nouvelles « coquilles ». Le logiciel Presto peut également soumettre à l’attention de l’utilisateur différentes formes soupçonnées fautives, car elles ne sont pas connues par le dictionnaire ou parce qu’elles correspondent à des erreurs fréquemment observées dans les sorties OCR.  L’utilisateur peut également parcourir et corriger son corpus en procédant à des requêtes à partir d’une dizaine de critères, qui lui permettent par exemple de rechercher l’ensemble des mots contenant certaines lettres.

Le logiciel Presto invite l’utilisateur à valider systématiquement chacun de ses choix et à en garder trace dans des rapports archivés automatiquement. Ce faisant, le logiciel Presto vise à aider le chercheur à décrire et historiciser son pré-traitement des données.

Les données traitées dans Presto peuvent correspondre à des simples textes non-formatés (format .txt ou .xml) ou à des corpus respectant les normes attendues par l’un des logiciels suivants : TXM, Iramuteq, Astartex, hyperbase, hyperbaseweb, lexico,Trameur, Coocs, Ictena. L’exportation du corpus corrigé suivra au choix l’un des formats des logiciels proposés en entrée ou sera un texte simple. Ce faisant, Presto peut donc être utilisé pour changer le format d’un corpus.

Consulter le manuel