Imaginons que nous souhaitions étudier les différentes réécritures d’un corpus numérique des fables d’Esope et de La Fontaine. Ce corpus doit être travaillé de manière à ce qu’il se présente sous la forme suivante :
- Nous enregistrerons obligatoirement
les fables dans des fichiers de type txt et si nous le désirons dans des fichiers rtf en prenant soin de garder
le même nom de fichier excepté l'extension. (exemple : fable1.txt et fable1.rtf)
- Chaque fable est constitué d'un "corps" : le texte de la fable et d’une "tête". Cette tête est composée par
des indications qui ne seront lues que par le moteur de recherche, qui pourra les indexer, et présenter ensuite à
notre lecture l’ensemble du corpus. La "tête"est donc l'ensemble des critères de description des textes.
Afficher un exemple
La date servira de séparateur entre deux fables et sera donc toujours indiquée au début d'une fable.
Vous remarquerez ensuite que chaque type de critères est précédé d'une étoile et est séparé de ces prédécesseurs et successeurs par un saut
de ligne et de son contenu par ":"
Exemple :
*DATE : 1542/1882
*RUBRIQUE : Péritexte / autre rubrique
*AUTEUR : Le Mts De Queux De Saint-Hilaire
*TITRE : Préface
*SOURCE:Esope
*TEXTE-ARTICLE :PRÉFACE
LA traduction des fables d'Ésope en vers français, par Gilles Corrozet, que nous réimprimons ici, ...
Détaillons chaque critère.
DATE :
ICTeNA accepte les formats de date suivants ::
- "jj/MM/aaaa", "jj-MM-aaaa", "aaaa-MM-jj", "aaaa/MM/jj"
-
le jour en chiffres suivi d'un espace, le mois en toutes lettres (janvier, févier, mars , avril, mai , juin , juillet, août, septembre , octobre, novembre, décembre) suivi d'un nouvel espace et enfin de l'année (exemple : 10 janvier 2006)
- tout autre format sera considéré comme une simple "chaîne" de caractères.
ATTENTION : Le format de date est identique pour tout le corpus.
CRITERES DE RECHERCHE FACULTATIFS ET MODULABLES :
Vous avez la possibilités de choisir au maximum 8 critères dont "date", "titre" et "source".
(Chaque corpus exige une réflexion sur les critères qui permettront de décrire au mieux les textes du corpus. Ainsi un texte journalistique appelle, par exemple, à prendre comme critère celui de rubrique ; un texte littéraire un critère de genre, etc...)
Ici, nous ajouterons donc les suivants : "AUTEUR" et "RUBRIQUE".
Dans le cas d'une correspondance, les critères retenus auraient été : "EXPEDITEUR", "DESTINATAIRE" et "RUBRIQUE".
Les noms de ces critères de recherche ne contiennent que des lettres , des chiffres, - ou _. Tout autre caractère sera remplacé par _. Si il dépasse 20 caractères seuls les 20 premiers caractères seront retenus. La casse ainsi que les accents ne seront pas respectés.
Les différents élèments d'un même contenu de critères seront séparés par une virgule ou un point-virgule. (ex : *AUTEUR :Esope,Fontaine ou *AUTEUR :Esope;Fontaine)
TITRE :
Il tiendra sur une ou plusieurs lignes
TEXTE-ARTICLE :
Pas de remarque.
Le texte commencera à la ligne suivante.
Si une fable ne contient pas les critères "*DATE" ou "*TEXTE-ARTICLE" ou au contraire les affiche
deux fois, un message vous
indiquera l'erreur et leurs emplacements seront notés dans un fichier texte.
Par contre lors de l'absence d'un autre critère de recherche dans une fable, la balise sera systèmatiquement créée et ne sera pas renseignée.
ATTENTION :
Cette phase de travail n’est pas difficile, mais elle est délicate et fondamentale.
Une « tête » mal faite ou mal pensée ne permettra pas l’indexation
correcte des données et partant ne permettra pas le fonctionnement du moteur de recherche.
Cliquer sur CORPUS>Nouveau
Entrer le nom du corpus (minuscules non accentuées ou chiffres ou _, le premier caractère n'est jamais un chiffre) et choisir le répertoire dans lequel se trouvent vos fichiers d'origine au format texte.
Ictena vous proposera ensuite de choisir les critères à retenir.
Afficher un exemple.
Différentes erreurs pourront être signalées :
- fichiers qui ne sont pas au format txt et ne respectent pas les contraintes d'ICTENA, ainsi que les fichiers qui ne sont pas encodés en utf-8 ou en ANSI.
Afficher un exemple.
- balissage incorrect
Afficher un exemple
Votre corpus est alors enregistré:
les métadonnées sont stockées
le corpus est segmenté en uta (Unité Textuel Atomique)
Les éléments qui suivent ne sont en aucun cas nécessaires à la manipulation des données dans le logiciel et ne sont indiqués ici que pour rendre la démarche pleinement transparente.
Nous remplaçons donc les caractères suivants
Les apostrophes par le caractère ' (\u0022)
Les tirets par le caractère – (\u002D)
… (\u2026) par 3 points
Les puces • ( \u2022) sont supprimées
Les caractères réservés :
< et > pour le balisage.
¤ pour remplacer n’importe quel caractère lors d’une recherche.
Le balisage est enregistré si sur la même ligne nous avons < suivi de >. En cas d’erreur d'ouverture ou fermeture, la balise est considérée comme un signe de ponctuation.
Nous découpons chaque ligne à partir des caractères de type s ou p (cf tableau des classes de caractères)
Classes de caractères |
|||
|
|
|
|
|
unicode |
nom abrégé |
|
Séparateur |
\u0020' || '\u00A0' || '\t' |
s |
|
Lettre |
de 0041 à 005A ( de A à Z) |
l |
|
Indice |
(00B3 , 00B9, 00B2) => ² ³ ¹ |
i |
|
Chiffre |
0 1 2 3 4 5 6 7 8 9 |
c |
|
Signe math |
+ = ± ÷ |
m |
|
Etoile |
* |
e |
|
Ponctutation pure |
! " ; ? » « |
p |
|
Mot special |
$ % £ & § |
z |
|
Signe ponctuation ou math |
[ ] ( ) { } |
h |
|
Virgule |
, |
v |
|
Point |
. |
w |
|
Tiret |
- |
t |
|
Slash |
/ \ |
y |
|
Deux points |
: |
d |
|
Apostrophes |
´ |
a |
|
Numéro |
° |
n |
|
Arobase |
@ |
b |
|
Non iso |
le reste |
x |
Chaque segment trouvé est nommé UTA (Unité Textuelle Atomique).
- Un postclit est séparé du début du mot
"l'en" ou "l-en" ou "la" ou "la-leur" ou "la-lui" ou "la-moi" ou "la-nous" ou "la-vous" ou "le-leur" ou "le-lui" ou "le-moi" ou "le-nous" ou "le-vous" ou "les" ou "les-en" ou "les-leur" ou "les-lui" ou "les-moi" ou "les-nous" ou "les-vous" ou "m'en" ou "m-en" ou "moi" ou "nous" ou "nous-en" ou "t'elle" ou "t'en" ou "t'il" ou "t'on" ou "t-elle" ou "t-en" ou "t-il" ou "t-on" ou "vous-en" ou "ci" ou "elle" ou "elles" ou "en" ou "il" ou "ils" ou "je" ou "y" ou "là" ou "le" ou "leur" ou "lui" ou "on" ou "toi" ou "tu" ou "vous"
Exemples :
rends-le => rends -le
rends-le-moi => rends -le -moi
Où va-t'elle ? => Où va -t 'elle (est-ce juste ?)
pare_feu => pare-feu
- une suite de lettres terminées par (e) ou (es) ou (s)
- lettres suivies d’un caractère i
"ac","ad","ae","aero","af","ag","ai","al","am","an","ao","aq","ar","as","at","au",
"aw","ax","az","ba","bb","bd","be","bf","bg","bh","bi","biz","bj","bm","bn","bo"
,"br","bs","bt","bv","bw","by","bz","ca","cc","cd","cf","cg","ch","ci","ck","cl","cm"
,"cn","co","com","coop","cr","cs","cu","cv","cx","cy","cz","de","dj","dk","dm","do",
"dz","ec","edu","ee","eg","eh","er","es","et","eu","fi","fj","fk","fm","fo","fr","ga",
"gb","gd","ge","gf","gg","gh","gi","gl","gm","gn","gov","gp","gq","gr","gs","gt",
"gu","gw","gy","hk","hm","hn","hr","ht","hu","id","ie","il","im","in","info","int","io",
"iq","ir","is","it","je","jm","jo","jp","ke","kg","kh","ki","km","kn","kp","kr","kw",
"ky","kz","la","lb","lc","li","lk","lr","ls","lt","lu","lv","ly","ma","mc","md","mg",
"mh","mil","mk","ml","mm","mn","mo","mp","mq","mr","ms","mt","mu",
"museum","mv","mw","mx","my","mz","na","name","nc","ne","net","nf",
"ng","ni","nl","no","np","nr","nu","nz","om","org","pa","pe","pf","pg","ph",
"pk","pl","pm","pn","pr","pro","ps","pt","pw","py","qa","re","ro","ru","rw",
"sa","sb","sc","sd","se","sg","sh","si","sj","sk","sl","sm","sn","so","sr","st",
"sv","sy","sz","tc","td","tf","tg","th","tj","tk","tl","tm","tn","to","tp","tr","tt",
"tv","tw","tz","ua","ug","uk","um","us","uy","uz","va","vc","ve","vg","vi","vn",
"vu","wf","ws","ye","yt","yu","za","zm","zw"
Interface de Consultation de Textes Numériques en vue de l'Analyse
(Dernière mise à jour : juin 2016)