Préparation du corpus

Imaginons que nous souhaitions étudier les différentes réécritures d’un corpus numérique des fables d’Esope et de La Fontaine. Ce corpus doit être travaillé de manière à ce qu’il se présente sous la forme suivante :
- Nous enregistrerons obligatoirement les fables dans des fichiers de type txt et si nous le désirons dans des fichiers rtf en prenant soin de garder le même nom de fichier excepté l'extension. (exemple : fable1.txt et fable1.rtf)
- Chaque fable est constitué d'un "corps" : le texte de la fable et d’une "tête". Cette tête est composée par des indications qui ne seront lues que par le moteur de recherche, qui pourra les indexer, et présenter ensuite à notre lecture l’ensemble du corpus. La "tête"est donc l'ensemble des critères de description des textes.

Voici comment chaque document doit être préparé :

Afficher un exemple

La date servira de séparateur entre deux fables et sera donc toujours indiquée au début d'une fable.
Vous remarquerez ensuite que chaque type de critères est précédé d'une étoile et est séparé de ces prédécesseurs et successeurs par un saut de ligne et de son contenu par ":"
Exemple :
*DATE : 1542/1882
*RUBRIQUE : Péritexte / autre rubrique
*AUTEUR : Le Mts De Queux De Saint-Hilaire
*TITRE : Préface
*SOURCE:Esope
*TEXTE-ARTICLE :PRÉFACE
LA traduction des fables d'Ésope en vers français, par Gilles Corrozet, que nous réimprimons ici, ...

Détaillons chaque critère.
DATE :

ICTeNA accepte les formats de date suivants ::
- "jj/MM/aaaa", "jj-MM-aaaa", "aaaa-MM-jj", "aaaa/MM/jj"
- le jour en chiffres suivi d'un espace, le mois en toutes lettres (janvier, févier, mars , avril, mai , juin , juillet, août, septembre , octobre, novembre, décembre) suivi d'un nouvel espace et enfin de l'année (exemple : 10 janvier 2006)
- tout autre format sera considéré comme une simple "chaîne" de caractères.
ATTENTION : Le format de date est identique pour tout le corpus.


CRITERES DE RECHERCHE FACULTATIFS ET MODULABLES :
Vous avez la possibilités de choisir au maximum 8 critères dont "date", "titre" et "source".
(Chaque corpus exige une réflexion sur les critères qui permettront de décrire au mieux les textes du corpus. Ainsi un texte journalistique appelle, par exemple, à prendre comme critère celui de rubrique ; un texte littéraire un critère de genre, etc...)
Ici, nous ajouterons donc les suivants : "AUTEUR" et "RUBRIQUE".
Dans le cas d'une correspondance, les critères retenus auraient été : "EXPEDITEUR", "DESTINATAIRE" et "RUBRIQUE".
Les noms de ces critères de recherche ne contiennent que des lettres , des chiffres, - ou _. Tout autre caractère sera remplacé par _. Si il dépasse 20 caractères seuls les 20 premiers caractères seront retenus. La casse ainsi que les accents ne seront pas respectés.
Les différents élèments d'un même contenu de critères seront séparés par une virgule ou un point-virgule. (ex : *AUTEUR :Esope,Fontaine ou *AUTEUR :Esope;Fontaine)

TITRE :
Il tiendra sur une ou plusieurs lignes

TEXTE-ARTICLE :
Pas de remarque.
Le texte commencera à la ligne suivante.

Si une fable ne contient pas les critères "*DATE" ou "*TEXTE-ARTICLE" ou au contraire les affiche deux fois, un message vous indiquera l'erreur et leurs emplacements seront notés dans un fichier texte.
Par contre lors de l'absence d'un autre critère de recherche dans une fable, la balise sera systèmatiquement créée et ne sera pas renseignée.


ATTENTION :
Cette phase de travail n’est pas difficile, mais elle est délicate et fondamentale. Une « tête » mal faite ou mal pensée ne permettra pas l’indexation correcte des données et partant ne permettra pas le fonctionnement du moteur de recherche.

Dans ICTeNA

Cliquer sur CORPUS>Nouveau
Entrer le nom du corpus (minuscules non accentuées ou chiffres ou _, le premier caractère n'est jamais un chiffre) et choisir le répertoire dans lequel se trouvent vos fichiers d'origine au format texte.

Ictena vous proposera ensuite de choisir les critères à retenir.
Afficher un exemple.

Différentes erreurs pourront être signalées :
- fichiers qui ne sont pas au format txt et ne respectent pas les contraintes d'ICTENA, ainsi que les fichiers qui ne sont pas encodés en utf-8 ou en ANSI.
Afficher un exemple.
- balissage incorrect
Afficher un exemple

Votre corpus est alors enregistré:
            les métadonnées sont stockées
            le corpus est segmenté en uta (Unité Textuel Atomique)

SEGMENTATION  EN UTA

Les éléments qui suivent ne sont en aucun cas nécessaires à la manipulation des données dans le logiciel et ne sont indiqués ici que pour rendre la démarche pleinement transparente.

  1. REMPLACEMENT DES LETTRES

    Nous remplaçons donc les caractères suivants             
                Les apostrophes par le caractère ' (\u0022)
                Les tirets par le caractère – (\u002D)
                … (\u2026) par 3 points 
                 Les puces • ( \u2022)  sont supprimées

    Les caractères réservés : 
    < et >  pour le balisage.
    ¤ pour remplacer n’importe quel caractère lors d’une recherche.
    Le balisage est enregistré si sur la même ligne nous avons < suivi de >. En cas d’erreur d'ouverture ou fermeture, la balise est considérée comme un signe de ponctuation.

  2. TRAITEMENT DU CORPUS LIGNE PAR LIGNE

  3. Nous découpons chaque ligne à partir des caractères de type s ou p (cf tableau des classes de caractères)

    Classes de caractères

     

     

     

     

     

    unicode

     

    nom abrégé
    de la classe

    Séparateur

    \u0020' || '\u00A0' || '\t'

     

    s

    Lettre

    de 0041 à  005A ( de A à Z)
    de 00C0' à 00DE (de À à Ý)
    ou 0152 ou 20AC (Œ ou  €) 
    de 0061 à 007A' (de a à z)
    de 00DF à 00F6' (deß à ö)
    00F8 à 00FF' (de ø à ÿ)
    0153 (œ)

     

    l

    Indice

    (00B3 , 00B9, 00B2) => ² ³ ¹

     

    i

    Chiffre

    0 1 2 3 4 5 6 7 8 9

     

    c

    Signe math

    + =  ± ÷

     

    m

    Etoile

    *

     

    e

    Ponctutation pure

    ! " ; ?  » «

     

    p

    Mot special

    $  % £ & §

     

    z

    Signe ponctuation ou math

    [ ] ( ) { }

     

    h

    Virgule

     ,

     

    v

    Point

     .

     

    w

    Tiret

     -

     

    t

    Slash

    / \

     

    y

    Deux points

    :

     

    d

    Apostrophes

    ´

     

    a

    Numéro

    °

     

    n

    Arobase

    @

     

    b

    Non iso

    le reste

     

    x

    Chaque segment trouvé est nommé UTA (Unité Textuelle Atomique).

  4. TYPES d’UTA

    • UTA_NON_ISO : 
      Contient au moins un caractère de la classe x.

    • UTA_TAB : 
      Tabulation

    • UTA_ESPACE : 
      Espace sécable ou insécable

    • UTA_FIN_LIGNE : 
      Indique une fin de ligne

    • UTA_PONCTUATION : 
      - un caractère de type m seul
      - un caractère h au début ou à la fin d’une uta si ce n'est pas un nombre ou un pourcentage 
      - un caractère t au début d’une uta qui ne contient pas de caractère de type c ou m
      - une suite de n point, n>=2, notés Sn au début à la fin ou au milieu d’un mot
      - un point commençant une uta
      - un caractère du type v ou a ou d ou y au début d’un mot
      - un caractère du type v ou a ou d ou y à la fin  d’un mot
      - un point terminant une uta qui ne fait pas partie d’une abréviation ou d’un sigle(cf uta_abreviation) 
      - à la fin du traitement, les caractères : p h d w v y t a qui se trouvent au milieu de lettres servent de séparateur (ils ne se trouvent pas dans une adresse mail ni internet, ni dans postclit …)

    • UTA_ETOILE : 
      placée au début d’une uta

    • UTA_MOT_SPECIAL : 
      - si % commence une uta , on enregistre % comme un caractère spécial puis on traite le reste du mot 
      - si l’uta précédant la précédente n’est pas de type nombre, on enregistre une uta_mot_special
      - contient au moins un caractère z

    • UTA_SIGLE : 
      - une majuscule suivie d’un point, suivie d’une majuscule obligatoirement. Suivent ensuite parfois des points et majuscules.(ordre et nombre non contrôlés)

    • UTA_ABREVIATION :
      - une suite de lettre suivie d’un point, l'UTA suivant la suivante ne commence pas par une majuscule. 
      - la suite de lettre appartient à la liste des abréviations quelque soit la casse (dr, m, mm, p, pp , pr , … à terminer) 
      - nous avons la séquence : lwtlw ou lwtl (ex : M.-P. ou M.-P) 

    • UTA_MOT_COMM_MAJ ou  UTA_MOT_COMM_MIN :
      - une suite de lettres 
      - les mots commençant par une minuscule et une majuscule sont distingués
      - Nous séparons toutes les uta commençant par :
        "l", "m", "s", "t", "d", "j", "n", "qu", "quoiqu", "lorsqu", "puisqu","jusqu" : ce sont des élides. 
      Exemples : 
      J’ai => j’          ai
      Aujourd’hui => aujourd’hui

      - Un postclit  est séparé du début du mot 
      "l'en"  ou "l-en" ou "la" ou "la-leur" ou "la-lui" ou "la-moi" ou "la-nous" ou "la-vous" ou "le-leur" ou "le-lui" ou "le-moi" ou "le-nous" ou "le-vous" ou "les" ou "les-en" ou "les-leur" ou "les-lui" ou "les-moi" ou "les-nous" ou "les-vous" ou "m'en" ou "m-en" ou "moi" ou "nous" ou "nous-en" ou  "t'elle" ou "t'en" ou "t'il" ou "t'on" ou "t-elle" ou "t-en" ou "t-il" ou "t-on" ou "vous-en" ou    "ci" ou "elle" ou "elles" ou "en" ou "il" ou "ils" ou "je" ou "y" ou "là" ou "le" ou "leur" ou "lui" ou "on" ou "toi" ou "tu"  ou  "vous"  
      Exemples : 
      rends-le => rends        -le
      rends-le-moi => rends -le        -moi
      Où va-t'elle ? => Où                va        -t         'elle                              (est-ce juste ?)
      pare_feu => pare-feu

      - une suite de lettres terminées par (e) ou (es) ou (s)
      - lettres suivies d’un caractère i

    • UTA_NOMBRE :
      une suite de chiffres séparés ou non par des espaces ,une virgule ou un point

    • UTA_MAIL :
      suite de caractères contenant une arobase

    • UTA_URL :
      Suite de caractères contenant au moins un point suivi d’un mot de la liste suivante 

      "ac","ad","ae","aero","af","ag","ai","al","am","an","ao","aq","ar","as","at","au", "aw","ax","az","ba","bb","bd","be","bf","bg","bh","bi","biz","bj","bm","bn","bo" ,"br","bs","bt","bv","bw","by","bz","ca","cc","cd","cf","cg","ch","ci","ck","cl","cm" ,"cn","co","com","coop","cr","cs","cu","cv","cx","cy","cz","de","dj","dk","dm","do", "dz","ec","edu","ee","eg","eh","er","es","et","eu","fi","fj","fk","fm","fo","fr","ga", "gb","gd","ge","gf","gg","gh","gi","gl","gm","gn","gov","gp","gq","gr","gs","gt", "gu","gw","gy","hk","hm","hn","hr","ht","hu","id","ie","il","im","in","info","int","io", "iq","ir","is","it","je","jm","jo","jp","ke","kg","kh","ki","km","kn","kp","kr","kw", "ky","kz","la","lb","lc","li","lk","lr","ls","lt","lu","lv","ly","ma","mc","md","mg", "mh","mil","mk","ml","mm","mn","mo","mp","mq","mr","ms","mt","mu",
      "museum","mv","mw","mx","my","mz","na","name","nc","ne","net","nf", "ng","ni","nl","no","np","nr","nu","nz","om","org","pa","pe","pf","pg","ph", "pk","pl","pm","pn","pr","pro","ps","pt","pw","py","qa","re","ro","ru","rw", "sa","sb","sc","sd","se","sg","sh","si","sj","sk","sl","sm","sn","so","sr","st", "sv","sy","sz","tc","td","tf","tg","th","tj","tk","tl","tm","tn","to","tp","tr","tt", "tv","tw","tz","ua","ug","uk","um","us","uy","uz","va","vc","ve","vg","vi","vn", "vu","wf","ws","ye","yt","yu","za","zm","zw"


    • UTA_NUMERO :
      Suite de caractères contenant : °

    • UTA_MATH :
      - Suite de caractères contenant au moins un caract p ou un chiffre qui n’est pas un nombre.
      - Un nombre suivi d’un pourcentage %
      - Peut inclure un indice

    • UTA_NON_IDENTIFIE :
      tout ce qui reste

    • UTA_COMMENTAIRE :
      commentaires ajoutés au texte par l’utilisateur (entre < et >)
    •  



Interface de Consultation de Textes Numériques en vue de l'Analyse
(Dernière mise à jour : juin 2016)