Accueil  
Contact Plan du site
logo PBL
     
 

Dossier tech :
GED




introduction

règles catalo-graphiques

indexation matières

analyse par facettes

SYNTOL

codification et notation

indexation alphabétique matières

indexation automatique

PRECIS

thésaurus

recherche dans un index

indexation et intelligence artificielle

indexation sélective «intelligente»

 
     
     
 

7. L'indexation automatique


Assez tôt dans l'histoire de l'automatisation, on s'est rendu compte qu'on pourrait se servir de machines pour indexer. Les premiers procédés, qui convenaient particulièrement à des index de petite dimension, utilisaient des fiches sur lesquelles on avait imprimé un quadrillage de perforation. Ces fiches à perforation centrale ou marginale se répartissent en deux types: les fiches par terme, où chaque fiche représente un mot clé, et les fiches par item, où chaque fiche représente un document numéroté. Sur les fiches par terme, on perfore les cases correspondant aux numéros des documents qui traitent du sujet évoqué par le terme. Sur les fiches par item, on perfore les cases correspondant aux divers sujets dont traite le document (item) fiché. Certaines fiches sont destinées à être perforées sur les bords, d'autres dans les cases d'un quadrillage couvrant toute la fiche. Il existe plusieurs façons d'utiliser les fiches pour une recherche; pour les fiches à perforations marginales, on repère le trou correspondant au numéro du sujet recherché, on y enfonce une aiguille qui embroche toutes les fiches, et on soulève le paquet: on voit alors tomber les fiches où ce trou a été découpé. Ces procédés permettent de faire une recherche croisée sur plusieurs mots clés en une seule opération de recherche, mais risquent d'aboutir à de «fausses chutes» si l'on n'a pas pris la précaution de codifier également les relations entre les mots clés et d'échancrer les trous correspondant aux relations. Car il faut pouvoir faire la distinction entre «l'action de  A sur  B» et «l'action de  B sur  A». Certaines fiches à trous centraux ont été conçues pour une sélection visuelle, mais le triage de la plupart des fiches à perforations centrales se fait mécaniquement. On glisse les fiches entre deux rouleaux métalliques reliés à un circuit électrique. Des brosses métalliques sont adaptées à l'un des rouleaux. Là où un trou a été percé, les rouleaux font contact, bouclant un circuit électrique qui active un mécanisme expulsant cette fiche du paquet. Ces machines peuvent aussi servir à imprimer un fichier complet sous forme de livre.
L'automatisation a désormais permis, pour l'essentiel, de remplacer ces procédés par l'utilisation d'ordinateurs, dans lesquels les fichiers-index sont entrés par l'intermédiaire d'un clavier et stockés sur des bandes magnétiques ou des disques. La recherche se fait au moyen du même clavier, et les résultats de chaque opération de recherche s'affichent sur un écran vidéotexte. Les progrès de la technologie informatique ont bien évidemment influé sur l'indexation, tant au niveau des pratiques d'indexation et de recherche qu'au niveau des théories traitant des divers langages documentaires.

Au début, quand l'ordinateur semblait offrir un potentiel de consultation et de recherche presque illimité grâce à la coordination de plusieurs termes ou mots clés distincts, beaucoup d'auteurs ont soutenu que les langages normalisés ou contrôlés n'étaient plus nécessaires pour les systèmes de codification et d'indexation: ils croyaient qu'une indexation «libre» par terme, à partir du langage naturel des auteurs, permettrait une consultation efficace. Sur ces bases ont été publiés certains index de types nouveaux. Le premier à connaître un succès appréciable s'appelait KWIC (key word in context  : mot clé dans le contexte). Ce type d'index utilise les titres des documents tels qu'ils sont donnés par les auteurs, ce qui permet de se passer de spécialistes de l'indexation. Chacun des mots clés du titre est, tour à tour, placé au centre de la page, et chaque entrée ne comporte qu'une seule ligne dactylographiée; les autres mots sont déplacés à droite et à gauche le long de cette ligne, selon que chaque mot clé occupe telle ou telle position dans le titre; la liste est imprimée en suivant l'ordre alphabétique des mots au centre de la page.

Une forme améliorée de l'index KWIC a reçu le nom de key word out of context  (mot clé hors du contexte), soit KWOC. Il s'agissait de répondre à l'une des critiques adressées au KWIC, à savoir l'aspect peu agréable de l'impression de chaque mot clé à son tour en début de ligne, suivi normalement du titre du document sous sa forme habituelle.
D'autres critiques sont plus importantes. D'abord le fait que le titre d'un texte ne décrit pas toujours le sujet de façon assez précise pour qu'on puisse retrouver commodément l'information. Ensuite que cette indexation «libre» des textes ne permet pas de rapprocher des sujets qui sont étroitement apparentés ou même désignés par des synonymes. Dans un des index KWIC américains, on trouve des titres qui ont pour mots clés À l'étranger , Étranger  et Outre-mer , qui sont presque des synonymes, mais ces titres se trouvent dispersés un peu partout dans l'index parce que les initiales des mots clés sont différentes. On a bien essayé d'amener les auteurs à rédiger des titres plus pertinents, mais sans grand succès, et on s'est même heurté à de fortes résistances. Cependant, la technique KWIC peut être maniée de façon plus satisfaisante par des indexeurs professionnels utilisant un vocabulaire contrôlé pour choisir les mots clés, au lieu de s'en tenir aux mots figurant dans les titres.
Le Bulletin signalétique  du C.N.R.S. est publié en plusieurs parties et contient des résumés de publications récentes parues dans un grand nombre de pays. La section  101, «sciences de l'information», contient une suite de résumés répartis en sept classes de  01 à 07, avec un index alphabétique permuté en français et en anglais comportant à la fin de chaque entrée lenuméro du résumé. Les éditions du Bulletin  utilisaient initialement un format de type KWIC :
Haut de page

Acquisition
document Catalogage
Catalogage
Catalogage
Etats-Unis 1608
Vedette matière 1788
Vedette titre 1769
Catalogage
analyse statistique
Vedette
Mot
Titre
Titre
1769
1780
  Catalogage Vedette
Vedette
Titre 1769
Matière 1768

Les éditions les plus récentes ont abandonné ce format pour le remplacer par un format de type KWOC, mais avec une analyse par sujet remplaçant le titre, les points montrant la position qu'occupe dans l'analyse par sujet le mot servant de vedette:

-  Indexation automatique
Thesaurus,..., Livre, 262
-  Livre
Thesaurus, Indexation automatique,..., 262
-  Thesaurus
..., Indexation automatique, Livre, 262.


Ce type d'index, qu'on appelle «permuté» ou «rotatif», peut aisément être utilisé avec des symboles de classification, ce qui a l'avantage de faire figurer chaque entrée à côté de celles qui traitent de sujets apparentés mais différents, comme dans l'index ci-dessus, qui renvoie aux documents classifiés selon la London Education Classification (classification pédagogique de l'agglomération de Londres). Cet index, contrairement à celui du Bulletin   du C.N.R.S., suivrait le même ordre si on le traduisait dans une autre langue.
Haut de page

Maj Buy Ban
Bap
Buv
Sociologie de la lecture (Recherches sur)
Jag Capacités et accès à l'éducation
Traitement de données : automatisation des calculs
  Maj Buv
Bux
Maj
Maj
Mal
Ban Sociologie de la lecture (Recherches sur)
Outils de recherche : accès aux ouvrages pertinents
Buv Ban Sociologie de la lecture (Recherches sur)
Jab Psychologie de l'enseignement de la lecture
Etudes sur l'orthographe


Les textes qui suivent les symboles de classification peuvent être des titres, comme ici, ou des mots clés comme dans l'actuel Bulletin  du C.N.R.S.
Haut de page

 
  Indexation alphabétique matières