| |
7. L'indexation automatique
Assez tôt dans l'histoire de l'automatisation, on s'est rendu
compte qu'on pourrait se servir de machines pour indexer. Les premiers
procédés, qui convenaient particulièrement
à des index de petite dimension, utilisaient des fiches sur
lesquelles on avait imprimé un quadrillage de perforation.
Ces fiches à perforation centrale ou marginale se répartissent
en deux types: les fiches par terme, où chaque fiche représente
un mot clé, et les fiches par item, où chaque fiche
représente un document numéroté. Sur les fiches
par terme, on perfore les cases correspondant aux numéros
des documents qui traitent du sujet évoqué par le
terme. Sur les fiches par item, on perfore les cases correspondant
aux divers sujets dont traite le document (item) fiché. Certaines
fiches sont destinées à être perforées
sur les bords, d'autres dans les cases d'un quadrillage couvrant
toute la fiche. Il existe plusieurs façons d'utiliser les
fiches pour une recherche; pour les fiches à perforations
marginales, on repère le trou correspondant au numéro
du sujet recherché, on y enfonce une aiguille qui embroche
toutes les fiches, et on soulève le paquet: on voit alors
tomber les fiches où ce trou a été découpé.
Ces procédés permettent de faire une recherche croisée
sur plusieurs mots clés en une seule opération de
recherche, mais risquent d'aboutir à de «fausses chutes»
si l'on n'a pas pris la précaution de codifier également
les relations entre les mots clés et d'échancrer les
trous correspondant aux relations. Car il faut pouvoir faire la
distinction entre «l'action de A sur B» et
«l'action de B sur A». Certaines fiches à
trous centraux ont été conçues pour une sélection
visuelle, mais le triage de la plupart des fiches à perforations
centrales se fait mécaniquement. On glisse les fiches entre
deux rouleaux métalliques reliés à un circuit
électrique. Des brosses métalliques sont adaptées
à l'un des rouleaux. Là où un trou a été
percé, les rouleaux font contact, bouclant un circuit électrique
qui active un mécanisme expulsant cette fiche du paquet.
Ces machines peuvent aussi servir à imprimer un fichier complet
sous forme de livre.
L'automatisation a désormais permis, pour l'essentiel, de
remplacer ces procédés par l'utilisation d'ordinateurs,
dans lesquels les fichiers-index sont entrés par l'intermédiaire
d'un clavier et stockés sur des bandes magnétiques
ou des disques. La recherche se fait au moyen du même clavier,
et les résultats de chaque opération de recherche
s'affichent sur un écran vidéotexte. Les progrès
de la technologie informatique ont bien évidemment influé
sur l'indexation, tant au niveau des pratiques d'indexation et de
recherche qu'au niveau des théories traitant des divers langages
documentaires.
Au début, quand l'ordinateur semblait offrir un potentiel
de consultation et de recherche presque illimité grâce
à la coordination de plusieurs termes ou mots clés
distincts, beaucoup d'auteurs ont soutenu que les langages normalisés
ou contrôlés n'étaient plus nécessaires
pour les systèmes de codification et d'indexation: ils croyaient
qu'une indexation «libre» par terme, à partir du
langage naturel des auteurs, permettrait une consultation efficace.
Sur ces bases ont été publiés certains index
de types nouveaux. Le premier à connaître un succès
appréciable s'appelait KWIC (key word in context
: mot clé dans le contexte). Ce type d'index utilise les
titres des documents tels qu'ils sont donnés par les auteurs,
ce qui permet de se passer de spécialistes de l'indexation.
Chacun des mots clés du titre est, tour à tour, placé
au centre de la page, et chaque entrée ne comporte qu'une
seule ligne dactylographiée; les autres mots sont déplacés
à droite et à gauche le long de cette ligne, selon
que chaque mot clé occupe telle ou telle position dans le
titre; la liste est imprimée en suivant l'ordre alphabétique
des mots au centre de la page.
Une forme améliorée de l'index KWIC a reçu
le nom de key word out of context (mot clé hors
du contexte), soit KWOC. Il s'agissait de répondre à
l'une des critiques adressées au KWIC, à savoir l'aspect
peu agréable de l'impression de chaque mot clé à
son tour en début de ligne, suivi normalement du titre du
document sous sa forme habituelle.
D'autres critiques sont plus importantes. D'abord le fait que le
titre d'un texte ne décrit pas toujours le sujet de façon
assez précise pour qu'on puisse retrouver commodément
l'information. Ensuite que cette indexation «libre» des
textes ne permet pas de rapprocher des sujets qui sont étroitement
apparentés ou même désignés par des synonymes.
Dans un des index KWIC américains, on trouve des titres qui
ont pour mots clés À l'étranger , Étranger
et Outre-mer , qui sont presque des synonymes, mais ces titres
se trouvent dispersés un peu partout dans l'index parce que
les initiales des mots clés sont différentes. On a
bien essayé d'amener les auteurs à rédiger
des titres plus pertinents, mais sans grand succès, et on
s'est même heurté à de fortes résistances.
Cependant, la technique KWIC peut être maniée de façon
plus satisfaisante par des indexeurs professionnels utilisant un
vocabulaire contrôlé pour choisir les mots clés,
au lieu de s'en tenir aux mots figurant dans les titres.
Le Bulletin signalétique du C.N.R.S. est publié
en plusieurs parties et contient des résumés de publications
récentes parues dans un grand nombre de pays. La section
101, «sciences de l'information», contient une suite de
résumés répartis en sept classes de 01
à 07, avec un index alphabétique permuté en
français et en anglais comportant à la fin de chaque
entrée lenuméro du résumé. Les éditions
du Bulletin utilisaient initialement un format de type
KWIC :

|
Acquisition
|
document |
Catalogage
Catalogage
Catalogage |
Etats-Unis
1608
Vedette matière 1788
Vedette titre 1769 |
|
Catalogage
analyse statistique
|
Vedette
Mot |
Titre
Titre |
1769
1780 |
| |
Catalogage |
Vedette
Vedette
|
Titre
1769
Matière 1768 |
Les éditions les plus récentes ont abandonné
ce format pour le remplacer par un format de type KWOC, mais avec
une analyse par sujet remplaçant le titre, les points montrant
la position qu'occupe dans l'analyse par sujet le mot servant de
vedette:
- Indexation automatique
Thesaurus,..., Livre, 262
- Livre
Thesaurus, Indexation automatique,..., 262
- Thesaurus
..., Indexation automatique, Livre, 262.
Ce type d'index, qu'on appelle «permuté» ou «rotatif»,
peut aisément être utilisé avec des symboles
de classification, ce qui a l'avantage de faire figurer chaque entrée
à côté de celles qui traitent de sujets apparentés
mais différents, comme dans l'index ci-dessus, qui renvoie
aux documents classifiés selon la London Education Classification
(classification pédagogique de l'agglomération de
Londres). Cet index, contrairement à celui du Bulletin
du C.N.R.S., suivrait le même ordre si on le traduisait
dans une autre langue.

| Maj |
Buy |
Ban
Bap
Buv |
Sociologie
de la lecture (Recherches sur)
Jag Capacités et accès à l'éducation
Traitement de données : automatisation des calculs |
| |
Maj |
Buv
Bux
Maj
Maj
Mal |
Ban
Sociologie de la lecture (Recherches sur)
Outils de recherche : accès aux ouvrages pertinents
Buv Ban Sociologie de la lecture (Recherches sur)
Jab Psychologie de l'enseignement de la lecture
Etudes sur l'orthographe |
Les textes qui suivent les symboles de classification peuvent être
des titres, comme ici, ou des mots clés comme dans l'actuel
Bulletin du C.N.R.S.

|
|