| |
Thesaurus
Du fait que les imprimantes peuvent fournir les listes d'entrée
concernant un document et les placer sous autant de vedettes qu'on
le désire, les premiers utilisateurs furent tentés
de rejeter tout vocabulaire contrôlé (tel qu'une liste
de vedettes matières) et de s'en tenir aux termes du langage
naturel choisis par les auteurs, comme dans les premiers index KWIC.
Les défauts de cette méthode apparurent bientôt,
et on introduisit le mot «thesaurus» pour désigner
un vocabulaire contrôlé conçu en vue de l'utilisation
avec des index automatisés. Comme SYNTOL, un thesaurus peut
servir tout aussi bien pour un fichier établi à la
main. L'usage du mot «thesaurus» pour désigner
une liste de termes par sujets provient de l'ouvrage de P.
M. Roget, Thesaurus of English Words and Phrases
, publié en 1852, souvent réimprimé et révisé
par la suite. Il comporte deux parties: la première est une
liste de termes classés en catégories liées
à des notions abstraites (Existence, Quantité, Matière,
Temps, Espace, Facultés intellectuelles et morales, par exemple).
Certaines recouvrent exactement les catégories fondamentales
de Ranganathan, et chaque catégorie est subdivisée
en notions plus concrètes, comme dans le système à
facettes. La seconde partie est un index alphabétique qui
renvoie à la liste des catégories classifiées.
L'usage moderne du mot «thesaurus» en indexation fut introduit
par H. P. Luhn d'I.B.M.; il parla également de
«familles de notions», c'est-à-dire de catégories
de termes, qui devaient servir de base à un thesaurus; celui-ci,
muni d'une clé alphabétique, serait utilisé
pour l'indexation automatique. Un grand nombre de spécialistes
s'engouffrèrent dans cette brèche et se mirent à
construire des thesaurus dans ce but. Les premiers provenaient des
États-Unis et, à la différence du Roget, consistaient
presque entièrement en une liste alphabétique; ils
ne contenaient guère, en fait de systèmes de classification
par catégories, que des ébauches assez grossières.
Le système mondial d'information scientifique de l'U.N.E.S.C.O.
(UNISIST) a publié une définition généralement
acceptée de ce qu'est un thesaurus, fondée sur sa
fonction et sa structure. Comme tout vocabulaire contrôlé,
un thesaurus a plusieurs fonctions, mais les plus importantes sont:
fournir un vocabulaire normalisé pour un domaine, de façon
à assurer la cohérence du choix des termes d'indexation;
fournir une structure de renvois telle que les relations entre les
termes soient claires à la fois pour les indexeurs et pour
ceux qui consultent l'index. Une classification bien conçue
doit permettre l'insertion de termes nouveaux dans le thesaurus.
Elle doit aussi se prêter à une modulation de la recherche
informatisée, qui se fera plus générale ou
plus spécifique, plus large ou plus étroite, si le
terme qu'on a choisi en premier comme axe de recherche amène
à faire sortir du fichier un nombre trop petit ou trop grand
de références à des documents indexés
dans le fichier. Beaucoup d'organismes nationaux et internationaux
ont publié des thesaurus, ainsi que des instructions permettant
de les construire ou de les utiliser.
Au sein d'un thesaurus, la délimitation d'une catégorie
de sujets est déterminée par le consensus des spécialistes
de ce sujet, mais, lorsque le concepteur se conforme aux principes
de l'analyse par facettes, la structure de la section reflétera
fidèlement la logique interne du domaine considéré,
puisque les noms des facettes sont empruntés aux termes tels
qu'ils sont employés dans les documents et ouvrages eux-mêmes.
On peut citer par exemple le Thesaurofacettes de l'ingénierie
dans la English Electric Company, conçu par Jean Aitchison,
qui fut par la suite l'auteur du thesaurus de l'U.N.E.S.C.O. Actuellement,
les thesaurus contiennent une section systématique (outre
leur section alphabétique) et parfois plusieurs. Le thesaurus
des termes de science et d'ingénierie (TEST) du conseil supérieur
des ingénieurs américains contient un «index
permuté», un «index matières par catégorie»,
et un «index hiérarchique».
Outre les listes de termes - les «descripteurs»
-, un thesaurus contient deux autres éléments importants:
des définitions expliquant ce que signifient les termes et
des symboles exprimant les relations qui les unissent. Ces deux
éléments se trouvent d'habitude dans la section alphabétique
et leur introduction a été plus ou moins normalisée
sous la forme suivante:
- SN (Scope Note): «Note d'application», indication
d'extension, définit ou explique un terme.
- USE: équivalent à un renvoi Voir
pour un terme non utilisé.
- UF (Use for): la réciproque de USE, placée
sous le terme qui est effectivement employé.
- BT (Broader Term): terme générique dans une
disposition hiérarchique, se réfère à
la rubrique plus générale placée immédiatement
au-dessus.
- NT (Narrower Term): terme spécifique, renvoie au
descripteur plus spécifique placé immédiatement
au-dessous.
- RT (Related Term): terme associé, renvoie à
un ou plusieurs termes qui ont avec le premier un rapport utilisable,
mais ne figurent pas dans la même hiérarchie.
Il existe diverses variantes et divers perfectionnements de ces
symboles, mais ceux-ci sont les principaux et les plus utilisés.

|
|