Accueil  
Contact Plan du site
logo PBL
     
 

Dossier tech :
GED




introduction

règles catalo-graphiques

indexation matières

analyse par facettes

SYNTOL

codification et notation

indexation alphabétique matières

indexation automatique

PRECIS

thésaurus

recherche dans un index

indexation et intelligence artificielle

indexation sélective «intelligente»

 
     
     
 

Thesaurus


Du fait que les imprimantes peuvent fournir les listes d'entrée concernant un document et les placer sous autant de vedettes qu'on le désire, les premiers utilisateurs furent tentés de rejeter tout vocabulaire contrôlé (tel qu'une liste de vedettes matières) et de s'en tenir aux termes du langage naturel choisis par les auteurs, comme dans les premiers index KWIC. Les défauts de cette méthode apparurent bientôt, et on introduisit le mot «thesaurus» pour désigner un vocabulaire contrôlé conçu en vue de l'utilisation avec des index automatisés. Comme SYNTOL, un thesaurus peut servir tout aussi bien pour un fichier établi à la main. L'usage du mot «thesaurus» pour désigner une liste de termes par sujets provient de l'ouvrage de P.  M.  Roget, Thesaurus of English Words and Phrases  , publié en 1852, souvent réimprimé et révisé par la suite. Il comporte deux parties: la première est une liste de termes classés en catégories liées à des notions abstraites (Existence, Quantité, Matière, Temps, Espace, Facultés intellectuelles et morales, par exemple). Certaines recouvrent exactement les catégories fondamentales de Ranganathan, et chaque catégorie est subdivisée en notions plus concrètes, comme dans le système à facettes. La seconde partie est un index alphabétique qui renvoie à la liste des catégories classifiées.

L'usage moderne du mot «thesaurus» en indexation fut introduit par H.  P.  Luhn d'I.B.M.; il parla également de «familles de notions», c'est-à-dire de catégories de termes, qui devaient servir de base à un thesaurus; celui-ci, muni d'une clé alphabétique, serait utilisé pour l'indexation automatique. Un grand nombre de spécialistes s'engouffrèrent dans cette brèche et se mirent à construire des thesaurus dans ce but. Les premiers provenaient des États-Unis et, à la différence du Roget, consistaient presque entièrement en une liste alphabétique; ils ne contenaient guère, en fait de systèmes de classification par catégories, que des ébauches assez grossières. Le système mondial d'information scientifique de l'U.N.E.S.C.O. (UNISIST) a publié une définition généralement acceptée de ce qu'est un thesaurus, fondée sur sa fonction et sa structure. Comme tout vocabulaire contrôlé, un thesaurus a plusieurs fonctions, mais les plus importantes sont: fournir un vocabulaire normalisé pour un domaine, de façon à assurer la cohérence du choix des termes d'indexation; fournir une structure de renvois telle que les relations entre les termes soient claires à la fois pour les indexeurs et pour ceux qui consultent l'index. Une classification bien conçue doit permettre l'insertion de termes nouveaux dans le thesaurus. Elle doit aussi se prêter à une modulation de la recherche informatisée, qui se fera plus générale ou plus spécifique, plus large ou plus étroite, si le terme qu'on a choisi en premier comme axe de recherche amène à faire sortir du fichier un nombre trop petit ou trop grand de références à des documents indexés dans le fichier. Beaucoup d'organismes nationaux et internationaux ont publié des thesaurus, ainsi que des instructions permettant de les construire ou de les utiliser.

Au sein d'un thesaurus, la délimitation d'une catégorie de sujets est déterminée par le consensus des spécialistes de ce sujet, mais, lorsque le concepteur se conforme aux principes de l'analyse par facettes, la structure de la section reflétera fidèlement la logique interne du domaine considéré, puisque les noms des facettes sont empruntés aux termes tels qu'ils sont employés dans les documents et ouvrages eux-mêmes. On peut citer par exemple le Thesaurofacettes  de l'ingénierie dans la English Electric Company, conçu par Jean Aitchison, qui fut par la suite l'auteur du thesaurus de l'U.N.E.S.C.O. Actuellement, les thesaurus contiennent une section systématique (outre leur section alphabétique) et parfois plusieurs. Le thesaurus des termes de science et d'ingénierie (TEST) du conseil supérieur des ingénieurs américains contient un «index permuté», un «index matières par catégorie», et un «index hiérarchique».

Outre les listes de termes -  les «descripteurs»  -, un thesaurus contient deux autres éléments importants: des définitions expliquant ce que signifient les termes et des symboles exprimant les relations qui les unissent. Ces deux éléments se trouvent d'habitude dans la section alphabétique et leur introduction a été plus ou moins normalisée sous la forme suivante:

-  SN (Scope Note): «Note d'application», indication d'extension, définit ou explique un terme.
-  USE: équivalent à un renvoi Voir  pour un terme non utilisé.
-  UF (Use for): la réciproque de USE, placée sous le terme qui est effectivement employé.
-  BT (Broader Term): terme générique dans une disposition hiérarchique, se réfère à la rubrique plus générale placée immédiatement au-dessus.
-  NT (Narrower Term): terme spécifique, renvoie au descripteur plus spécifique placé immédiatement au-dessous.
-  RT (Related Term): terme associé, renvoie à un ou plusieurs termes qui ont avec le premier un rapport utilisable, mais ne figurent pas dans la même hiérarchie.

Il existe diverses variantes et divers perfectionnements de ces symboles, mais ceux-ci sont les principaux et les plus utilisés.
Haut de page

 
  PRECIS