Accueil  
Contact Plan du site
logo PBL
     
 

Dossier tech :
GED




introduction

règles catalo-graphiques

indexation matières

analyse par facettes

SYNTOL

codification et notation

indexation alphabétique matières

indexation automatique

PRECIS

thésaurus

recherche dans un index

indexation et intelligence artificielle

indexation sélective «intelligente»

 
     
     
 

L'indexation sélective «intelligente»


Plusieurs équipes de chercheurs pensent qu'on peut aller beaucoup plus loin dans la qualité de l'indexation automatique en utilisant ingénieusement certaines propriétés du langage et des produits du langage (le discours). Ici, l'indexation du document n'est plus traitée de façon autonome, mais conçue comme élément du système d'information dont le pendant est l'indexation de la question.

La fréquence d'utilisation  des termes dans le discours fournit des indications utiles. Pour tenir le rôle d'un bon descripteur, un terme doit différencier fortement le document auquel il est attaché des autres documents. Or, en relevant dans un grand nombre de textes le nombre d'apparitions (occurrences) de tous les mots, on peut affecter à chacun un indice moyen de fréquence (par exemple: 1/1  000). Si, dans un document textuel, l'indice de fréquence d'un mot non vide est très supérieur à son indice moyen, il y a de fortes raisons de penser qu'il s'agit d'un bon descripteur. On peut facilement calculer pour chaque mot du texte à indexer le rapport entre les deux indices et imposer un seuil (par exemple: O  3) à ce rapport afin d'éliminer les termes les moins significatifs.

L'analyse morpho-syntaxique des textes , aujourd'hui largement maîtrisée, offre de nombreuses ressources: on a remarqué que les noms (et particulièrement les noms sujets) étaient plus représentatifs du thème d'un document que les verbes ou les adjectifs. En reconnaissant la catégorie grammaticale et la fonction d'un mot, un programme informatique permet de pondérer les mots non vides selon ces critères. De plus, l'identification des terminaisons des mots variables, couplée à la consultation d'un dictionnaire de la langue, permet de reconnaître sous la diversité des formes l'appartenance à un même mot type.
D'autres chercheurs s'attaquent à la faiblesse principale de l'indexation automatique: la sélection de mots isolés. La reconnaissance des syntagmes nominaux (moteur d'alternateur, indexation automatique) et de leur fonction syntaxique permet une recherche beaucoup plus précise. L'équipe lyonnaise SYDO (G.  Bouché et M.  Le Guern) travaille à affiner cette méthode prometteuse.

En intégrant un réseau de relations sémantiques aux systèmes d'analyse automatique du contenu, on peut aller encore plus loin, et fournir à l'ordinateur un semblant de connaissance des concepts et de leurs relations. Ces méthodes relèvent des systèmes experts, très en vogue depuis quelques années. Si, par exemple, on intègre à un logiciel un thesaurus (cf. L'indexation automatique  ), on peut enrichir l'indexation en ajoutant aux termes retenus des termes équivalents ou plus généraux (exemple: vérification X contrôle, surveillance).
Ces systèmes, dont plusieurs ont fait leur preuve, restent coûteux en temps machine. Il est probable qu'ils ne rivaliseront jamais avec la finesse de l'indexation humaine. Mais ils peuvent en être un complément ou même un substitut. Les années 1990 ont permis le développement de tels systèmes, parallèlement à la traduction assistée par ordinateur.

Signalons le foisonnement des logiciels commercialisés, SPIRIT (méthode statistique et linguistique), ALEXIS (méthode linguistique et sémantique), SINTEX (sélection automatique de descripteurs soumise au contrôle d'un indexeur), BASIS, TEXTO, SUPERDOC et leurs diverses versions.
Haut de page

 
  Indexation et intelligence artificielle