| |
L'indexation sélective «intelligente»
Plusieurs équipes de chercheurs pensent qu'on peut aller
beaucoup plus loin dans la qualité de l'indexation automatique
en utilisant ingénieusement certaines propriétés
du langage et des produits du langage (le discours). Ici, l'indexation
du document n'est plus traitée de façon autonome,
mais conçue comme élément du système
d'information dont le pendant est l'indexation de la question.
La fréquence d'utilisation des termes dans le
discours fournit des indications utiles. Pour tenir le rôle
d'un bon descripteur, un terme doit différencier fortement
le document auquel il est attaché des autres documents. Or,
en relevant dans un grand nombre de textes le nombre d'apparitions
(occurrences) de tous les mots, on peut affecter à chacun
un indice moyen de fréquence (par exemple: 1/1 000).
Si, dans un document textuel, l'indice de fréquence d'un
mot non vide est très supérieur à son indice
moyen, il y a de fortes raisons de penser qu'il s'agit d'un bon
descripteur. On peut facilement calculer pour chaque mot du texte
à indexer le rapport entre les deux indices et imposer un
seuil (par exemple: O 3) à ce rapport afin d'éliminer
les termes les moins significatifs.
L'analyse morpho-syntaxique des textes , aujourd'hui largement
maîtrisée, offre de nombreuses ressources: on a remarqué
que les noms (et particulièrement les noms sujets) étaient
plus représentatifs du thème d'un document que les
verbes ou les adjectifs. En reconnaissant la catégorie grammaticale
et la fonction d'un mot, un programme informatique permet de pondérer
les mots non vides selon ces critères. De plus, l'identification
des terminaisons des mots variables, couplée à la
consultation d'un dictionnaire de la langue, permet de reconnaître
sous la diversité des formes l'appartenance à un même
mot type.
D'autres chercheurs s'attaquent à la faiblesse principale
de l'indexation automatique: la sélection de mots isolés.
La reconnaissance des syntagmes nominaux (moteur d'alternateur,
indexation automatique) et de leur fonction syntaxique permet une
recherche beaucoup plus précise. L'équipe lyonnaise
SYDO (G. Bouché et M. Le Guern) travaille à
affiner cette méthode prometteuse.
En intégrant un réseau de relations sémantiques
aux systèmes d'analyse automatique du contenu, on peut aller
encore plus loin, et fournir à l'ordinateur un semblant de
connaissance des concepts et de leurs relations. Ces méthodes
relèvent des systèmes experts, très en vogue
depuis quelques années. Si, par exemple, on intègre
à un logiciel un thesaurus (cf. L'indexation automatique
), on peut enrichir l'indexation en ajoutant aux termes retenus
des termes équivalents ou plus généraux (exemple:
vérification X contrôle, surveillance).
Ces systèmes, dont plusieurs ont fait leur preuve, restent
coûteux en temps machine. Il est probable qu'ils ne rivaliseront
jamais avec la finesse de l'indexation humaine. Mais ils peuvent
en être un complément ou même un substitut. Les
années 1990 ont permis le développement de tels systèmes,
parallèlement à la traduction assistée par
ordinateur.
Signalons le foisonnement des logiciels commercialisés, SPIRIT
(méthode statistique et linguistique), ALEXIS (méthode
linguistique et sémantique), SINTEX (sélection automatique
de descripteurs soumise au contrôle d'un indexeur), BASIS,
TEXTO, SUPERDOC et leurs diverses versions.

|
|