| |
9. Indexation et intelligence artificielle
L'indexation est une pratique ancienne indispensable pour retrouver
rapidement les documents voulus. Jusqu'à une époque
récente, elle semblait réservée à l'intelligence
humaine. Car indexer ne consiste pas à créer des index
(tâche facilement automatisable) mais à affecter aux
documents des indices, des marques significatives de leur contenu,
à la suite d'une série d'opérations mentales
complexes et encore mal connues.
Pourtant, l'indexation est atteinte à son tour par l'irrésistible
progression des «machines à penser».
Genèse des recherches
en indexation automatique
Plusieurs facteurs ont incité les chercheurs en informatique
documentaire à tenter de concurrencer l'indexation humaine.
D'abord, les contraintes et les insuffisances inhérentes
à celle-ci: elle est coûteuse (il faut entre un quart
d'heure et une heure pour indexer un document); elle est tributaire
de la subjectivité de l'indexeur (deux analystes différents
indexent rarement un document de manière rigoureusement identique).
À l'inverse, les coûts de traitement informatique ne
cessent de baisser, et la machine est exempte de subjectivité.
Un autre avantage de l'indexation automatique est de pouvoir analyser
par le même procédé les textes des auteurs et
les requêtes de l'utilisateur, alors que dans un système
traditionnel celui-ci doit s'adapter aux termes choisis par l'indexeur.
Encore faut-il que l'ordinateur puisse produire des formules d'indexation
acceptables - sinon comparables à celles de l'indexeur. Or
les dernières recherches en traitement informatique des langues
(traduction automatique) et en sémantique (analyse conceptuelle,
réseaux sémantiques, analyseur automatique de texte)
ont mis à la disposition des concepteurs des outils efficaces,
du moins pour les documents textuels, qui sont encore les plus nombreux.

Fonction documentaire
du texte et mots vides
On a observé depuis longtemps un trait remarquable des documents
textuels: non seulement ils nous livrent des informations, mais
ils nous renseignent aussi sur le sujet traité puisqu'il
est impossible de parler d'un sujet sans le nommer. Autrement dit,
un texte quelconque comporte, en plus de sa fonction principale
d'information, une fonction accessoire d'auto-indexation.
Comme, en outre, un ordinateur peut facilement isoler et reconnaître
les mots d'un texte, le problème revient à sélectionner
les mots les plus significatifs. Cela, certes, n'est pas une mince
affaire. Mais une autre caractéristique remarquable, commune
à toutes les langues, permet une première sélection
à peu de frais: l'élimination des mots vides.
Une phrase est composée approximativement pour moitié
de termes lexicaux (les mots du dictionnaire), qui
ont un sens en eux-mêmes, indépendamment du contexte,
et de termes grammaticaux (prépositions, conjonctions,
pronoms, adjectifs numéraux, etc.), qui n'ont pas de signification
en dehors de leur contexte. La seconde catégorie étant
en nombre limité (quelques centaines), il est facile d'en
dresser la liste et de les faire éliminer automatiquement.
Par exemple, dans la phrase «agiter la bouteille avant de s'en
servir», un programme de sélection des mots significatifs
retiendra «agiter», «bouteille», «servir».
Un texte contenant cette phrase pourra donc être repéré
à l'interrogation par l'un de ces termes ou par une combinaison
de ceux-ci.
La recherche en texte
intégral
Cet exemple montre à la fois l'ingéniosité
du procédé et la médiocrité du résultat.
Les défauts de cette sélection rudimentaire sont évidents:
- tous les mots non vides sont retenus sur le même plan,
qu'ils soient ou non représentatifs du sujet principal du
document ;
- un mot variable, par exemple un verbe, apparaît souvent
dans le même texte sous des flexions différentes (voir,
vu, etc.), qui masquent leur appartenance au même mot type;
- seuls sont prélevés des mots isolés
(unitermes), alors que les termes significatifs sont souvent des
«syntagmes» (pluritermes): chemin de fer, banque de données,
sécurité sociale, etc. ;
- rappelons enfin les difficultés inhérentes
à la recherche en langage naturel (synonymie, polysémie).
Pourtant, malgré ses insuffisances, ce procédé
rudimentaire a été utilisé dès les années
1960 et il s'est révélé efficace dans des applications
particulières: les titres, qui sont des sortes de codes documentaires
naturels, produisent les index KWIC ou KWOC, déjà
mentionnés; les logiciels de recherche en texte intégral
(ou: texte libre) donnent de bons résultats quand ils s'appliquent
à des textes courts et à des domaines spécifiques.
Par exemple, les dépêches de l'Agence France-Presse,
indexées quotidiennement sans aucune intervention humaine,
peuvent être facilement retrouvées grâce au caractère
très sélectif des noms propres et des dates qui repèrent
un événement (base de données AGORA).
Par ailleurs, la plupart des bases de données scientifiques
(PASCAL) ou journalistiques (La Croix ) offrent, en
complément de l'interrogation sur les termes contrôlés
choisis par les indexeurs, la possibilité d'interroger en
vocabulaire libre sur les mots prélevés automatiquement
dans les titres (et parfois les résumés).
Les performances peuvent être améliorées si
l'on utilise la troncature (interrogation sur la racine d'un mot,
comme ` aliment *' pour ` alimenter, alimentation, alimentaire
'). De plus, les opérateurs de proximité permettent
de spécifier les conditions de distance entre les termes
choisis. Par exemple, la question «base * (+1) données»
sélectionnera «base de données» mais éliminera
«données de base» ou «bases de l'accord données
pour acquises».

|
|