Knowledge Management - Gestion des Connaissances

Indexation Recherche de Connaissances et XML

LAURENT Jean-Marc - Méthode OCSIMA Audit - Conseil - Développement - Formation

LuceneLucene

ThésaurusThésaurus

Le ThésaurusLe Thésaurus


Indexation Recherche : Les Connaissances

HTML est la norme de fait pour la diffusion à contenu statique sur intranet, mais comment l'obtenir : les traitements de texte actuels proposent dans leur menu une sortie HTML.

Le Rêve : OpenOffice.org Use OpenOffice.org

Tout le monde utilise la suite bureautique OpenOffice.org (voir : La gendarmerie nationale passe à OpenOffice, et : Linux: Ubuntu s'installe sur les PC des députés). Tout le monde remplit soigneusement les propriétés du fichier. Tout est très facile car tout est enregistré en fait au format XML, ce qui permet l'indexation des différents champs : contenu, titre et aussi auteur, ses coordonnées, ....

La Réalité

Il est impossible d'imposer un outil bureautique commun à un ensemble de rédacteurs. De nombreuses excellentes raisons seront toujours évoquées : "J'ai l'habitude de travailler avec ..., je ne vais pas changer. !" ou "Je sais utiliser telle fonction de ... pour écrire mes formules !" etc. La liste sera longue.

Il vaut mieux prévoir une hétérogénéité maximale.

Quels Formats pour les Connaissances ?

HTML

Il faut une version au format permettant une visualisation sur l'intranet : le format HTML. C'est le format standard et léger. (Le format PDF peut toujours être lu, mais il nécessite l'ouverture d'Acrobat Reader.) Les outils bureautiques permettent de réaliser directement une sortie des documents au format html.

TXT

Une version au format TXT facilite l'indexation du contenu : il serait possible d'indexer les pages HTML, mais il faudra alors suivre les liens : Microsoft Word pour chaque document .doc sauvegardé au format HTML, crée un répertoire de même nom avec l'extension "_fichier" ou "_file", suivant la version utilisée, qui peut contenir d'autres fichiers HTML, il faut alors suivre les liens. On peut toujours les préciser dans l'algorithme d'indexation, mais pour aujourd'hui pas pour demain ! Les outils bureautiques permettent de réaliser directement une sortie des documents au format txt.

Les Meta Données XML

Pourquoi des Meta-Données ?

Le plus simple est de relater un exemple : je recherchais avec le moteur Google des documents parlant de "dosages potentiométriques" (ne pas oublier de mettre les mots entre guillemets). Parmi les résultats affichés figurait mon site : cette phrase figure effectivement dans mon document de description du Knowledge Management, mais cela ne m'intéressait pas du tout. Je recherchais des documents ayant pour sujet la chimie. Un autre xemple : Je recherche un document écrit par Victor Hugo, mais je ne veux pas de documents parlant de Victor Hugo. Il faut pouvoir spécifier certaines données attachées au document. J'ai développé une interface (Fiche XML) qui permet de les saisir et de les enregistrer au format XML.

Pourquoi le Format XML pour les Meta Données ?

Un document enregistré sous ce format est plus lisible que des champs séparés par des ";" ou des tabulations. Les API Java permettent facilement de manipuler les noeuds obtenus.

Quels Champs Retenir ?

En premier, les coordonnées de l'auteur : elles permettront de le contacter. Elles constituent également la première brique d'un outil de Recherche d'Expertise : après avoir lu les documents, l'utilisateur souhaitera peut-être des éclaircissements, des renseignements complémentaires, ... Ces fiches permettent de répondre à la question : Qui est expert pour le domaine considéré ? Qui a publié sur ce sujet ?

fiche auteur
Fiche XML : l'onglet "Auteur"

Ensuite des renseignements concernant le document lui même : le sujet, le domaine (ou sous-sujet), le titre et le nom du fichier (le fichier xml créé portera le même nom). Certaines de ces données seront affichées avec le résultat et permettront la réalisation, par logiciel, d'un index (html) de navigation. La répartition des documents dans des domaines et des sujets est préférable à un "rangement en tas", permet le respect de règles de confidentialité et / ou sécurité, est à adapter pour chaque entreprise. La liste des sujets doit être établie à l'avance et proposée comme liste de choix au rédacteur.

fiche doc
Fiche XML : l'onglet "Document"

Enfin les Mots Clés et le Résumé : ce dernier fera partie du résultat de la recherche, il permettra une sélection plus facile des documents. Une liste de mots-clés sera également proposée à l'utilisateur pour définir sa recherche.


Fiche XML : l'onglet "Résumé"

Lorsque le rédacteur veut valider la fiche, une 'Alert' permet de visualiser les mots qui ne figurent pas dans le thésaurus ou dans le dictionnaire ce qui permet d'apporter les corrections à la fiche ou d'émettre des suggestions concernant le thésaurus.

La 'query' ci-dessous précise que le résultat de la recherche ne doit contenir que des documents dont le sujet est la 'chromatographie', qui ont pour mots-clés 'phase stationnaire' et 'coefficient de partage' et dont l'auteur n'est pas 'Dubreuil Pierre'.

Query Meta Data
Les Listes de Choix (pour la Recherche de Documents) sur les Meta Données

Le Dictionnaire et les Mots Vides

N.B. : les lettres accentuées sont maintenues : les mots 'soude' et 'soudé' sont différents.

Un dictionnaire spécifique au domaine doit également être constitué. Il permet de vérifier le contenu des documents indexés et des Fiches XML. Les fautes de frappe peuvent frapper n'importe où !!!

L'Analyser que j'ai défini indexe correctement "informatique" dans "l'informatique" ; un analyser peut à la rigueur corriger des erreurs du type '1Thésaurus', '2Dictionnaire', ... mais ne pourra pas apporter de corrections lorsque la numérotation utilise des lettres : 'aThésaurus', 'bDictionnaire', ...

La définition d'une liste de 'Mots Vides' est également très importante : ces mots vides non significatifs (le, la, les, un, une, des, ...) doivent être éliminés : ils augmentent la taille de l'index (ils apparaissent très souvent) et bruitent les réponses.

Autrefois, l'élimination de ces mots vides posait problème : une recherche sur "pomme de terre" retournait, après l'élimination du mot vide 'de', tous les documents parlant du fruit 'pomme' et de la 'Terre'. Il est maintenant possible, avec Lucene, de spécifier une contrainte de proximité : une recherche sur "pomme terre"~3 ne retournera que les documents où les mots 'pomme' et 'terre' apparaissent à l'intérieur de 3 mots consécutifs.

Actuellement je n'ai établi qu'un seul dictionnaire français, lorsque l'Analyser indexe un texte en langue anglaise, repéré par un nom de fichier terminé par '_en', il ne remplit pas la liste de mots ne figurant pas dans le dictionnaire. Il sera également possible de changer de dictionnaire, et d'en établir un par langue fréquemment utilisée.

L'étape d'indexation et de recherche doivent utiliser le même Analyser.


LuceneLucene

ThésaurusThésaurus

Le ThésaurusLe Thésaurus


LAURENT Jean-Marc - Consultant Gestion des Connaissances - OCSIMA Conseil Knowledge Management

Dernière révision décembre 05

Plan du site OCSIMA

Pour nous écrire, cliquez ici :