Knowledge Management - Gestion des Connaissances

Recherche Sémantique de Connaissances 
 


Pourquoi mon intérêt pour Lucene ?

Lucene

Le choix de la brique de départ d’un projet est généralement angoissant, nous sommes rassurés par le profile de Doug Cutting et par le nombre de projets autour de Lucene :

Indexation Recherche avec Lucene

Mon idée de départ est d’utiliser un Thésaurus, mais il faut le(s) construire. La lecture du site Information Management m’a conforté dans cette idée de départ. Ce site donne des indications sur l’importance (Why do we need a thesaurus?), la construction et l’utilisation d’un thésaurus, et des logiciels pour la construction et l’édition de thésaurus.

Thésaurus, Lucene, XML, Fuzzy Help

J’ai développé plusieurs applications (dont une liant un "crawler") avec Lucene, la plus intéressante ici : Adjonction d’un Thésaurus XML à Lucene. Au chapitre Thésaurus et meta data XML est indiquée une Fuzzy Help basée sur un calcul de ’distance de Levenshtein’ et un ’Porter stemming algorithm’, elle poura être lancée à la demande de l’utilisteur. Les développements (jsp + Tomcat) avec Lucene + fiches xml de meta data + Thésaurus + fuzzy help aboutissent à :

Query Result
-name:"laurent jean marc" +contents:know* +contents:mangement~ Retourne la liste des documents dont le nom de l’auteur n’est pas laurent jean-marc, qui contiennent un mot qui commence par know et un mot qui s’écrit à peu près mangement
"acide butyrique" Retourne le document "Exemples de Dosages d’Acides par la Soude" qui ne contient pas la chaîne mais qui parle de l’acide benzoique, frère dans le Thésaurus
"acide acétique" Retourne entre autres le document "Determination of the Ka of a Weak Acid" qui ne contient pas la chaîne mais qui contient "Formic and acetic acids"

Thésaurus ou Data Mining auto-apprenant ?

L'article sur la Classification Automatique selon Total ou l'Apec présente deux approches différentes :

Recherche d’Information

Meta Moteurs de recherche sur le Web

Recherche Sémantique de Connaissances

Mes réflexions portent sur le développement d'outils de recherche automatisée : agents logiciels (systèmes multi agents) apprenant (acquisition automatique de connaissances) à rechercher (Lucene), reconnaître (langage xml, thésaurus) et classer (case based reasoning, clustering) les nouvelles informations susceptibles (raisonnement approximatif) d'intéresser l'utilisateur. Peut-on trouver avec Google et Dmoz ces sites qui m'intéressent SEKT (Semantically-Enabled Knowledge Technologies) et NeOn (Lifecycle Support for Networked Ontologies)?


LAURENT Jean-Marc - Conseil Gestion des Connaissances - OCSIMA - Consultant Knowledge Management
Valid XHTML 1.0 Strict Dernière révision avril 07 Pour nous écrire, cliquez ici :