Coulisses SemanticAll : alimentation des bases de connaissances
Bienvenue dans les coulisses de SemanticAll. Aujourd’hui nous allons voir comment sont alimentées les bases de connaissances (ou KB pour knowledge bases). Ce sont des humains qui sont en charge de cette tâche aidés de notre système Analysator et son machine learning .
De l’inconnu au connu
Analysator, le coeur de notre système connaît un très grand nombre de mots, mais certains ont échappé à son radar ! Il faut donc ajouter au fur et à mesure les oubliés lors de sessions de travail sur de l’analyse textuelle.
Si un mot est inconnu d’Analysator, il l’affiche en rouge pour que l’opérateur puisse le repérer facilement et l’ajouter à la base en cliquant dessus.
Même si le mot lui est totalement inconnu, Analysator peut tout de même déduire la nature de ce mot : nom commun, adjectif, noms propre, adverbe, locution nominale ou adjectivale etc…
Il aide l’opérateur à saisir le nouveau venu en lui indiquant non seulement sa nature mais aussi en suggérant les différentes flexions (pluriel, masculin, féminin) de ce mot.
Par exemple, s’il ne connaît pas le mot “cascadeur”, le système va faire gagner du temps à l’opérateur en le typant comme “nom commun” et en pré-remplissant les champs selon les graphies les plus probables (cascadeurs, cascadeuse, cascadeuses).
Ainsi l’opérateur n’a plus qu’à cliquer pour faire apprendre ce nouveau mot à Analysator au lieu de tout rentrer.
Bien sûr, dans de rares cas il arrive que le système ne suggère pas la bonne graphie ou le bon type, c’est alors que l’opérateur contrôle et corrige la suggestion. Analysator apprend donc de son “erreur” grâce au machine learning pour continuer de s’affiner et déduire de lui-même les différentes règles qui régissent la langue française.
Amener du sens
Maintenant que le mot est connu, le système peut commencer à l’exploiter, il reconnaît sa nature, ses différentes graphies flexionnelles, son genre, son nombre mais aussi sa fonction syntaxique dans la phrase. Toutefois le système n’en connaît pas encore le sens.
Chaque mot doit donc être catégorisé dans un ou plusieurs champs lexicaux, concernant des thématiques diverses comme le sport ou la justice ou encore des catégories de registre de langue ou de positif, négatif, sentiment.
Pour affiner ou préciser son sens, un mot peut avoir plusieurs relais pointant vers d’autres mots. Il y a bien sûr des relais synonymes, alias, antonymes, hyperonyme, lemme…
Les ajouts de mots se font soit au fil de l’eau à partir d’extractions textuelles ou par import massif uniquement pour les mots ne subissant pas de flexions comme les adverbes ou les noms propres.
Ces ajouts de mots, de relais et de catégories sont indispensables pour améliorer la pertinence de l’analyse sémantique pour des outils comme Catégorisator, Rédactor ou Transformator (en cours de développement) dont les démos sont disponibles pour test.
Si vous avez des questions, n’hésitez pas à nous contacter