Requêtes sémantiques : Bing améliore ses résultats de recherches grâce au deep learning
Chun Ming Chin, directeur technique du département Recherche et Intelligence Artificielle chez Microsoft a récemment publié sur le blog officiel de Microsoft comment le Deep Learning a permis de rendre plus pertinents les résultats de recherche de Bing en améliorant la compréhension des requêtes des internautes.
Plusieurs requêtes, une même signification : comprendre les requêtes sémantiques.
Pour illustrer ce problème de compréhension sémantique initialement rencontré, Bing prend l’exemple de la date de péremption figurant sur les cannettes de soda. Si l’on formule une requête de type « Combien de temps une cannette de soda se conserve-t-elle ? », il est fort probable que l’on passe à côté de réponses pourtant pertinentes car la requête chercherait précisément « cannette de soda » sans s’arrêter aux synonymes (limonade, boisson gazeuse, boissons rafraîchissantes ) ou hyponymes de soda (coca-cola, pepsi, soda light…). Pour être sûr de ne rien louper, l’internaute doit alors requêter plusieurs fois de suite.
Un temps qui pourra nous être épargné grâce au deep learning.
Comment le deep learning est utilisé par Bing ?
Chaque mot est représenté comme une quantité numérique connue sous le nom de vecteur. Les mots ayant des significations similaires obtiennent des vecteurs similaires et peuvent être projetés sur un graphes. Ces vecteurs permttent aux mots ayant des significations similaires d’être physiquement proches les uns des autres.
Des mots tels que « homard », « viande », « crabe », « steak » sont tous regroupés, de même que l’on peut voir « Starbucks » proche du mot « donuts », « petit déjeuner », café, thé, etc. L’exemple ci-dessus ne fait apparaître que 2 dimensions, mais certains projets de Bing doivent gérer au moins 300 dimensions ce qui explique la précision et la finesse des systèmes qui s’affinent avec le temps.
Cette information de proximité où plus un mot et proche et plus il est similaire ou dans le même univers sert à représenter ces collections de mots pour les requêtes similaires.
Dans cet exemple , un moteur traditionnel pourrait théoriquement remplacer «animaux» par «chats» et «détruire» par «souiller» mais ce serait une réécriture trop importante qui produirait vraisemblablement beaucoup de mauvaises réécritures car elle ne s’adapterait pas à tous les contextes. Bing insiste sur la nécessité de capturer la sémantique de toute la phrase avant de déclarer qu’une requête est similaire à une autre.
De plus, Bing ne s’arrête pas à comprendre la requête de l’utilisateur mais s’affaire aussi à étendre l’analyse aux résultats eux-mêmes, c’est à dire la page web avec son titre, son url, ses textes et ancres de liens.
Pour aller au-delà des approches traditionnelles de jumelage de mots clés et de classements automatisés dans des arbres des pages Web, le deep learning améliore le processus en générant automatiquement des fonctionnalités supplémentaires qui capturent plus exhaustivement l’intention de la requête et les caractéristiques d’une page Web. Chaque paire requête-page Web devient ainsi l’unité fondamentale de classement. Le modèle d’apprentissage est aussi aidé par les clics de l’internautes sur les pages d’une requête de recherche et permet ainsi également à Bing d’améliorer encore sa pertinence.