Apprentissage semi-supervisé pour la classification des documents

Interview Mikhail Kamalov – Publication scientifique

Mikhail Kamalov est doctorant à l’INRIA, un institut de recherche français. Il travaille aussi en collaboration avec MyDataModels, start-up spécialisée dans l’apprentissage automatique – Machine Learning – dans le Small Data (petites quantités de données). MyDataModels sponsorise son doctorat. Son directeur de thèse à l’INRIA est Konstantin Avratchenkov, directeur de recherche à l’INRIA au sein de l’équipe de recherche NEO. Son superviseur à MyDataModels est Carlo Fanara, un scientifique senior responsable du département de recherche.

Bonjour Mikhail, tu as récemment publié un article lors d’une conférence scientifique ?

Oui, j’ai publié un article intitulé « GenPR » : Generative PageRank Framework for Semi-supervised Learning on Citation Graphs ». Je l’ai présenté à la 9ème conférence sur l’Intelligence Artificielle et le langage naturel (AINL). Elle s’est tenue en distanciel, entre le 7 et le 9 octobre 2020.

Cela semble complexe. De quoi s’agit-il ?

Il s’agit de l’application d’algorithmes d’apprentissage semi-supervisés à la classification des documents.

Qu’est-ce qu’un algorithme semi-supervisé ?

Pour comprendre les algorithmes semi-supervisés, il faut d’abord comprendre les algorithmes de Machine Learning supervisés 🙂

OK, alors qu’est-ce que le Machine Learning supervisé ?

Dans le Machine Learning supervisé, on fournit à l’algorithme un ensemble de données divisé préalablement en classes. Chaque donnée individuelle est étiquetée, c’est-à-dire qu’elle est marquée comme appartenant à une classe, elle est ‘classée’. Pour entraîner le modèle, cet ensemble de données est fourni entièrement étiqueté (classé). Une fois que le modèle est entraîné, il classe automatiquement les nouvelles données non encore  étiquetées dans l’une des classes existantes. En bref, toutes les données sont classées et étiquetées.

Et maintenant, revenons au Machine Learning semi-supervisé ?

Dans les algorithmes d’apprentissage semi-supervisé, seule une petite quantité de données est étiquetée, c’est-à- dire associée à une classe. En général, un ou deux éléments par classe sont étiquetés. Et il y a de grandes quantités de données non étiquetées donc non classifiées. L’approche de l’apprentissage semi-supervisé permet de gérer à la fois des données étiquetées (donc classifiées) et des données non étiquetées (donc non classifiées). Le modèle apprend à regrouper entre elles des données similaires.

Qu’en est-il de l’apprentissage non supervisé ?

Il existe aussi. Dans ce cas, aucune des données utilisées n’est étiquetée (donc classifiée). C’est à l’algorithme d’apprentissage non supervisé de créer des classes et d’assigner les données dans chaque classe. L’apprentissage non supervisé est consommateur de temps et de ressources informatiques. L’apprentissage supervisé consomme des ressources humaines pour classifier l’ensemble des données et les étiqueter. L’apprentissage semi-supervisé est un compromis en termes de temps de personnel et de ressources informatiques consommées.

Le choix de l’algorithme d’apprentissage semi-supervisé est-il une question de répartition des ressources ?

Pas seulement. Dans la plupart des cas d’utilisation réelle, il y a peu de données étiquetées et classifiées. L’ apprentissage semi-supervisé est bien adapté à ces cas de figure. Il classifie les données et attribue automatiquement les étiquettes manquantes.

Et quel était le cas d’utilisation que vous vouliez aborder avec cet article?

La classification des articles et des documents basée sur des algorithmes semi-supervisés.

Qu’est-ce que cela signifie ?

Nous disposons d’un énorme ensemble de documents à classer en plusieurs catégories. Avec seulement quelques documents étiquetés par classe (donc attribués à une classe), nous avons créé un algorithme performant qui peut classer chacun des documents (présents en quantité massive) dans une des catégories.

Comment avez-vous réussi à faire cela ?

Nous avons utilisé d’autres informations présentes dans le texte pour compenser le manque de données classées et étiquetées. Nous avons notamment utilisé le NLP, le Natural Language Processing.

Qu’est-ce que le NLP ?

Le NLP est le traitement du langage naturel. C’est la discipline de la data science qui permet l’analyse et la compréhension des langues. La classification des documents (le but de notre article) est un sous-domaine du NLP.

Pourriez-vous être plus précis ?

Nous avons travaillé avec deux concepts : « ensemble de mots » et « réseau de citations ».

En quoi consistent ces concepts ?

Dans un document, un ensemble de mots est utilisé. Selon le sujet et la longueur, un article standard peut employer en moyenne entre 2000 et 5000 termes différents. C’est le groupe de mots utilisé dans l’article. Aujourd’hui, ces ensembles de mots sont utilisés tels quels, sans remise en cause ni modification. Nous avons remis cela en question dans notre article.

Intéressant. Qu’en est-il du réseau de citations ?

Chaque article scientifique cite des sources. Chaque source cite d’autres sources. Et ainsi de suite. Cela crée un maillage d’articles connexes cités les uns par les autres. C’est ce que nous appelons le réseau de citation.

Vous avez donc utilisé l’ensemble de mots et le réseau de citations sur des données non classifiées ?

Nous avons utilisé les concepts d’ensemble de mots et de réseau de citations sur toutes les données, classées et non classées, pour trouver des points communs entre les articles et les rassembler.

Nous avons fait plus que cela. Nous avons réduit la taille des ensembles de mots en utilisant des réseaux de neurones.

Pourquoi ?

Avec un ensemble de mots plus petit et plus pertinent, il est plus facile d’établir des corrélations entre des articles similaires. Nous avons utilisé l’auto-codeur variationnel pour effectuer cette réduction.

Le modèle tire des leçons et apprend des articles déjà classifiés et étiquetés, de l’ensemble de mots et du réseau de citations. Le modèle est amélioré étape par étape en réduisant le nombre de mots, en améliorant le réseau de citations et en classifiant plus de documents.

Avez-vous utilisé des réseaux de neurones ailleurs ?

Pour classer les articles, nous avons utilisé l’algorithme PageRank intégré dans un réseau de neurones.

Quelles sont les performances de votre algorithme ?

Nous l’avons testé sur trois ensembles de documents différents : les articles de PubMed, ceux de Citeseer et Cora. Il a surpassé en performance les algorithmes de classification existants sur ces trois articles.

Félicitations. Est-ce la raison pour laquelle votre article a été publié ?

La performance de l’algorithme proposé est bien sûr cruciale, mais ce n’est pas le seul critère.

Quel a été pour vous le plus grand défi à relever pour faire accepter ce document ?

En tant qu’étudiant en doctorat, j’étais très fier lorsque cet article a été publié. Mais c’est arrivé après plusieurs refus. Et j’ai beaucoup appris de ces rejets. J’ai appris que, même si le contenu scientifique sur lequel j’écrivais était bon, ce n’était pas suffisant. Le document devait être didactique et compréhensible. Mes premiers articles ne l’étaient pas. Mais grâce à l’encadrement que j’ai reçu de mes superviseurs, j’ai appris à améliorer cela. C’est une réussite car je partage le résultat de plusieurs mois de travail acharné dans ce document, et je m’expose à des évaluations par mes pairs. Tout un défi ! C’est aussi un vrai plaisir !

L’article de Mikhail peut être consulté à l’adresse suivante : https://link.springer.com/chapter/10.1007/978-3-030-59082-6_12

Références :

https://link.springer.com/chapter/10.1007/978-3-030-59082-6_12

Share
Partager sur linkedin
Partager sur twitter
Partager sur facebook
Donnez du sens à
vos données

Testez TADA avec nos jeux de données

Vous pourriez également aimer...

Roi Data Analytics

Comment générer plus de revenus en entreprise grâce à l’analyse des données?

Une main travaille sur un tableau futuriste

Quels sont les usages de l’IA ?

Un homme travaille sur son ordinateur

Qu’est ce que les algorithmes évolutionnaires ?