Apprendre à désapprendre : le nouveau défi de l’intelligence artificielle

le 20/09/2024

Vos données vous appartiennent. Du moins, c’est ce que prévoit la loi européenne sur la régulation des données (RGPD). D’une part, elle limite la collecte de vos données par les entreprises privées à ce que vous avez consenti. D’une autre, elle vous permet de demander l’effacement total des informations vous concernant des serveurs de cet acteur : il s’agit du droit à l’oubli. C’est ce second volet qui nous intéresse ici, et son applicabilité dans le monde moderne. Si supprimer quelques lignes d’une base de données n’a rien de compliqué, la tâche devient nettement plus périlleuse quand l’intelligence artificielle (IA) entre en jeu.

Oublier les données : des enjeux d’éthique et de vie privée

L’application au cas de la protection des données est importante, mais l’enjeu de l’oubli machine, également appelé désapprentissage, ne s’arrête pas là. L’utilisation d’informations protégées pour l’entraînement de réseaux de neurones artificiels est encore une zone grise aux yeux de la loi. Plusieurs cas de ce type sont en train d’être traités par la justice dans différents pays et ils pourraient marquer un précédent important pour le futur de la législation de l’intelligence artificielle.

Différentes pistes vers le désapprentissage

Parmi les méthodes envisagées dans la littérature, beaucoup se reposent sur une phase d’apprentissage sur les données restantes. Ce réentraînement permet au réseau de mettre à jour ses poids pour se spécialiser uniquement sur ces données. Le but est « d’écraser » au fur et à mesure l’information des données à oublier, comme le fait par exemple le cerveau humain pour une langue non pratiquée.

D’autres méthodes essaient d’utiliser les données à oublier pour inverser le processus d’apprentissage. Si cette idée peut sembler très intuitive, nous n’avons à ce jour aucune garantie mathématique sur la quantification de l’oubli qu’elle permet. De plus, son instabilité peut parfois mener à une dégradation globale des performances du modèle.