Pour être efficace, un modèle d’IA doit « apprendre » en ingérant de grandes quantités de données qui alimenteront ses réponses et ses analyses. Pour le machine learning traditionnel, la supervision désigne l’utilisation de données étiquetées par des experts humains pour associer manuellement les données d’entrée au résultat correct (p. ex., pour classer une image dans la catégorie « voiture » ou étiqueter l’opinion exprimée dans une phrase comme « positive »).
Cet apprentissage supervisé fournit au modèle une clé de réponse, ce qui est essentiel pour entraîner des systèmes très précis. Cependant, cette supervision manuelle est trop coûteuse et chronophage pour constituer une solution viable pour les jeux de données massifs qui sont à notre disposition aujourd’hui et qui ne cessent de croître.
L’apprentissage auto-supervisé permet de résoudre ce problème en transformant des données brutes sans étiquette en source de supervision. Au lieu de dépendre de jeux de données étiquetés au prix fort, l’apprentissage auto-supervisé utilise les données elles-mêmes pour créer des signaux d’entraînement. Ce processus aide les modèles de machine learning à apprendre des schémas et des représentations qui peuvent ensuite être appliqués à des problèmes réels.
Le mécanisme de l’apprentissage auto-supervisé implique deux étapes clés : les tâches prétextes et les tâches en aval.
Les tâches prétextes sont des défis artificiels conçus à partir des données elles-mêmes. En résolvant ces défis, le modèle apprend à saisir une structure significative dans les données. Par exemple :
Pour le traitement du langage naturel, le modèle prédit les mots manquants dans une phrase.
En vision par ordinateur, le modèle détermine si une image a été tournée ou comble les pixels manquants.
En reconnaissance vocale, le modèle identifie si deux échantillons audio proviennent du même interlocuteur.
Comme ces tâches ne nécessitent aucun étiquetage manuel, elles permettent aux modèles de s’entraîner sur des jeux de données massifs dont l’annotation serait trop coûteuse ou chronophage.
Les tâches en aval sont les applications réelles du machine learning, comme la classification de texte, la reconnaissance d’images ou la transcription de discours. Une fois un modèle pré-entraîné sur des tâches prétextes, il transfère les représentations qu’il a apprises vers des tâches en aval, sans nécessiter beaucoup de fine-tuning en général.