Propulsez votre impact via l'intelligence agentique et la donnée.

Qu’est-ce que l’apprentissage auto-supervisé (SSL) ? Guide complet

Découvrez l’apprentissage auto-supervisé (SSL) : processus, types, applications dans le cadre du NLP et de la vision par ordinateur et impact sur l’entreprise.

Présentation
Définition de l’apprentissage auto-supervisé
Fonctionnement de l’apprentissage auto-supervisé
Apprentissage auto-supervisé, supervisé ou non supervisé
Intérêt de l’apprentissage auto-supervisé
Avantages de l’apprentissage auto-supervisé
Défis de l’apprentissage auto-supervisé
Applications et exemples de l’apprentissage auto-supervisé
Conclusion
Questions fréquentes sur l’apprentissage auto-supervisé
Clients qui utilisent Snowflake
Ressources Snowflake

Présentation

L’apprentissage auto-supervisé (SSL) est une approche du machine learning à mi-chemin entre les méthodes supervisées et non supervisées. Il apporte une réponse au défi de l’entraînement de modèles d’IA avec des quantités massives de données étiquetées, dont la création est coûteuse et chronophage. En effet, l’apprentissage auto-supervisé s’entraîne directement sur des données brutes sans étiquette en générant ses propres signaux d’entraînement.

Moins dépendant de l’étiquetage manuel, l’apprentissage auto-supervisé permet aux modèles d’IA d’évoluer plus efficacement et d’apprendre des représentations utiles. L’apprentissage auto-supervisé favorise les progrès dans le traitement du langage naturel (NLP), de vision par ordinateur et de reconnaissance vocale. En outre, il aide les entreprises à accélérer leurs initiatives d’IA et à développer des applications pratiques.

Dans cet article, nous explorons ce qui rend l’apprentissage auto-supervisé unique et pourquoi il devient de plus en plus important pour soutenir de nouvelles applications d’IA dans tous les secteurs.

Définition de l’apprentissage auto-supervisé

L’apprentissage auto-supervisé est une forme de machine learning (ML) qui permet l’entraînement de modèles à partir de données non étiquetées. Il combine des éléments des méthodes d’entraînement supervisé et non supervisé, mais se distingue des deux :

L’apprentissage supervisé s’appuie sur des jeux de données où chaque exemple est étiqueté par des humains.
L’apprentissage non supervisé s’exécute sur des données brutes pour trouver des schémas ou des clusters cachés.
L’apprentissage auto-supervisé génère ses propres pseudo-étiquettes ou signaux d’entraînement directement à partir de la structure des données.

En créant ses propres signaux, l’apprentissage auto-supervisé entraîne les modèles à apprendre des représentations utiles sans exiger d’un être humain un étiquetage manuel laborieux. Il s’agit donc d’une approche pratique et évolutive pour la création de systèmes d’IA capables de s’adapter à des tâches réelles complexes.

Fonctionnement de l’apprentissage auto-supervisé

Pour être efficace, un modèle d’IA doit « apprendre » en ingérant de grandes quantités de données qui alimenteront ses réponses et ses analyses. Pour le machine learning traditionnel, la supervision désigne l’utilisation de données étiquetées par des experts humains pour associer manuellement les données d’entrée au résultat correct (p. ex., pour classer une image dans la catégorie « voiture » ou étiqueter l’opinion exprimée dans une phrase comme « positive »).

Cet apprentissage supervisé fournit au modèle une clé de réponse, ce qui est essentiel pour entraîner des systèmes très précis. Cependant, cette supervision manuelle est trop coûteuse et chronophage pour constituer une solution viable pour les jeux de données massifs qui sont à notre disposition aujourd’hui et qui ne cessent de croître.

L’apprentissage auto-supervisé permet de résoudre ce problème en transformant des données brutes sans étiquette en source de supervision. Au lieu de dépendre de jeux de données étiquetés au prix fort, l’apprentissage auto-supervisé utilise les données elles-mêmes pour créer des signaux d’entraînement. Ce processus aide les modèles de machine learning à apprendre des schémas et des représentations qui peuvent ensuite être appliqués à des problèmes réels.

Le mécanisme de l’apprentissage auto-supervisé implique deux étapes clés : les tâches prétextes et les tâches en aval.

Les tâches prétextes sont des défis artificiels conçus à partir des données elles-mêmes. En résolvant ces défis, le modèle apprend à saisir une structure significative dans les données. Par exemple :

Pour le traitement du langage naturel, le modèle prédit les mots manquants dans une phrase.
En vision par ordinateur, le modèle détermine si une image a été tournée ou comble les pixels manquants.
En reconnaissance vocale, le modèle identifie si deux échantillons audio proviennent du même interlocuteur.

Comme ces tâches ne nécessitent aucun étiquetage manuel, elles permettent aux modèles de s’entraîner sur des jeux de données massifs dont l’annotation serait trop coûteuse ou chronophage.

Les tâches en aval sont les applications réelles du machine learning, comme la classification de texte, la reconnaissance d’images ou la transcription de discours. Une fois un modèle pré-entraîné sur des tâches prétextes, il transfère les représentations qu’il a apprises vers des tâches en aval, sans nécessiter beaucoup de fine-tuning en général.

Apprentissage auto-supervisé, supervisé ou non supervisé

Apprentissage auto-supervisé ou supervisé

L’apprentissage supervisé nécessite de grands jeux de données étiquetées, chaque entrée étant associée à une sortie correcte. Par exemple, des modèles de classification d’images sont entraînés sur des jeux de données où chaque image porte une étiquette, comme « chat » ou « chien ». Ces étiquettes fournissent des signaux d’entraînement clairs, mais leur création à grande échelle est coûteuse et chronophage. Malgré son coût, l’apprentissage supervisé est une méthode privilégiée et efficace pour des tâches qui exigent une précision maximale, comme les diagnostics médicaux ou la détection des fraudes financières, où le coût de l’erreur est extrêmement élevé.

Avec l’apprentissage auto-supervisé, il n’est plus nécessaire d’étiqueter manuellement les données. En effet, il crée des pseudo-étiquettes directement à partir de données brutes via des tâches prétextes, telles que la prédiction des mots manquants ou les rotations d’images. Cela permet aux modèles de s’entraîner automatiquement sur des quantités massives de données non étiquetées, ce qui est plus rapide et plus économique en ressources que l’apprentissage supervisé.

Apprentissage auto-supervisé ou non supervisé

L’apprentissage non supervisé repose également sur des données non étiquetées, mais le signal d’entraînement est différent. En apprentissage non supervisé, les modèles regroupent ou réduisent généralement les données, par exemple en créant des segments de clients ou en réduisant les dimensions des données pour les compresser. Ces méthodes permettent de dégager des schémas, mais en général elles ne créent pas de représentations transférables à d’autres tâches. Par exemple, un modèle non supervisé peut réussir à trier un corpus de documents en cinq thématiques. Toutefois, rassembler ainsi des connaissances suffit rarement à alimenter un système distinct et précis, comme une application de traduction linguistique en temps réel.

L’apprentissage auto-supervisé se distingue en générant des tâches structurées à partir de données brutes, ce qui pousse le modèle à apprendre des features qui peuvent ensuite être appliquées à des tâches pratiques en aval. Par exemple, un modèle entraîné à prédire des mots masqués apprend des schémas linguistiques qu’il peut ensuite transférer pour classer du texte ou répondre à des questions.

Apprentissage auto-supervisé ou semi-supervisé

L’apprentissage semi-supervisé combine une petite quantité de données étiquetées avec un pool plus vaste de données non étiquetées. Les données étiquetées ancrent le modèle, tandis que les données non étiquetées fournissent plus de contexte. Par exemple, une IA de modération de contenu peut utiliser un petit ensemble d’images ou de commentaires inappropriés qui ont été étiquetés manuellement, ainsi que des millions de publications sans étiquette, afin d’entraîner le modèle à identifier du contenu similaire à grande échelle.

L’apprentissage auto-supervisé ne s’appuie pas sur le moindre jeu de données étiquetées. Il génère automatiquement des étiquettes à partir des données elles-mêmes, ce qui le rend particulièrement utile dans les domaines où les données étiquetées sont limitées ou coûteuses, comme l’imagerie médicale ou la reconnaissance vocale.

Intérêt de l’apprentissage auto-supervisé

L’apprentissage auto-supervisé répond à l’un des plus grands défis du développement de l’IA : le recours à de grands jeux de données étiquetées (apprentissage supervisé). En effet, les obstacles associés sont les suivants :

Coût et temps : l’étiquetage manuel de jeux de données massifs coûte cher et prend du temps.
Rareté des données étiquetées : dans des domaines spécialisés comme les textes juridiques ou les données d’entreprise propriétaires, les exemples étiquetés sont rares. Par conséquent, il est difficile d’entraîner efficacement des modèles.

Le SSL surmonte ces limites en utilisant l’énorme volume de données brutes non étiquetées qui existent déjà pour créer ses propres signaux de supervision et apprendre des représentations utiles sans travail manuel important. Cela permet d’entraîner plus efficacement des modèles à grande échelle dans des domaines clés, notamment :

Traitement du langage naturel : le SSL permet d’entraîner de grands modèles de langage sur des données textuelles globales sans annotation manuelle.
Vision par ordinateur et reconnaissance vocale : le SSL réduit les efforts humains nécessaires pour étiqueter des images ou retranscrire de l’audio, tout en améliorant la précision des modèles.

Avantages de l’apprentissage auto-supervisé

L’apprentissage auto-supervisé offre plusieurs avantages qui le rendent bien adapté aux systèmes d’IA modernes. En voici certains :

Réduction de la dépendance aux données étiquetées

L’apprentissage auto-supervisé élimine la nécessité d’étiqueter manuellement des données en générant ses propres signaux d’entraînement directement à partir des données brutes. Cette capacité permet aux entreprises de disposer d’un plus grand choix de jeux de données d’entraînement et d’incorporer des données provenant de plusieurs sources, de façon à élargir le contexte de l’IA pour l’analyse et à accélérer la valorisation. Cette méthode permet également d’exploiter les avantages de l’IA dans des domaines complexes, notamment l’analyse d’images médicales spécialisées, où les données étiquetées sont souvent rares.

Utilisation rentable des données

Les modèles d’apprentissage auto-supervisé génèrent leurs propres signaux d’entraînement directement à partir des données d’entrée, ce qui réduit la nécessité de recourir à une annotation humaine coûteuse. En utilisant la structure des données non étiquetées existantes, l’apprentissage auto-supervisé augmente la valeur des jeux de données sans coûts d’étiquetage supplémentaires. Par conséquent, l’apprentissage auto-supervisé est particulièrement utile dans des domaines très riches en données qui disposent d’informations non étiquetées en abondance.

Généralisation et transfer learning améliorés

Les modèles d’apprentissage auto-supervisé capturent des schémas sous-jacents dans les données qui peuvent être transférés efficacement vers de nouvelles tâches. Grâce au fine-tuning, un même modèle peut être adapté à diverses applications en aval.

Évolutivité pour les jeux de données massifs

Face à l’ampleur actuelle des jeux de données, l’étiquetage manuel n’est pas réalisable. C’est pourquoi l’apprentissage auto-supervisé permet à des systèmes d’IA d’apprendre directement à partir des données brutes, afin qu’ils puissent se développer au rythme de l’augmentation des volumes de données.

Meilleures performances des modèles

En tirant des enseignements du contexte complet des données, les modèles SSL obtiennent souvent de meilleurs résultats sur des tâches en aval que des modèles entraînés uniquement avec des méthodes supervisées.

Défis de l’apprentissage auto-supervisé

Si l’apprentissage auto-supervisé offre des avantages évidents, il soulève également des défis que les entreprises doivent relever lors de sa mise en œuvre. Voici certains de ces défis :

Complexité du calcul

L’entraînement de modèles d’apprentissage auto-supervisé nécessite souvent de traiter d’énormes volumes de données non étiquetées sur de longues périodes. Cela peut demander des ressources matérielles et cloud importantes, avec des coûts de calcul plus élevés que pour l’entraînement de modèles supervisés plus modestes.

Conception efficace de tâches prétextes

L’apprentissage auto-supervisé nécessite des tâches prétextes bien conçues. Si la tâche est trop simple, le modèle peut apprendre des features inutiles. Si la tâche est mal conçue, le transfert des représentations apprises peut s’avérer inefficace. La conception de tâches efficaces nécessite une maîtrise du domaine et des tests itératifs, à mener avant de lancer des initiatives d’apprentissage auto-supervisé.

Évaluation des performances des modèles

Avec l’apprentissage supervisé, des indicateurs tels que l’exactitude ou la précision fournissent un retour d’information direct pendant l’entraînement. L’apprentissage auto-supervisé n’offre pas d’indicateurs aussi immédiats. La qualité des modèles n’est souvent visible qu’après l’application des représentations apprises aux tâches en aval. Le retour d’information s’en trouve retardé, ce qui complique l’optimisation.

Risque de corrélation parasite

Comme l’apprentissage auto-supervisé repose sur des pseudo-étiquettes générées à partir de données brutes, les signaux peuvent parfois être incomplets ou sensibles au bruit. Sans supervision humaine, les modèles peuvent apprendre des biais ou des corrélations indésirables dans les données d’entraînement qui affectent les applications en aval.

Applications et exemples de l’apprentissage auto-supervisé

L’apprentissage auto-supervisé prend en charge un large éventail d’applications dans tous les secteurs en permettant aux entreprises de tirer de la valeur à partir de données non étiquetées. Le SSL s’applique notamment dans les cas suivants :

Traitement du langage naturel

L’apprentissage auto-supervisé alimente des grands modèles de langage (LLM) tels que BERT et GPT, qui sont entraînés sur de vastes jeux de données textuelles. Ces modèles prennent en charge des tâches telles que la classification de texte, les réponses aux questions, la traduction et la génération de contenu.

Vision par ordinateur

L’apprentissage auto-supervisé permet à des modèles de s’entraîner sur de grands jeux d’images et de vidéos sans nécessiter d’annotation manuelle. Les applications incluent la détection d’objets, la segmentation d’images et l’imagerie médicale.

Reconnaissance vocale et traitement audio

L’apprentissage auto-supervisé entraîne des modèles à prédire des parties manquantes ou masquées sur un enregistrement, afin d’aider les systèmes à identifier et à apprendre des schémas dans du son brut. Cela favorise une transcription plus précise, de meilleurs assistants vocaux et une identification linguistique plus performante.

Détection des fraudes et des anomalies

Dans le secteur financier, l’apprentissage auto-supervisé analyse des tendances dans des données transactionnelles afin d’identifier des irrégularités ou des écarts subtils. Ces représentations aident les systèmes à repérer les fraudes potentielles et à s’adapter à de nouveaux schémas de fraude dès leur émergence.

Systèmes de recommandations

L’apprentissage auto-supervisé peut exploiter des signaux implicites tels que des clics et des vues, en parallèle de données étiquetées en quantité limitée. Il améliore ainsi la personnalisation avec des suggestions de produits, des publicités et des recommandations de contenu sur mesure.

Véhicules autonomes et robotique

L’apprentissage auto-supervisé permet aux véhicules et aux robots de tirer des enseignements à partir de flux continus de données vidéo et de capteurs brutes. Cet entraînement améliore l’estimation de profondeur, la navigation et la prédiction d’objets, autant de capacités essentielles pour un fonctionnement sûr dans des environnements réels.

Conclusion

L’apprentissage auto-supervisé s’impose rapidement comme une méthode centrale pour entraîner des systèmes d’IA à grande échelle. En générant des signaux d’entraînement directement à partir de données non étiquetées, l’apprentissage auto-supervisé réduit le recours à l’étiquetage manuel et permet de créer des modèles capables de s’adapter à un large éventail de tâches.

Alors que les volumes de données continuent d’augmenter, l’apprentissage auto-supervisé offre un moyen pratique de développer des modèles d’IA évolutifs et efficaces dans des domaines où les données étiquetées sont rares, mais les données brutes abondantes. Cette approche favorise les progrès dans les domaines du traitement du langage naturel, de la vision par ordinateur et de la reconnaissance vocale, mais aussi dans de nombreux autres systèmes stratégiques pour les entreprises.

Questions fréquentes sur l’apprentissage auto-supervisé

Quels algorithmes d’apprentissage supervisé existe-t-il par exemple ?

Les algorithmes d’apprentissage supervisé sont principalement utilisés pour la classification et la régression sur des jeux de données étiquetées. Parmi les exemples, nous pouvons citer la régression linéaire, la régression logistique, les arbres de décision, les forêts aléatoires ou encore les Support Vector Machines (SVM).

ChatGPT est-il un modèle auto-supervisé ?

Oui, ChatGPT est entraîné à l’aide de l’apprentissage auto-supervisé. Ce modèle apprend des schémas linguistiques en prédisant des parties de texte à partir de grandes quantités de données non étiquetées, plutôt que de s’appuyer sur des données étiquetées manuellement.

Comment fonctionne l’apprentissage auto-supervisé avec les LLM ?

Pour les LLM, l’apprentissage auto-supervisé implique de prédire des parties manquantes ou masquées dans une séquence de texte en fonction du contexte environnant. Cette méthode d’entraînement permet au modèle de saisir la grammaire, la signification et les relations dans le langage sans annotation manuelle.

En quoi l’apprentissage auto-supervisé diffère-t-il de l’apprentissage non supervisé ?

Tous deux utilisent des données non étiquetées, mais poursuivent des objectifs d’entraînement différents :

L’apprentissage non supervisé se concentre sur la découverte de la structure et de schémas dans des données. Il fonctionne souvent en créant des groupes ou des clusters de données pour formuler des hypothèses de schéma et réduire la complexité, mais il n’essaie pas de trouver une réponse spécifique « correcte ».

L’apprentissage auto-supervisé crée un objectif spécifique ou une énigme que le modèle doit résoudre en générant ses propres étiquettes (appelées pseudo-étiquettes) à partir des données elles-mêmes. Ce processus donne au modèle un objectif mesurable, ce qui lui permet d’apprendre des représentations de données puissantes et réutilisables efficacement pour d’autres tâches d’IA.

Clients qui utilisent Snowflake

Hastings Direct applique le machine learning sur ses données pour un service plus rapide

Avec Snowflake et Microsoft, la compagnie d’assurance Hastings Direct centralise toutes ses données, utilise le ML pour développer ses propres modèles de tarification et tire parti de cette technologie pour transformer son activité.

Lire le témoignage

WHOOP améliore les prévisions financières en matière d’IA et de ML tout en améliorant l’expérience de ses membres

Grâce à Snowflake et Apache Iceberg, les équipes de WHOOP centralisent l’accès aux données tout en réduisant la complexité, en réduisant les coûts et en améliorant des processus stratégiques.