Data for Breakfast Around the World

Drive impact across your organization with data and agentic intelligence.

Was ist Self-Supervised Learning (SSL)? Ein umfassender Leitfaden

Erfahren Sie, was Self-Supervised Learning (SSL) ist, einschließlich Prozess, Typen, Anwendungen auf NLP- und Computer-Vision und wie es Unternehmen transformiert.

  • Übersicht
  • Was ist selbstüberwachtes Lernen?
  • Wie funktioniert selbstüberwachtes Lernen?
  • Selbstüberwachtes vs. überwachtes vs. unüberwachtes Lernen
  • Warum brauchen wir selbstüberwachtes Lernen?
  • Vorteile des selbstüberwachten Lernens
  • Herausforderungen des selbstüberwachten Lernens
  • Anwendungen und Beispiele für selbstüberwachtes Lernen
  • Fazit
  • Häufig gestellte Fragen zum selbstüberwachten Lernen
  • Kunden, die Snowflake einsetzen
  • Snowflake-Ressourcen

Übersicht

Self-Supervised Learning (SSL) ist ein Ansatz für maschinelles Lernen, der überwachte und unüberwachte Methoden verbindet. Es löst die Herausforderung beim Training von KI-Modellen mit riesigen Mengen an gekennzeichneten Daten, deren Erstellung kostspielig und zeitaufwendig ist. Stattdessen trainiert das selbstüberwachte Lernen direkt mit nicht gekennzeichneten Rohdaten, indem es eigene Trainingssignale generiert.

Selbstüberwachtes Lernen reduziert die Abhängigkeit von manueller Kennzeichnung und ermöglicht es KI-Modellen, effizienter zu skalieren und nützliche Darstellungen zu lernen. Selbstüberwachtes Lernen bringt Fortschritte in der Verarbeitung natürlicher Sprache (NLP), Computer Vision und Spracherkennung voran und hilft Unternehmen, ihre KI-Initiativen zu beschleunigen und praktische Anwendungen zu erweitern.

In diesem Artikel untersuchen wir, was selbstüberwachtes Lernen so einzigartig macht und warum es bei der Unterstützung neuer KI-Anwendungen in verschiedenen Branchen immer wichtiger wird.

Was ist selbstüberwachtes Lernen?

Selbstüberwachtes Lernen ist eine Form des maschinellen Lernens (ML), die es Modellen ermöglicht, aus nicht gekennzeichneten Daten zu lernen. Es kombiniert Elemente sowohl der überwachten als auch der unüberwachten Trainingsmethoden, unterscheidet sich jedoch von beiden:

  • Überwachtes Lernen basiert auf Datasets, bei denen jedes Beispiel von Menschen gekennzeichnet ist.

  • Unüberwachtes Lernen arbeitet mit Rohdaten, um versteckte Muster oder Cluster zu finden.

  • Selbstüberwachtes Lernen generiert direkt aus der Datenstruktur eigene Pseudo-Labels oder Trainingssignale. 

Selbstüberwachtes Lernen trainiert Modelle, indem es eigene Signale erzeugt, um nützliche Darstellungen zu lernen, ohne dass Menschen umfangreiche manuelle Kennzeichnungen vornehmen müssen. Damit ist sie ein praktischer und skalierbarer Ansatz für den Aufbau von KI-Systemen, die sich an komplexe reale Aufgaben anpassen können.

Wie funktioniert selbstüberwachtes Lernen?

Um effektiv zu sein, muss ein KI-Modell „lernen“, indem es große Datenmengen erfasst, die in seine Reaktionen und Analysen einfließen. Beim herkömmlichen maschinellen Lernen bezieht sich Supervision auf die Verwendung von gekennzeichneten Daten, die von menschlichen Expert:innen erstellt wurden, um die eingegebenen Daten manuell mit der richtigen Ausgabe zu kennzeichnen (z. B. Klassifizierung eines Bildes als „Auto“ oder Kennzeichnung der Stimmung eines Satzes als „positiv“).

Durch die Betreuung dieses Lernens erhält das Modell einen Antwortschlüssel, der für das Training hochpräziser Systeme unerlässlich ist. Die manuelle Überwachung ist jedoch zu kostspielig und zeitaufwendig, um eine praktikable Lösung für die riesigen, ständig wachsenden Datasets zu sein, die heute verfügbar sind.

Selbstüberwachtes Lernen löst dieses Problem, indem es Rohdaten ohne Label in eine Quelle der Überwachung verwandelt. Anstatt sich auf kostspielige, gekennzeichnete Datasets zu verlassen, nutzt das selbstüberwachte Lernen die Daten selbst, um Trainingssignale zu generieren. Dieser Prozess hilft ML-Modellen, Muster und Darstellungen zu lernen, die später auf reale Probleme angewendet werden können.

Der Mechanismus hinter dem selbstüberwachten Lernen umfasst zwei Schlüsselphasen: Pretext-Aufgaben und nachgelagerte Aufgaben.

Pretext-Aufgaben sind künstliche Herausforderungen, die aus den Daten selbst entwickelt wurden. Indem das Modell sie löst, lernt es, sinnvolle Strukturen in den Daten zu erfassen. Hier einige Beispiele:

  • Bei der Verarbeitung natürlicher Sprache sagt das Modell fehlende Wörter in einem Satz voraus.

  • In der Computer Vision stellt das Modell fest, ob ein Bild gedreht wurde oder fehlende Pixel ausfüllt.

  • Bei der Spracherkennung erkennt das Modell, ob zwei Audiomuster von demselben Lautsprecher stammen.

Da diese Tasks keine manuellen Label erfordern, können Modelle mit riesigen Datasets trainieren, deren Anmerkungen ansonsten zu kostspielig oder zeitaufwendig wären.

Downstream-Aufgaben sind die realen Anwendungen des maschinellen Lernens wie Textklassifizierung, Bilderkennung oder Sprache-zu-Text. Sobald ein Modell mit Pretext-Aufgaben vortrainiert wurde, werden seine gelernten Darstellungen in nachgelagerte Tasks übertragen, die oft nur minimale Optimierung erfordern.

Selbstüberwachtes Lernen vs. überwachtes und unüberwachtes Lernen

Selbstüberwachtes Lernen vs. überwachtes Lernen

Überwachtes Lernen erfordert große gekennzeichnete Datasets, bei denen jeder Input mit einem richtigen Output verbunden ist. So werden beispielsweise Bildklassifizierungsmodelle mit Datasets trainiert, bei denen jedes Bild ein Label wie „Katze“ oder „Hund“ trägt. Diese Label liefern klare Trainingssignale, sind aber teuer und zeitaufwendig in der Erstellung. ​Trotz der Kosten ist überwachtes Lernen eine bevorzugte und effektive Methode für Aufgaben, die höchste Genauigkeit erfordern, wie z. B. die hochkritische medizinische Diagnostik oder die Erkennung von Finanzbetrug, bei denen die Fehlerkosten extrem hoch sind.

Selbstüberwachtes Lernen macht manuelle Label überflüssig. Es erstellt Pseudo-Labels direkt aus Rohdaten durch Pretext-Aufgaben wie die Vorhersage fehlender Wörter oder Bilddrehungen. So können sich Modelle automatisch mit riesigen Mengen nicht gekennzeichneten Daten trainieren, was schneller und viel ressourceneffizienter ist als überwachtes Lernen.

 

Selbstüberwachtes Lernen vs. unüberwachtes Lernen

Unüberwachtes Lernen beruht auch auf nicht gekennzeichneten Daten, aber das Trainingssignal ist ein anderes. Beim unüberwachten Lernen gruppieren oder reduzieren Modelle in der Regel Daten, z. B. Clustering von Kunden in Segmente oder Komprimierung von Daten in weniger Dimensionen. Diese Methoden finden zwar Muster, erzeugen aber oft keine Darstellungen, die sich gut auf andere Aufgaben übertragen lassen. Ein unüberwachtes Modell könnte beispielsweise erfolgreich eine Dokumentensammlung in fünf Themencluster sortieren. Doch das Clustering von Wissen allein reicht selten aus, um ein separates, genaues System wie eine Echtzeit-Sprachübersetzungsanwendung aufzubauen.

Selbstüberwachtes Lernen unterscheidet sich dadurch, dass strukturierte Tasks aus Rohdaten generiert werden, wodurch das Modell dazu gebracht wird, Features zu lernen, die später auf praktische nachgelagerte Tasks angewendet werden können. Ein Modell, das für die Vorhersage maskierter Wörter trainiert wurde, lernt beispielsweise Sprachmuster kennen, die auf die Textklassifizierung oder die Beantwortung von Fragen übertragen werden.

 

Selbstüberwachtes Lernen vs. semiüberwachtes Lernen

Semi-überwachtes Lernen kombiniert eine kleine Menge gekennzeichneter Daten mit einem größeren Pool nicht gekennzeichneter Daten. Der beschriftete Teil verankert das Modell, während der unbeschriftete Teil zusätzlichen Kontext bietet. Eine KI zur Inhaltsmoderation könnte beispielsweise eine kleine Menge manuell gekennzeichneter und unangemessener Bilder oder Kommentare sowie Millionen nicht gekennzeichneter Beiträge verwenden, um das Modell zu trainieren, ähnliche Inhalte in großem Umfang zu identifizieren.

Selbstüberwachtes Lernen ist nicht einmal auf einen kleinen gekennzeichneten Datensatz angewiesen. Es generiert automatisch Labels aus den Daten selbst und ist damit besonders wertvoll in Bereichen, in denen gekennzeichnete Daten begrenzt oder teuer sind, wie z. B. bei der medizinischen Bildgebung oder Spracherkennung.

Warum brauchen wir selbstüberwachtes Lernen?

Selbstüberwachtes Lernen adressiert eine der größten Herausforderungen der KI-Entwicklung: die Abhängigkeit von großen gekennzeichneten Datasets (überwachtes Lernen). Die Hürden, die mit der Abhängigkeit von gekennzeichneten Datasets verbunden sind, umfassen:

  • Kosten und Zeit: Das manuelle Kennzeichnen riesiger Datasets ist teuer und langsam.

  • Knappheit an gekennzeichneten Daten: In spezialisierten Bereichen wie Gesetzestexten oder proprietären Unternehmensdaten sind gekennzeichnete Beispiele rar, was ein effektives Modelltraining erschwert.

SSL überwindet diese Grenzen, indem es die riesige Menge an nicht gekennzeichneten Rohdaten, die bereits vorhanden ist, nutzt, um eigene Aufsichtssignale zu erstellen und nützliche Darstellungen zu lernen, ohne dass ein erheblicher manueller Aufwand erforderlich ist. So können groß angelegte Modelle in wichtigen Bereichen effizienter trainiert werden, darunter:

  • Verarbeitung natürlicher Sprache (NLP, Natural Language Processing): SSL ermöglicht das Training von Large Language Models auf globalen Textdaten ohne manuelle Anmerkungen.

  • Computer Vision und Spracherkennung: SSL reduziert den menschlichen Aufwand beim Beschriften von Bildern oder beim Transkribieren von Audio und verbessert so die Modellgenauigkeit.

Vorteile des selbstüberwachten Lernens

Selbstüberwachtes Lernen bietet verschiedene Vorteile, die es für moderne KI-Systeme geeignet machen. Zu den Vorteilen von SSL gehören:

 

Weniger Abhängigkeit von gekennzeichneten Daten

Selbstüberwachtes Lernen macht manuelle Datenkennzeichnungen überflüssig, indem es eigene Trainingssignale direkt aus Rohdaten generiert. Dank dieser Fähigkeiten können Unternehmen mit einer größeren Auswahl an Datasets trainieren und Daten aus verschiedenen Quellen integrieren, wodurch der Kontext von KI für Analytics erweitert und der Wert gesteigert wird. Diese Methode trägt auch dazu bei, KI-Vorteile in komplexen Bereichen zu nutzen, darunter spezielle medizinische Bildanalysen, in denen gekennzeichnete Daten oft Mangelware sind.

 

Kosteneffiziente Datennutzung

Selbstüberwachte Lernmodelle generieren ihre eigenen Trainingssignale direkt aus Eingabedaten und minimieren so den Aufwand für kostspielige menschliche Anmerkungen. Durch die Nutzung der Struktur vorhandener nicht gekennzeichneter Daten steigert selbstüberwachtes Lernen den Wert von Daten-Assets ohne zusätzliche Kennzeichnungskosten. Das macht selbstüberwachtes Lernen besonders wertvoll in datenintensiven Bereichen, in denen es zahlreiche nicht gekennzeichnete Informationen gibt.

 

Verbesserte Generalisierung und Transferlernen

Selbstüberwachte Lernmodelle erfassen zugrunde liegende Muster in Daten, die sich gut auf neue Aufgaben übertragen lassen. Mit der Optimierung kann dasselbe Modell für mehrere nachgelagerte Anwendungen angepasst werden.

 

Skalierbarkeit für große Datasets

Eine manuelle Kennzeichnung ist für die riesigen Datasets von heute nicht praktikabel. Selbstüberwachtes Lernen ermöglicht es KI-Systemen, direkt aus den Rohdaten zu lernen, sodass Modelle mit wachsenden Datenmengen wachsen können.

 

Verbesserte Modellperformance

Indem SSL-Modelle aus dem vollständigen Kontext der Daten lernen, erzielen sie bei nachgelagerten Aufgaben oft stärkere Ergebnisse als Modelle, die ausschließlich mit überwachten Methoden trainiert wurden.

Herausforderungen des selbstüberwachten Lernens

Selbstüberwachtes Lernen bietet zwar klare Vorteile, bringt aber auch Herausforderungen mit sich, die Unternehmen bei der Implementierung bewältigen müssen. Zu diesen Herausforderungen gehören:

 

Rechenkomplexität

Das Training selbstüberwachter Lernmodelle erfordert oft die Verarbeitung großer Mengen nicht gekennzeichneter Daten über lange Zeiträume. Dies kann erhebliche Hardware- und Cloudressourcen erfordern, was zu höheren Rechenkosten im Vergleich zum Training kleinerer, überwachter Modelle führt.

 

Effektives Pretext-Aufgaben-Design

Selbstüberwachtes Lernen hängt von gut konzipierten Pretext-Aufgaben ab. Wenn die Aufgabe zu einfach ist, kann das Modell Features lernen, die nicht nützlich sind. Wenn die Aufgabe schlecht gestaltet ist, können die gelernten Darstellungen nicht effektiv übertragen werden. Um effektive Aufgaben zu entwickeln, bedarf es Fachwissen und iterative Tests, die abgeschlossen werden müssen, bevor mit den selbstüberwachten Lerninitiativen begonnen wird.

 

Bewertung der Modellperformance

Beim überwachten Lernen geben Kennzahlen wie Genauigkeit oder Präzision direktes Feedback während des Trainings. Selbstüberwachtes Lernen bietet keine solchen Sofortmaßnahmen. Oft ist die Modellqualität erst nach der Anwendung der gelernten Darstellungen auf nachgelagerte Tasks sichtbar, was verzögertes Feedback erzeugt und die Optimierung erschwert.

 

Störendes Korrelationsrisiko

Da selbstüberwachtes Lernen auf Pseudo-Labels beruht, die aus Rohdaten generiert werden, können die Signale manchmal verrauscht oder unvollständig sein. Ohne menschliche Überwachung können Modelle unerwünschte Verzerrungen oder Korrelationen in den Trainingsdaten erkennen, die sich auf nachgelagerte Anwendungen auswirken.

Anwendungen und Beispiele für selbstüberwachtes Lernen

Selbstüberwachtes Lernen unterstützt eine breite Palette von Anwendungen in verschiedenen Branchen, indem es Unternehmen ermöglicht, einen Mehrwert aus nicht gekennzeichneten Daten zu gewinnen. Anwendungen von SSL umfassen:

 

Natural Language Processing

Selbstüberwachtes Lernen unterstützt Large Language Models (LLMs) wie BERT und GPT, die mit riesigen Text-Datasets trainiert werden. Diese Modelle unterstützen Aufgaben wie Textklassifizierung, Fragenbeantwortung, Übersetzung und Inhaltsgenerierung.

 

Computer Vision

Selbstüberwachtes Lernen ermöglicht es Modellen, aus großen Sammlungen von Bildern und Videos zu lernen, ohne dass manuelle Anmerkungen erforderlich sind. Anwendungen umfassen Objekterkennung, Bildsegmentierung und medizinische Bildgebung.

 

Spracherkennung und Audioverarbeitung

Selbstüberwachtes Lernen trainiert Modelle, um fehlende oder maskierte Teile einer Aufnahme vorherzusagen, und hilft Systemen, Muster im Rohton zu erkennen und zu lernen. Das fördert präzisere Transkription, bessere Sprachassistenten und eine bessere Performance bei der Spracherkennung.

 

Betrugserkennung und Anomalieerkennung

In der Finanzdienstleistungsbranche analysiert Self-Supervised Learning Muster in Transaktionsdaten, um subtile Unregelmäßigkeiten oder Abweichungen zu erkennen. Diese Darstellungen helfen Systemen dabei, potenziellen Betrug zu kennzeichnen und sich an neue Betrugsmuster anzupassen, sobald sie auftreten.

 

Empfehlungssysteme

Selbstüberwachtes Lernen kann neben begrenzten gekennzeichneten Daten auch implizite Signale wie Klicks und Ansichten nutzen. So wird die Personalisierung verbessert, indem Produktvorschläge, Werbung und Inhaltsempfehlungen auf die Bedürfnisse zugeschnitten werden.

 

Autonome Fahrzeuge und Roboter

Selbstüberwachtes Lernen ermöglicht es Fahrzeugen und Robotern, aus kontinuierlichen Strömen von Sensor- und Videorohdaten zu lernen. Dieses Training verstärkt Tiefenschätzung, Navigation und Objektvorhersage, die für den sicheren Betrieb in realen Umgebungen unerlässlich sind.

Fazit

Selbstüberwachtes Lernen entwickelt sich schnell zu einer zentralen Methode, um KI-Systeme flächendeckend zu trainieren. Durch die Generierung von Trainingssignalen direkt aus nicht gekennzeichneten Daten reduziert das selbstüberwachte Lernen die Abhängigkeit von manueller Kennzeichnung und ermöglicht die Entwicklung von Modellen, die sich an eine Vielzahl von Aufgaben anpassen können. 

Wenn das Datenvolumen weiter wächst, bietet Self-Supervised Learning eine praktische Möglichkeit, skalierbare und effiziente KI-Modelle in Bereichen zu entwickeln, in denen gekennzeichnete Daten zwar knapp, Rohdaten aber in Hülle und Fülle vorhanden sind. Dieser Ansatz treibt den Fortschritt bei der Verarbeitung natürlicher Sprache, der Bildverarbeitung, der Spracherkennung und vielen anderen geschäftskritischen Systemen voran.

Häufig gestellte Fragen zum selbstüberwachten Lernen

Überwachte Lernalgorithmen werden hauptsächlich zur Klassifizierung und Regression auf gekennzeichneten Datasets eingesetzt. Gängige Beispiele sind lineare Regression, logistische Regression, Entscheidungsbäume, Random Forests und Support Vector Machines (SVM).

Ja, ChatGPT wird mit selbstüberwachtem Lernen trainiert. Das Modell lernt Sprachmuster, indem es Textteile aus großen Mengen nicht gekennzeichneter Daten vorhersagt, anstatt sich auf von Menschen bereitgestellte Label zu verlassen.

Bei LLMs beinhaltet selbstüberwachtes Lernen die Vorhersage fehlender oder maskierter Teile einer Textsequenz anhand des umgebenden Kontextes. Diese Trainingsmethode ermöglicht es dem Modell, Grammatik, Bedeutung und Beziehungen in der Sprache ohne manuelle Anmerkungen zu erfassen.

Beide verwenden nicht gekennzeichnete Daten, aber ihre Trainingsziele unterscheiden sich:

  • Beim unüberwachten Lernen geht es darum, die Struktur und Muster von Daten zu entdecken. Oft werden Daten gruppiert oder geclustert, um Musterannahmen zu bilden und die Komplexität zu vereinfachen. Doch es wird nicht versucht, eine bestimmte „richtige“ Antwort zu finden.

  • Selbstüberwachtes Lernen schafft ein spezifisches Ziel oder Rätsel, das das Modell lösen muss, indem es aus den Daten selbst eigene Labels (Pseudo-Labels) generiert. Mit diesem Prozess erhält das Modell ein messbares Ziel: leistungsstarke, wiederverwendbare Datendarstellungen zu lernen, die für andere KI-Aufgaben sehr effektiv sind.