Um effektiv zu sein, muss ein KI-Modell „lernen“, indem es große Datenmengen erfasst, die in seine Reaktionen und Analysen einfließen. Beim herkömmlichen maschinellen Lernen bezieht sich Supervision auf die Verwendung von gekennzeichneten Daten, die von menschlichen Expert:innen erstellt wurden, um die eingegebenen Daten manuell mit der richtigen Ausgabe zu kennzeichnen (z. B. Klassifizierung eines Bildes als „Auto“ oder Kennzeichnung der Stimmung eines Satzes als „positiv“).
Durch die Betreuung dieses Lernens erhält das Modell einen Antwortschlüssel, der für das Training hochpräziser Systeme unerlässlich ist. Die manuelle Überwachung ist jedoch zu kostspielig und zeitaufwendig, um eine praktikable Lösung für die riesigen, ständig wachsenden Datasets zu sein, die heute verfügbar sind.
Selbstüberwachtes Lernen löst dieses Problem, indem es Rohdaten ohne Label in eine Quelle der Überwachung verwandelt. Anstatt sich auf kostspielige, gekennzeichnete Datasets zu verlassen, nutzt das selbstüberwachte Lernen die Daten selbst, um Trainingssignale zu generieren. Dieser Prozess hilft ML-Modellen, Muster und Darstellungen zu lernen, die später auf reale Probleme angewendet werden können.
Der Mechanismus hinter dem selbstüberwachten Lernen umfasst zwei Schlüsselphasen: Pretext-Aufgaben und nachgelagerte Aufgaben.
Pretext-Aufgaben sind künstliche Herausforderungen, die aus den Daten selbst entwickelt wurden. Indem das Modell sie löst, lernt es, sinnvolle Strukturen in den Daten zu erfassen. Hier einige Beispiele:
Bei der Verarbeitung natürlicher Sprache sagt das Modell fehlende Wörter in einem Satz voraus.
In der Computer Vision stellt das Modell fest, ob ein Bild gedreht wurde oder fehlende Pixel ausfüllt.
Bei der Spracherkennung erkennt das Modell, ob zwei Audiomuster von demselben Lautsprecher stammen.
Da diese Tasks keine manuellen Label erfordern, können Modelle mit riesigen Datasets trainieren, deren Anmerkungen ansonsten zu kostspielig oder zeitaufwendig wären.
Downstream-Aufgaben sind die realen Anwendungen des maschinellen Lernens wie Textklassifizierung, Bilderkennung oder Sprache-zu-Text. Sobald ein Modell mit Pretext-Aufgaben vortrainiert wurde, werden seine gelernten Darstellungen in nachgelagerte Tasks übertragen, die oft nur minimale Optimierung erfordern.