Barc Data Fabric Survey 2026 - Results for Snowflake

Was ist BERT? NLP-Modell erklärt

Erfahren Sie, was BERT ist und wie es funktioniert. Entdecken Sie die Architektur, den Algorithmus und die Auswirkungen von BERT-Modellen auf KI, NLP-Aufgaben und die Entwicklung von Large Language Models.

  • Übersicht
  • Was ist BERT?
  • Warum ist BERT wichtig?
  • Wie funktioniert BERT?
  • Anwendungsfälle aus der Praxis für BERT
  • Wichtige Einschränkungen von BERT
  • BERT im Vergleich zu anderen Sprachmodellen
  • Fazit
  • Häufig gestellte Fragen zu BERT
  • Kunden, die Snowflake einsetzen
  • Snowflake-Ressourcen

Übersicht

Bidirektionale Encoderdarstellungen von Transformern (BERT) ist ein Durchbruch in der Art und Weise, wie Computer natürliche Sprache verarbeiten. Dieser Open-Source-Ansatz, der 2018 von Google entwickelt wurde, analysiert Text in beide Richtungen, um die Bedeutung von Wörtern im Kontext besser zu verstehen. BERT hat die Praxis eingeführt, riesige Textmengen zu verwenden, um Sprachmodelle vorzutrainieren, damit Entwickler:innen diese Modelle später für eine Reihe anderer Aufgaben optimieren können. Es legte den Grundstein für die transformatorbasierten Large Language Models, die wir heute verwenden. Sie zeigten, dass ein tiefes Verständnis des Kontextes entscheidend ist, um KI zu entwickeln, die tatsächlich menschliche Sprache „versteht“.

Dieser Leitfaden erklärt, was BERT ist, beschreibt, wie es funktioniert und beschreibt seine gängigsten Anwendungen in der Praxis.

Was ist BERT?

BERT hat Natural Language Processing (NLP) revolutioniert, indem es die Wörter vor und nach einem Zielwort gleichzeitig analysiert, anstatt jedes Wort nacheinander zu verarbeiten. Die zugrunde liegende Transformer-Architektur ermöglicht es einem Sprachmodell, die Bedeutung verschiedener Wörter gegeneinander abzuwägen, egal wie weit sie in einem Satz voneinander entfernt sind, und die Bedeutung identisch geschriebener Wörter anhand ihres umgebenden Kontextes zu unterscheiden.

Darüber hinaus führte BERT einen zweistufigen Prozess für das Training von Modellen ein. Zunächst wird das Modell mit enormen Mengen an unbeschriftetem Text trainiert, um ihm ein allgemeines Verständnis von Sprachmustern zu vermitteln. Zweitens wird das Modell mit kleineren, gekennzeichneten Datasets an bestimmten Aufgaben optimiert – eine Vorgehensweise, die als „Transfer Learning“ bezeichnet wird. Da nicht mehr jedes Sprachmodell von Grund auf trainiert werden muss, ist modernste NLP für eine Vielzahl von Anwendungen verfügbar, darunter Internetsuche und Stimmungsanalyse. 

Google hat BERT 2019 in seine Suchmaschine integriert, um Suchanfragen so zu verstehen, wie Menschen sie tatsächlich schreiben. Es wird jetzt in praktisch allen englischen Abfragen verwendet und hat sich auf viele weitere Sprachen ausgeweitet. So konnte Google die Art und Weise, wie komplexe Fragen interpretiert, die dialogorientierte Suche versteht und Abfragen bearbeitet werden, bei denen der Kontext entscheidend ist, um die richtige Antwort zu geben, drastisch verbessern.

Warum ist BERT wichtig?

Die Fähigkeit von BERT, Kontexte bidirektional zu analysieren, gilt als wichtiger Meilenstein in der Entwicklung von KI und NLP. So konnte das Unternehmen in elf NLP-Aufgaben rekordverdächtige Ergebnisse erzielen, darunter Fragen beantworten, Stimmungsanalyse und Named Entity Recognition (automatische Kategorisierung, ob ein Wort eine Person, ein Produkt, eine Organisation oder eine andere Einheit repräsentiert). Die von BERT verwendete Transformer-Architektur ist aufgrund ihrer Fähigkeit, Beziehungen zwischen Wörtern über lange Textabschnitte hinweg zu erfassen, zur Grundlage für praktisch alle modernen LLMs geworden.

Wie funktioniert BERT?

Das Training und die Inferenz von BERT umfassen mehrere ausgefeilte Mechanismen, die zusammenarbeiten: 

 

Tokenisierung

BERT zerlegt Text in kleinere Teile namens Token. Beispielsweise kann sich das Wort „laufen“ in „lauf“ und „##en“ aufspalten. Jedes Token wird in eine Zahl umgewandelt und BERT fügt spezielle Marker wie [CLS] am Satzanfang und [SEP] dazwischen hinzu. Dieser Ansatz erhöht die Genauigkeit bei weniger häufig verwendeten Wörtern und macht die Größe seines Wortschatzes überschaubarer.

 

Eingabe-Einbettungen

Jedes Token erhält drei Arten von Einbettungen: Token (was das Wort ist), Position (wo es in einer Sequenz erscheint) und Segment (zu welchem Satz es gehört). So erhält BERT nützliche Informationen über Inhalt und Struktur von Text. 

 

Aufmerksamkeitsmechanismen 

BERT verwendet Aufmerksamkeitsmechanismen, um zu berechnen, wie viel jedes Wort jedes zweite Wort in einem Satz berücksichtigen sollte. Wenn BERT beispielsweise das englische Wort „bank“ verarbeitet, weist es allen anderen Wörtern in diesem Satz Aufmerksamkeitspunkte zu. Wenn „river“ und „water“ erscheinen, erhalten sie Highscores, was darauf hinweist, dass sich „bank“ wahrscheinlich auf ein Flussufer bezieht. Wenn „money“ und „deposit“ höher abschneiden, versteht BERT unter „bank“ ein Finanzinstitut. 

 

Transformer-Encoderebenen

BERT verarbeitet Text durch mehrere gestapelte Ebenen, wobei jede Ebene mehrere Aufmerksamkeitsberechnungen parallel ausführt. Jede Ebene erfasst immer komplexere Muster. Frühere Ebenen können grundlegende Grammatik lernen, während tiefere Ebenen abstrakte Beziehungen und Semantik verstehen.

 

Vortrainingsaufgaben 

Im Rahmen des Vortrainings maskiert BERT zufällig 15 % der Token und versucht vorherzusagen, was sie sind. Dies erleichtert das bidirektionale Verständnis. Es werden auch Satzpaare analysiert und es wird vorhergesagt, ob der zweite Satz vor oder nach dem ersten im ursprünglichen Text kommt. Diese Technik hilft ihm, die Beziehung zwischen Sätzen zu verstehen.

 

Optimierung und Inferenz

Nach Abschluss des Vortrainings können Entwickler:innen eine aufgabenspezifische Ebene hinzufügen und BERT darin trainieren, diese Aufgabe auszuführen, wie z. B. Stimmungsanalyse oder Spamerkennung. Während der Inferenz durchfließt Text alle Aufmerksamkeitsebenen, um ein kontextbezogenes Verständnis zu schaffen, und BERT gibt Prognosen auf der Grundlage dieser reichhaltigen Darstellungen aus.

Anwendungsfälle aus der Praxis für BERT

Seit der Einführung von BERT im Jahr 2018 wurde BERT in einer Vielzahl praktischer Anwendungsfälle eingesetzt. Dazu gehören:

 

Google-Suche 

BERT unterstützt das Google-Suchranking, um den Kontext und die Absicht komplexer Abfragen besser zu verstehen, insbesondere bei längeren dialogorientierten Suchen, bei denen Wortreihenfolge und Präpositionen wichtig sind. 

 

Virtuelle Assistenten 

BERT verbessert die Absichtserkennung in Sprachassistenten wie Google Assistant und Alexa und hilft ihnen so zu verstehen, was Nutzende tatsächlich wollen. Darüber hinaus ermöglicht es genauere Antworten auf Folgefragen, indem der Kontext während eines Gesprächs beibehalten wird.

 

Gesundheitswesen 

Durch die Analyse klinischer Notizen und Patientenakten kann das BERT relevante Patienteninformationen extrahieren, Diagnosen identifizieren und potenzielle Arzneimittelwechselwirkungen oder -widersprüche in Behandlungsplänen kennzeichnen. 

 

Legal Tech 

BERT bietet Tools zur Vertragsanalyse, die wichtige Klauseln, Verpflichtungen und Risiken in Tausenden von Rechtsdokumenten identifizieren. Es ermöglicht die semantische Suche durch die Rechtsprechung und hilft Anwälten, relevante Präzedenzfälle zu finden, selbst wenn eine andere Terminologie verwendet wird.

 

Ecommerce 

Durch das Verständnis der Kundenabsicht erleichtert BERT Chatbots die genaue Beantwortung von Kundenserviceanfragen und kann Produktrezensionen nach Stimmung klassifizieren.

 

Soziale Medien 

BERT unterstützt die Moderation von Inhalten durch die Erkennung von Hassreden, Belästigung und Fehlinformationen mit einem besseren Kontextverständnis als Keyword-basierte Ansätze. Es unterstützt Social-Media-Empfehlungssysteme, die Nutzenden relevante Verbindungen, Gruppen oder Inhalte vorschlagen.

Wichtige Einschränkungen von BERT

Wie ursprünglich geplant, leidet BERT unter einer Handvoll Einschränkungen. Die wichtigsten sind:

 

Hohe Rechenkosten

BERT benötigt erhebliche Rechenleistung sowohl für das Training als auch für die Inferenz, was es für Echtzeitanwendungen teuer und langsam macht, insbesondere auf Geräten mit begrenzten Ressourcen. 

 

Begrenzte Eingangslänge

BERT kann nur Sequenzen bis zu einer Länge von 512 Token verarbeiten, was bei langen Dokumenten wie Rechtsverträgen oder Forschungsarbeiten, die als Ganzes verstanden werden müssen, problematisch ist. 

 

Unfähigkeit, Text zu generieren

Da es nur als Encoder für das Verständnis von Text entwickelt wurde, ist BERT nicht in der Lage, kohärente Antworten zu generieren oder neue Inhalte zu erstellen. GPT-Modelle und spätere Encoder-Decoder-Architekturen, die speziell für Verständnis und Generierung entwickelt wurden, eignen sich für Aufgaben wie Zusammenfassung und Übersetzung.

 

Empfindlichkeit gegenüber Hyperparametern

Die Modell-Performance kann stark variieren, je nach Einstellungen wie Lernrate, Batch-Größe und der Anzahl der Durchläufe, die BERT benötigt, um ein Trainings-Dataset abzuschließen. Umfangreiche Anpassungen können erforderlich sein.

 

Herausforderungen bei der mehrsprachigen Performance

Multilinguales BERT wurde mit 104 Sprachen gleichzeitig trainiert, was bedeutete, dass jede Sprache weniger Aufmerksamkeit und die Performance im Vergleich zu sprachspezifischen Modellen litt. Neuere Modelle trainieren mit viel größeren mehrsprachigen Datasets mit besseren Sampling-Strategien oder nutzen sprachübergreifendes Transferlernen, um die Sprachperformance zu verbessern.

BERT im Vergleich zu anderen Sprachmodellen

BERT hat die Entwicklung anderer fortschrittlicherer Sprachmodelle angeregt. Hier einige der wichtigsten:

 

GPT 

GPT verwendet unidirektionale Verarbeitung (von links nach rechts) und wird trainiert, um das nächste Wort in einer Sequenz vorherzusagen. Dadurch eignet es sich natürlich für die Generierung kohärenten Textes wie Gespräche und kreatives Schreiben. Im Gegensatz zu BERT kann es nur vorherigen Kontext sehen, wenn es ein Wort versteht, nicht was danach kommt.

 

RoBERTa 

Robust optimierter BERT-Vortrainingsansatz (RoBERTa) verwendet dieselbe bidirektionale Architektur wie BERT, trainiert aber mit zehnmal mehr Daten. Es verwendet verbesserte Techniken wie dynamische Maskierung, die jedes Mal ändert, welche Wörter maskiert werden, wenn das Modell mit demselben Satz trainiert wird. Dadurch erreicht RoBERTa eine deutlich bessere Performance, ohne den grundlegenden Ansatz von BERT zu ändern.

 

XLNet 

XLNet erreicht ein bidirektionales Verständnis wie BERT, verwendet jedoch Permutation Language Modeling, bei dem Wörter in zufälliger Reihenfolge vorhergesagt werden, anstatt sie zu maskieren. Es ist oft genauer als BERT, aber rechentechnisch komplexer und schwieriger zu trainieren.

 

Funktion

BERT

GPT

RoBERTa

XLNet

Richtung

Bidirektional

Unidirektional (von links nach rechts)

Bidirektional

Bidirektional

Hauptstärke

Kontextverständnis

Textgenerierung

Besseres BERT-Verständnis

Moderne Kontextmodellierung

Trainings-Dataset

BookCorpus + Wikipedia (16 GB)

Vielfältiger Webtext

10-mal mehr Daten als BERT (160 GB)

Ähnlich wie BERT

Maskierungsstrategie

Random Masking

Keine Maskierung

Dynamische Maskierung

Permutationsbasiert

Kann Text generieren?

Nein

Ja

Nein

Limitiert

Zeitaufwand für Training

Baseline

Schneller

Länger (mehr Daten)

Länger (komplex)

Fazit

BERT hat grundlegend verändert, wie Maschinen Sprache verstehen, indem es bewies, dass bidirektionaler Kontext und Transferlernen die Performance drastisch verbessern könnten. Seine transformatorbasierte Architektur mit Selbstaufmerksamkeitsmechanismen wurde zur Blaupause für nahezu jedes moderne Sprachmodell, von GPT bis Claude, und etablierte den grundlegenden Ansatz, der die heutige KI-Revolution vorantreibt. Zwar haben neuere Modelle die Möglichkeiten von BERT übertroffen, doch die Kerninnovationen rund um bidirektionale Codierung, Vortrainingsstrategien und Aufmerksamkeitsmechanismen bleiben weiterhin zentral für die Art und Weise, wie wir heute linguistische KI-Systeme entwickeln und darüber nachdenken.

Häufig gestellte Fragen zu BERT

BERT wurde entwickelt, um Sprache zu verstehen, indem Text bidirektional gelesen wird. So eignet es sich hervorragend für Aufgaben wie Suche und Klassifizierung, während GPT von links nach rechts liest und für die Generierung von Text wie Konversationen und kreatives Schreiben entwickelt wurde. Stellen Sie sich BERT als Verständnisexpert:in und GPT als Schreibexpert:in vor – sie sind für verschiedene Aufgaben optimiert.

BERT wurde darin trainiert, maskierte Wörter mithilfe von umgebendem Kontext auszufüllen, nicht vorherzusagen, was in einer Sequenz als Nächstes kommt, sodass es nicht über die Fähigkeiten für die kohärente Textgenerierung verfügt. Seine Architektur ist ein Encoder, der auf Verständnis ausgelegt ist, kein Decoder, der Text Wort für Wort erzeugt.

Ja, absolut. Zwar haben neuere Modelle die Performance von BERT übertroffen, doch es wird immer noch in Produktionssystemen eingesetzt (wie Google Search, das täglich Milliarden von Abfragen verarbeitet), da es effizient, gut verstanden und perfekt zum Verständnis von Aufgaben geeignet ist. Noch wichtiger ist, dass die Innovationen von BERT in den Bereichen bidirektionale Aufmerksamkeit und Transferlernen die Grundlage für praktisch jedes moderne Sprachmodell gelegt haben, sodass sein Einfluss anhält, selbst wenn Sie BERT nicht selbst verwenden.