Data for Breakfast à travers le monde

Propulsez votre impact via l'intelligence agentique et la donnée.

En quoi consiste le modèle de NLP BERT ? Explications

Découvrez le modèle BERT : fonctionnement, architecture, algorithme et impact sur l’IA, les tâches de NLP et l’évolution des grands modèles de langage.

  • Présentation
  • Définition du modèle de NLP BERT
  • Importance du modèle BERT
  • Fonctionnement du modèle BERT
  • Cas d’usage réels du modèle BERT
  • Limites majeures du modèle BERT
  • Le modèle BERT par rapport à d’autres modèles de langage
  • Conclusion
  • Questions fréquentes sur le modèle BERT
  • Clients qui utilisent Snowflake
  • Ressources Snowflake

Présentation

Le modèle BERT (Bidirectional Encoder Representations from Transformers) a considérablement transformé la façon dont les ordinateurs traitent le langage naturel. Développée par Google en 2018, cette approche open source analyse le texte dans les deux sens en même temps, ce qui lui permet de mieux comprendre la signification des mots dans leur contexte. Le modèle BERT a inauguré une nouvelle pratique : utiliser des quantités massives de texte pour pré‑entraîner des modèles de langage, afin de permettre aux développeurs d’affiner ces modèles plus tard pour effectuer toute une série d’autres tâches. Il a ainsi posé les bases des grands modèles de langage basés sur des transformeurs que nous utilisons aujourd’hui, en démontrant qu’une compréhension approfondie du contexte est essentielle pour que l’IA puisse véritablement saisir le langage humain.

Ce guide explique en quoi consiste le modèle BERT, décrit son fonctionnement et présente ses applications réelles les plus courantes.

En quoi consiste le modèle de NLP BERT ?

Le modèle BERT a révolutionné le traitement du langage naturel (NLP) en analysant simultanément les mots avant et après un mot cible, au lieu de traiter chaque mot de manière séquentielle. Son architecture sous‑jacente basée sur des transformeurs permet à un modèle de langage de pondérer l’importance des différents mots les uns par rapport aux autres, quelle que soit la distance qui les sépare dans une phrase, et de distinguer le sens de plusieurs homographes en fonction du contexte environnant.

En outre, BERT a introduit un processus en deux étapes pour l’entraînement des modèles. Premièrement, le modèle est entraîné à l’aide d’énormes quantités de texte sans étiquette pour lui fournir une compréhension générale des schémas linguistiques. Deuxièmement, le modèle est affiné sur des tâches spécifiques avec de plus petits jeux de données étiquetés, une pratique appelée « transfer learning » ou apprentissage par transfert. Comme il n’est plus nécessaire d’entraîner de bout en bout chaque modèle de langage, le traitement du langage naturel de pointe est devenu accessible pour un large éventail d’applications, y compris les recherches sur Internet et l’analyse des opinions. 

Ainsi, Google a intégré BERT à son moteur de recherche en 2019, ce qui lui a permis de comprendre les requêtes de recherche telles qu’elles sont réellement écrites par des humains. Aujourd’hui, ce modèle est utilisé dans pratiquement toutes les requêtes en anglais et s’est étendu à de nombreuses autres langues. Il a ainsi permis à Google d’améliorer considérablement son interprétation des questions complexes, sa compréhension des recherches conversationnelles et sa gestion des requêtes lorsque le contexte est essentiel pour fournir la bonne réponse.

Importance du modèle BERT

Le modèle BERT est capable de procéder à une analyse bidirectionnelle du contexte, or cette capacité est considérée comme une avancée majeure dans l’évolution de l’IA et du NLP. Cette capacité lui a permis d’obtenir des résultats records dans onze tâches de NLP, y compris répondre à des questions, analyser des opinions et reconnaître des entités nommées (c’est‑à‑dire catégoriser automatiquement si un mot désigne une personne, un produit, une organisation ou toute autre entité). L’architecture basée sur des transformeurs du modèle BERT est désormais à la base de pratiquement tous les LLM modernes, car elle est capable de capturer les relations entre les mots dans des textes longs.

Fonctionnement du modèle BERT

L’entraînement et l’inférence du modèle BERT impliquent plusieurs mécanismes sophistiqués qui fonctionnent ensemble : 

 

Tokénisation

Le modèle BERT divise le texte en plus petits éléments appelés tokens. Par exemple, le mot « crier » peut se diviser en « cri » et « ##er ». Chaque token est converti en nombre, puis BERT ajoute des marqueurs spéciaux comme [CLS] au début des phrases et [SEP] entre les phrases. Cette approche augmente la précision sur les mots plus rarement utilisés et permet de maintenir un vocabulaire d’une taille plus facile à gérer.

 

Intégrations des entrées

Chaque token reçoit trois types d’intégrations : token (quel est le mot), position (où il apparaît dans une séquence) et segment (à quelle phrase il appartient). Cette approche fournit au modèle BERT des informations utiles sur le contenu et la structure du texte. 

 

Mécanismes d’attention 

BERT utilise des mécanismes d’attention pour calculer à quel point chaque mot dépend de tous les autres mots dans une phrase. Par exemple, lorsque BERT traite le mot « avocat », il attribue des scores d’attention à tous les autres mots de cette phrase. Si « fruit » et « noyau » apparaissent, ils obtiennent des scores élevés, ce qui indique que « avocat » fait probablement référence au fruit. Si « tribunal » et « droit » obtiennent des scores plus élevés, BERT comprend que « avocat » désigne un professionnel du droit. 

 

Couches d’encodeurs des transformeurs

BERT traite le texte à travers plusieurs couches empilées. Chaque couche exécute plusieurs calculs d’attention en parallèle et capture des tendances de plus en plus complexes. Ainsi, les premières couches peuvent apprendre la grammaire de base, tandis que les couches plus profondes comprennent des relations abstraites et la sémantique.

 

Tâches de pré‑entraînement 

Dans le cadre du processus de pré‑entraînement, BERT masque aléatoirement 15 % des tokens et tente de les prédire. Cette approche facilite la compréhension bidirectionnelle. Le modèle analyse également des paires de phrases et prédit si la seconde phrase précède ou suit la première dans le texte original. Cette technique l’aide à comprendre la relation entre les phrases.

 

Fine‑tuning et inférence

Une fois le pré‑entraînement terminé, les développeurs peuvent ajouter une couche spécifique à une tâche et entraîner le modèle BERT à effectuer cette tâche, comme l’analyse des opinions ou la détection des spams. Pendant l’inférence, le texte traverse toutes les couches d’attention pour construire une compréhension contextuelle, puis BERT produit des prédictions basées sur ces représentations riches.

Cas d’usage réels du modèle BERT

Depuis son introduction en 2018, le modèle BERT a été déployé dans un large éventail de cas d’usage concrets. En voici quelques‑uns :

 

Recherche sur Google 

BERT alimente le classement des recherches de Google pour mieux comprendre le contexte et l’intention des requêtes complexes, en particulier des recherches conversationnelles longues où l’ordre des mots et les prépositions comptent. 

 

Assistants virtuels 

BERT améliore la reconnaissance de l’intention dans les assistants vocaux tels que Google Assistant et Alexa, afin de les aider à comprendre ce que les utilisateurs veulent réellement. Ce modèle permet également de répondre plus précisément aux questions posées plus tard dans une conversation en tenant compte du contexte global.

 

Santé 

Lors de l’analyse de notes cliniques et de dossiers médicaux, le modèle BERT peut extraire des informations pertinentes sur les patients, identifier des diagnostics et signaler des interactions médicamenteuses potentielles ou des contradictions dans les plans de traitement. 

 

Technologie juridique 

BERT alimente des outils d’analyse de contrats qui identifient les clauses, obligations et risques clés sur des milliers de documents juridiques. Il permet une recherche sémantique dans la jurisprudence, ce qui aide les avocats à trouver des précédents pertinents, même avec une terminologie différente.

 

E‑commerce 

En comprenant l’intention des clients, le modèle BERT permet aux chatbots de répondre plus précisément aux demandes de service client et de classer les avis sur les produits en fonction des opinions exprimées.

 

Réseaux sociaux 

Le modèle BERT facilite la modération de contenu en détectant les discours haineux, le harcèlement et la désinformation grâce à une meilleure compréhension du contexte que les approches basées sur des mots‑clés. En outre, il alimente des systèmes de recommandation sur les réseaux sociaux, afin de suggérer aux utilisateurs des relations, des groupes ou des contenus pertinents.

Limites majeures du modèle BERT

La conception initiale du modèle BERT souffre de quelques limitations. Voici les principales :

 

Coût élevé du calcul

Le modèle BERT nécessite une puissance de calcul considérable pour l’entraînement et l’inférence, ce qui le rend coûteux et lent pour les applications en temps réel, en particulier sur les appareils aux ressources limitées. 

 

Longueur d’entrée limitée

Le modèle BERT ne peut traiter que des séquences d’une longueur maximale de 512 tokens, ce qui est problématique pour les longs documents comme les contrats juridiques ou les articles de recherche qui doivent être compris dans leur ensemble. 

 

Impossibilité de générer du texte

Comme il a été conçu uniquement comme un encodeur pour comprendre du texte, le modèle BERT est incapable de générer des réponses cohérentes ou de créer du nouveau contenu. Les modèles GPT et les architectures encodeurs‑décodeurs plus récentes spécifiquement conçues pour gérer à la fois la compréhension et la génération sont adaptés à des tâches telles que la synthèse et la traduction.

 

Sensibilité aux hyperparamètres

Les performances du modèle peuvent varier considérablement en fonction de paramètres tels que le taux d’apprentissage, la taille du batch et le nombre d’essais qu’il faut à BERT pour réussir une passe à travers un jeu de données d’entraînement. Un fine‑tuning approfondi est parfois nécessaire.

 

Défis liés aux performances multilingues

Le modèle BERT multilingue a été entraîné simultanément sur 104 langues, ce qui signifie que chaque langue a bénéficié de moins d’attention. Par conséquent, ses performances sont inférieures à celles de modèles spécifiques à une langue. Des modèles plus récents s’entraînent sur des jeux de données multilingues beaucoup plus volumineux avec de meilleures stratégies d’échantillonnage ou utilisent l’apprentissage par transfert interlinguistique pour améliorer leurs performances linguistiques.

Le modèle BERT par rapport à d’autres modèles de langage

Le modèle BERT a inspiré la création d’autres modèles de langage plus avancés. Voici quelques‑uns des plus remarquables :

 

GPT 

GPT utilise un traitement unidirectionnel (de gauche à droite) et est entraîné à prédire le mot suivant dans une séquence. Ainsi, il est naturellement adapté à la génération de texte cohérent (conversations, écriture créative, etc.). Contrairement au modèle BERT, il ne peut se baser que sur le contexte précédent pour comprendre un mot, et non sur ce qui vient après.

 

RoBERTa 

Le modèle RoBERTa (Robustly Optimized BERT Pretraining Approach) s’appuie sur la même architecture bidirectionnelle que le modèle BERT, mais avec 10 fois plus de données d’entraînement. Il utilise des techniques améliorées telles que le masquage dynamique, qui change quels mots sont masqués chaque fois que le modèle est entraîné sur la même phrase. RoBERTa obtient ainsi des performances nettement supérieures au modèle BERT, même s’il utilise la même approche fondamentale.

 

XLNet 

À l’instar du modèle BERT, XLNet prend en charge une compréhension bidirectionnelle, mais utilise une modélisation du langage par permutation, qui consiste à prédire les mots dans un ordre aléatoire au lieu de les masquer. Il est souvent plus précis que BERT, mais il est plus complexe sur le plan du calcul et plus difficile à entraîner.

 

Caractéristique

BERT

GPT

RoBERTa

XLNet

Direction

Bidirectionnelle

Unidirectionnelle (de gauche à droite)

Bidirectionnelle

Bidirectionnelle

Principal point fort

Compréhension du contexte

Génération de texte

Meilleure compréhension que BERT

Modélisation avancée du contexte

Données d’entraînement

BookCorpus + Wikipedia (16 Go)

Textes divers sur le web

10 fois plus de données que BERT (160 Go)

Similaires à BERT

Stratégie de masquage

Masquage aléatoire

Pas de masquage

Masquage dynamique

Basé sur la permutation

Capacité à générer du texte ?

Non

Oui

Non

Limitée

Durée d’entraînement

Durée de référence

Plus rapide

Plus longue (plus de données)

Plus longue (complexe)

Conclusion

Le modèle BERT a radicalement transformé la façon dont les machines comprennent le langage en prouvant que le contexte bidirectionnel et l’apprentissage par transfert pouvaient améliorer considérablement leurs performances. Son architecture basée sur des transformeurs avec des mécanismes d’auto‑attention est devenue une référence à suivre pour presque tous les modèles de langage modernes, de GPT à Claude. Ainsi, BERT a établi l’approche fondamentale à l’origine de la révolution de l’IA actuelle. Si des modèles plus récents ont surpassé les capacités de BERT, les innovations majeures qu’il a introduites en matière d’encodage bidirectionnel, de stratégies de pré‑entraînement et de mécanismes d’attention restent au cœur de la façon dont nous concevons et pensons les systèmes d’IA linguistiques aujourd’hui.

Questions fréquentes sur le modèle BERT

Le modèle BERT est conçu pour comprendre le langage en lisant du texte dans les deux sens. Il est donc idéal pour des tâches comme la recherche et la classification. De son côté, GPT lit de gauche à droite et est conçu pour générer du texte comme des conversations ou des écrits créatifs. Considérez BERT comme un expert en compréhension et GPT comme un expert en rédaction : ils sont optimisés pour différentes tâches.

Le modèle BERT a été entraîné à retrouver des mots masqués d’après le contexte environnant, et non à prédire la suite d’une séquence. Il n’a donc pas les capacités nécessaires pour générer un texte cohérent. Son architecture est basée sur un encodeur conçu pour la compréhension, et non sur un décodeur conçu pour produire du texte mot par mot.

Absolument. Si des modèles plus récents ont surpassé les performances de BERT, il est encore largement utilisé dans des systèmes de production (comme Google Search, qui traite des milliards de requêtes chaque jour) car il est efficace, bien compris et parfaitement adapté aux tâches de compréhension. Plus important encore, les innovations de BERT en matière d’attention bidirectionnelle et d’apprentissage par transfert ont posé les bases de pratiquement tous les modèles de langage modernes. Son influence reste donc marquante même quand on n’utilise pas le modèle BERT lui‑même.