Snowflake Intelligence*

Les informations de votre entreprise sont désormais à portée de main de chaque collaborateur.

Qu’est-ce que la RAG ? Guide complet

Créez rapidement des applications de génération augmentée de récupération (RAG) pour votre entreprise avec Snowflake Cortex AI.

  • Présentation
  • Qu’est-ce que la RAG ?
  • Quels sont les avantages de la RAG ?
  • Comment les techniques RAG sont-elles utilisées ?
  • Comment fonctionne la RAG ?
  • La RAG et Snowflake
  • Clients
  • Ressources sur la RAG

Présentation

La RAG est un framework populaire dans lequel un grand modèle de langage (LLM) accède à une base de connaissances spécifique utilisée pour générer une réponse. Comme il n’est pas nécessaire de réentraîner le modèle de fondation, les développeurs peuvent utiliser rapidement et à moindre coût des LLM dans un contexte spécifique. Les applications RAG peuvent être utilisées pour le service client, les ventes, le marketing, les bases de connaissances et plus encore. 

Avec Snowflake Cortex AI, vous pouvez créer et déployer des applications LLM qui apprennent en quelques minutes les nuances uniques de votre activité et de vos données. De plus, comme Snowflake fournit des LLM de pointe, ainsi que des fonctionnalités de recherche vectorielle et de création d’applications Streamlit dans un service entièrement géré, vous pouvez facilement créer des applications RAG prêtes pour la production.

Qu’est-ce que la génération augmentée de récupération, ou RAG ?

La génération augmentée de récupération (RAG) est une technique qui améliore les résultats d’un modèle de fondation (grand modèle de langage ou LLM) en faisant référence à une base de connaissances externe au-delà de ses données d’entraînement d’origine. 

Les LLM, entraînés sur de vastes jeux de données avec des milliards de paramètres, excellent dans des tâches comme répondre aux questions, traduire et compléter une phrase. La RAG étend ces capacités en permettant au modèle d’accéder à des données sur des domaines spécifiques ou aux connaissances internes d’une entreprise sans réentraînement nécessaire. Cette approche économique améliore la précision, la pertinence et l’utilité des résultats des applications LLM dans divers contextes.

Quels sont les avantages de la génération augmentée de récupération ?

1. La RAG corrige les limites de l’utilisation de LLM seuls

Les LLM s’appuient sur des données d’entraînement statiques, qui n’incluent pas toujours les informations les plus récentes ou spécifiques à l’entreprise. En l’absence d’instructions concernant les sources faisant autorité, les LLM peuvent générer des réponses inexactes ou incohérentes, en particulier lorsqu’ils sont confrontés à une terminologie contradictoire. En cas d’incertitude, les LLM peuvent « halluciner » ou fabriquer des réponses. La RAG atténue ces problèmes en fournissant un accès contrôlé à des sources à jour faisant autorité, afin d’obtenir des réponses plus précises et plus fiables.

2. La RAG fournit des résultats de meilleure qualité, tout en assurant la traçabilité de leur source spécifique

Pour être utiles, les LLM doivent fournir des réponses toujours fiables et faisant autorité. La RAG permet de tracer les réponses jusqu’à leurs références spécifiques et d’inclure des citations des sources, ce qui améliore la transparence et la fiabilité du contenu généré.

3. La RAG fournit des réponses actualisées à moindre coût

Dans les secteurs dynamiques, les informations deviennent rapidement obsolètes. La RAG permet aux modèles pré-entraînés d’accéder à des informations à jour sans fine-tuning coûteux. Cette approche aide les LLM à intégrer des données en temps réel provenant de diverses sources, notamment des fils d’actualité, des réseaux sociaux, des rapports financiers et des capteurs IoT, pour plus de pertinence et de précision.

4. La RAG donne plus de contrôle aux développeurs d’applications

La RAG offre aux développeurs une plus grande flexibilité pour créer des solutions sur mesure et dédiées. Grâce à un framework de sécurité autour de la RAG, les développeurs d’applications peuvent autoriser un accès contrôlé aux informations sensibles, afin de s’assurer que seuls des utilisateurs autorisés reçoivent des réponses qui s’appuient sur des données restreintes.

Comment les techniques de génération augmentée de récupération sont-elles utilisées ?

Grâce aux progrès rapides de l’IA générative, la RAG fait désormais partie intégrante de nombreux systèmes alimentés par l’IA, en particulier les chatbots et les applications de gestion des connaissances.

1. Accès des collaborateurs à des bases de connaissances internes (informations sur les RH, les produits ou les services, etc.) :

Les applications RAG améliorent l’accès des collaborateurs à des informations propriétaires dans des bases de connaissances spécifiques à un domaine, comme les intranets d’entreprise ou les systèmes de documentation internes. Ces modèles leur permettent de poser des questions précises en langage naturel (par ex., « Quelle est la politique de congé parental de notre entreprise ? » ou « Comment demander un congé ? ») et de recevoir des réponses générées à partir de la base de connaissances interne de l’entreprise. La RAG garantit des réponses plus précises et adaptées au contexte et peut fournir des informations personnalisées en fonction du niveau d’autorisation du demandeur et de son rôle au sein de l’entreprise.

2. Market ou Business Intelligence :

En exploitant des données sur le marché et des rapports internes mis à jour en continu, la RAG améliore la qualité et l’actualité des activités de Business Intelligence. Les entreprises peuvent ainsi prendre des décisions basées sur les données, identifier les tendances émergentes et obtenir un avantage concurrentiel. La RAG peut synthétiser des données provenant de plusieurs sources, de façon à fournir des informations plus complètes que les méthodes d’analyse traditionnelles.

3. Service client intelligent :

Les chatbots de service client alimentés par des LLM et améliorés par la RAG peuvent prendre en charge un large éventail de tâches, notamment l’assistance concernant les produits, la résolution des problèmes et le traitement des sinistres. La RAG fournit un accès en temps réel à du contenu précis et vérifié, y compris des informations à jour sur les produits, le statut des commandes et les données clients individuelles. Ainsi, les chatbots peuvent fournir des réponses hautement contextuelles et personnalisées, de façon à améliorer la satisfaction des clients et à réduire la charge de travail des collaborateurs du service d’assistance.

4. Accès à l’information en libre-service pour les clients :

Les chatbots destinés au public et alimentés par la RAG offrent un accès 24 h/24, 7 j/7 à des informations marketing, sur les ventes, les produits et les services. Ces systèmes peuvent naviguer rapidement dans de vastes bases de connaissances afin de fournir aux utilisateurs des informations pertinentes et à jour à tout moment. Ainsi, ils permettent non seulement d’améliorer l’expérience client, mais aussi de réduire le volume de demandes de renseignements de base que les collaborateurs doivent traiter. Ces derniers peuvent alors se concentrer sur des questions plus complexes.

Comment fonctionne la RAG et comment déployer un framework de RAG ?

Interface client/application

Les utilisateurs finaux interagissent avec la base de connaissances, généralement via une interface de chat ou un système de réponse aux questions.

Référentiel contextuel

Les sources de données pertinentes sont agrégées, gouvernées et mises à jour en permanence pour fournir un référentiel de connaissances actualisé. Cela inclut des étapes de prétraitement comme le découpage et l’intégration du texte.

Recherche

Un magasin vectoriel gère la représentation numérique (intégrations) de la base de connaissances. La recherche sémantique permet de récupérer les blocs d’informations les plus pertinents en fonction de la requête des utilisateurs.

Inférence de LLM

Le système intègre la question de l’utilisateur et récupère le contexte pertinent dans le magasin vectoriel. Ce contexte est ensuite utilisé pour envoyer un prompt à un LLM, qui génère une réponse contextualisée basée à la fois sur la question et sur les informations extraites. 

Pour créer une RAG véritablement professionnelle, les entreprises doivent envisager d’y ajouter des composants supplémentaires :

  • Modèle d’intégration : utilisé pour convertir du texte en représentations vectorielles à la fois pour la base de connaissances et les requêtes des utilisateurs.

  • Pipeline de données : assure la mise à jour et la maintenance continues de la base de connaissances.

  • Évaluation et suivi : outils d’évaluation de la qualité des réponses et des performances du système.

Applications RAG et Snowflake

Passez de la RAG à des applications LLM enrichies en quelques minutes avec Snowflake Cortex AI

  • Vastes capacités autour des données et de l’IA : le développement et le déploiement d’une application d’IA de bout en bout à l’aide de la RAG sont possibles sans intégration, sans gestion de l’infrastructure ou sans déplacement des données grâce à trois fonctionnalités clés : Snowflake Cortex AI, Streamlit in Snowflake et Snowpark.
  • Cortex Search pour la recherche hybride : Cortex Search est une fonctionnalité clé de Snowflake Cortex AI, qui offre des capacités avancées de récupération en combinant la recherche sémantique et la recherche par mot-clé. Au sein de la plateforme Snowflake Cortex AI, elle automatise la création d’intégrations et permet une récupération des données efficace et de haute qualité sans avoir à gérer une infrastructure complexe.
  • Création rapide d’une interface RAG dans Streamlit : utilisez Streamlit in Snowflake pour obtenir des éléments de chat prêts à l’emploi afin de créer et de partager rapidement des interfaces utilisateur, le tout en Python.
  • Référentiel contextuel avec Snowpark : le référentiel de connaissances peut être facilement mis à jour et gouverné grâce aux zones de préparation Snowflake. Une fois les documents chargés, vous pouvez utiliser Snowpark pour toute la préparation de vos données, y compris la génération de blocs de texte plus petits et riches en contexte. Pour cette tâche en particulier, les équipes peuvent utiliser facilement LangChain dans le cadre d’une Snowpark User Defined Function
  • Cortex Search pour la recherche hybride : Cortex Search permet de réaliser rapidement des recherches hybrides (vectorielles et par mots-clés), sans avoir à se soucier de l’intégration, de la maintenance de l’infrastructure, du réglage des paramètres de qualité des recherches ni de l’actualisation continue des index. 
  • Inférence de LLM sécurisée : Snowflake Cortex complète le flux de travail avec des fonctions serverless pour l’intégration et l’inférence de complétion de texte (à l’aide de Mistral AI, Llama, Gemma, Arctic ou d’autres LLM disponibles dans Snowflake).

La RAG au service des clients de Snowflake

De vrais clients de Snowflake font gagner du temps à leurs équipes, boostent leur productivité et réduisent leurs coûts en utilisant des applications RAG dans Snowflake.