Partage et monétisation de modèles d’IA en toute sécurité dans l’AI Data Cloud
L’essor des modèles d’IA générative pousse les entreprises à intégrer l’IA et les grands modèles de langage (LLM) dans leur stratégie commerciale. Après tout, ces modèles ouvrent de nouvelles opportunités pour extraire une plus grande valeur des données et de la propriété intellectuelle d’une entreprise et les rendre accessibles à un public plus large dans toute l’entreprise.
La capacité à partager des données est essentielle pour tirer le meilleur parti des modèles d’IA générative. Les entreprises disposant de données précieuses pouvant être utilisées pour optimiser les LLM veulent pouvoir les monétiser et les utiliser à des fins de fine-tuning sans accorder l’accès aux sources de données d’origine. Elles veulent également s’assurer que toutes les utilisations leur sont correctement attribuées.
Malheureusement, bon nombre des solutions actuellement disponibles ne donnent pas aux entreprises les outils nécessaires pour partager des données en toute sécurité tout en :
Veillant à ce que les données précieuses d’une entreprise soient toujours gérées par cette organisation et non mises à la disposition d’autres parties, ce qui pourrait entraîner une utilisation inappropriée ou éventuellement malveillante.
Garantissant que les modèles tiers utilisés au sein de l’entreprise sont compartimentés en toute sécurité.
Surveillant attentivement l’accès aux données et aux modèles.
Chez Snowflake, nous prenons ces défis à bras-le-corps et aidons les développeurs à proposer une IA fiable avec des données d’entreprise.

Lors de notre récente conférence BUILD 2024, nous avons mis en avant trois fonctionnalités pour vous aider à partager vos LLM optimisés, partager des jeux de données pour entraîner vos LLM et partager des modèles traditionnels d’IA/de ML en toute sécurité à l’intérieur et à l’extérieur de votre organisation dans l’AI Data Cloud. Nous avons fait un tour d’horizon de ces fonctionnalités dans un article précédent, mais examinons maintenant de plus près comment vous pouvez les utiliser dans vos projets.
Snowflake Cortex AI : partager des LLM optimisés de Meta et Mistral AI
Pour tirer pleinement parti des modèles d’IA fondamentaux, les entreprises doivent les personnaliser et les optimiser en fonction de leurs domaines et jeux de données spécifiques. Cette tâche s’accompagne généralement de deux mandats : aucune donnée ne quitte ses locaux à aucun moment et aucun investissement lourd n’est réalisé dans la construction d’infrastructures.
Snowflake offre désormais aux entreprises la possibilité d’optimiser les principaux modèles de Meta et Mistral AI à l’aide de données dans leur propre périmètre de sécurité et sans avoir à gérer d’infrastructure. Mieux encore, les développeurs peuvent facilement gouverner et gérer leurs LLM personnalisés avec Snowflake Model Registry.
Avec Secure Model Sharing (actuellement en public preview), vous pouvez optimiser et partager des modèles de fondation personnalisés en trois étapes :
Sélectionnez le modèle de base et fournissez votre jeux de données d’entraînement dans le cadre de la fonction FINETUNE ou en utilisant l’expérience no-code dans Snowflake AI & ML Studio. Les modèles optimisés peuvent être utilisés via la fonction COMPLETE.
Partagez vos modèles optimisés en toute sécurité avec d’autres comptes Snowflake de votre région.
Répliquez vos modèles optimisés entre les régions au sein de votre organisation.

SNOWFLAKE.CORTEX.FINETUNE(
‘CREATE’
<model_name>,
<base_model>,
<training_data>,
<validation_data>
);
Libérez la puissance des LLM Cortex grâce à Cortex Knowledge Extensions
Les entreprises veulent un moyen simple d’enrichir leurs modèles de fondation avec des informations spécifiques à leur domaine afin qu’ils fournissent des réponses plus pertinentes. Traditionnellement, il faut beaucoup de temps et d’efforts pour trouver et obtenir les bons jeux de données, puis plus de temps et de compétences techniques pour préparer les données à la consommation et optimiser les LLM. Snowflake a déjà rationalisé la première partie de ce processus (localiser les données appropriées) avec la Marketplace Snowflake, qui offre un emplacement central pour trouver, essayer et acheter rapidement plus de 2 900 jeux de données, applications et produits de données (au 31 octobre 2024). Désormais, avec Cortex Knowledge Extensions (actuellement en private preview), nous facilitons la préparation et la transformation des données tierces.
Cortex Knowledge Extensions offre à ses clients un « bouton facile » pour enrichir le modèle de fondation qu’ils choisissent avec des informations à jour dans un domaine particulier, sans nécessiter d’expertise technique supplémentaire pour optimiser et gérer les données brutes d’un fournisseur de contenu. Point essentiel, les clients auront l’assurance qu’ils utilisent du contenu sous licence officielle.
Cortex Knowledge Extensions permet aux applications d'IA générative de tirer des réponses des données sous licence non structurées des fournisseurs tout en leur attribuant les attributions appropriées et en isolant le jeu de données complet d'origine de l'exposition. Cela aide les fournisseurs à monétiser et à participer à l’IA générative tout en réduisant le risque que leur contenu soit utilisé à des fins d’entraînement de modèles.
Pour rendre ses données disponibles sur la Marketplace Snowflake, le fournisseur de contenu met en place un service Cortex Search sur ses données et les publie sur la Marketplace Snowflake. Une fois celles-ci publiées, un consommateur peut trouver la référence et acquérir les données sur la Marketplace Snowflake. Les consommateurs peuvent ensuite utiliser les API Cortex AI pour demander aux LLM les données acquises sur la Marketplace Snowflake.
Partagez des modèles d’IA/ML traditionnels dans l’AI Data Cloud
De plus en plus d’entreprises développent des modèles d’IA/ML personnalisés pour des tâches spécifiques telles que la prédiction de la perte ou la prévision des revenus. Ces modèles peuvent être développés au sein de l’entreprise par des data scientists ou en externe par des partenaires. Les entreprises peuvent désormais exploiter la puissance de ces modèles et les partager avec leurs partenaires, clients et utilisateurs au sein de l’entreprise à l’aide des Snowflake Native Apps sur la Marketplace interne et la Marketplace Snowflake externe.
Avec Snowflake Secure Data Sharing, les entreprises peuvent permettre aux utilisateurs finaux d’exécuter des modèles de ML en toute sécurité avec un contrôle d’accès précis basé sur les rôles de leurs données. Les données elles-mêmes ne quittent jamais les limites de sécurité de l’entreprise. Le packaging des modèles avec des Snowflake Native Apps garantit qu’ils héritent de la position de sécurité des Snowflake Native Apps, y compris l’analyse de sécurité, le sandboxing et l’accès à des ressources locales ou externes en fonction des privilèges spécifiques accordés au modèle.
Partager un modèle est aussi simple que d’ajouter des artefacts de modèle à un package d’applications et d’accorder des privilèges d’utilisation des consommateurs spécifiques à une application. Les utilisateurs sont alors libres d’installer l’application et d’invoquer les fonctions du modèle.

Grâce à la collaboration et au partage de données dans Snowflake, les entreprises peuvent facilement créer et partager des modèles d’IA/de ML, à la fois des modèles traditionnels et des LLM optimisés, et partager leurs avantages avec le reste de l’entreprise. Pour en savoir plus et essayer certaines de ces fonctionnalités, consultez les ressources suivantes :
Session à la demande BUILD 2024 What’s New: Snowflake Horizon Catalog, y compris la Marketplace interne