IA et ML

Les grands modèles de langage Llama 4 de Meta sont désormais disponibles sur Snowflake Cortex AI

Chez Snowflake, nous nous engageons à fournir à nos clients des LLM de pointe. Nous avons le plaisir de proposer les derniers modèles Llama 4 de Meta dans Snowflake Cortex AI ! 

Les modèles Llama 4 offrent une inférence performante afin que nos clients puissent créer des applications d’IA générative de premier ordre et offrir des expériences personnalisées. Les modèles Llama 4 Maverick et Llama 4 Scout sont accessibles dans le périmètre sécurisé de Snowflake sur Cortex AI. Selon Meta, Llama 4 Scout est le meilleur modèle multimodal au monde dans sa catégorie et prend en charge une fenêtre contextuelle de pointe pouvant aller jusqu’à 10 millions de tokens. Selon Meta, ces modèles sont entraînés avec de grandes quantités de données textuelles, vidéo et d’images non étiquetées pour offrir des expériences utilisateur riches. Ces modèles sont conçus pour la multimodalité native, en intégrant la fusion précoce pour intégrer facilement du texte et des tokens de vision dans un backbone de modèle unifié. Cette conception s’adapte à toute une gamme de cas d’usage et de besoins des développeurs. Cela permet aux développeurs de créer des applications d’IA d’entreprise. 

Inférence plus rapide et de haute qualité avec une architecture mixte d’experts (MoE)

Les modèles Llama 4 sont les premiers modèles de Meta à utiliser une architecture MoE : un seul token n’active qu’une fraction du total des paramètres. Par conséquent, les architectures MoE sont plus efficaces en termes de calcul, à la fois pour l’entraînement et l’inférence des modèles, et offrent une inférence de meilleure qualité que les autres architectures. Au sein de Snowflake, Llama 4 Maverick et Llama 4 Scout peuvent être intégrés aux applications d’IA générative.

  • Llama 4 Maverick offre des performances de pointe en matière de compréhension d’images et de texte grâce à la prise en charge de 12 langues pour surmonter les barrières linguistiques. En tant que LLM à usage général, Llama 4 Maverick contient 17 milliards de paramètres actifs (400 milliards de paramètres totaux), offrant une inférence de haute qualité par rapport à Llama 3.3 70B. Le modèle est bien adapté à une compréhension précise des images et à l’écriture créative. Il fournit une intelligence de pointe à grande vitesse, optimisée pour une meilleure qualité de réponse au ton et aux refus.

  • Llama 4 Scout est un petit modèle à usage général avec 17 milliards de paramètres actifs (109 milliards de paramètres totaux) et prend en charge une fenêtre contextuelle de pointe de 10 millions de tokens. Cela ouvre un monde de possibilités, notamment la synthèse multi-documents, l’analyse d’une activité utilisateur intense pour des tâches personnalisées et le raisonnement sur de vastes bases de code. 

L’engagement de Snowflake en faveur de l’open source

Les modèles open source Llama de Meta ont permis aux entreprises de créer des expériences d’IA uniques. Chez Snowflake, nous exploitons ces modèles au sein de Cortex AI pour créer des solutions sur mesure qui répondent à l’évolution des besoins de l’entreprise. Nos clients peuvent utiliser des modèles Llama pour alimenter des agents d’IA qui gèrent des tâches complexes et s’intègrent à des outils tels que Cortex Analyst et Cortex Search, libérant ainsi toute la valeur de leurs données sur une plateforme unique.

Quote Icon

La plus grande plateforme de conseils de voyage au monde TripAdvisor aide plus de 450 millions de voyageurs chaque mois à profiter au maximum de leurs voyages. Grâce aux modèles Llama dans Snowflake, nous pouvons émettre des recommandations aussi pertinentes que personnalisées à ces voyageurs, tout en favorisant l’engagement et notre chiffre d’affaires. Notre équipe est ravie de pouvoir commencer à utiliser les modèles Llama 4 dans Cortex AI pour repousser les limites du possible en termes de personnalisation de voyages et d’expérience utilisateur. »

Rahul Todkar
Head of Data and AI, TripAdvisor.

Notre équipe de recherche en IA développe activement des technologies de pointe sur ces modèles Llama. Par exemple, Arctic Ulysses est une nouvelle technologie que nous avons développée qui est optimisée pour l’inférence à faible latence et à haut débit, et qui est bénéfique pour les tâches de séquences longues. En outre, SwiftKV, une autre innovation récente basée sur les modèles Llama de Meta et disponible dans Snowflake-Llama-3.3-70B et Snowflake-Llama-3.1-405B, permet de réduire les coûts d’inférence des LLM Llama jusqu’à 75 % sur Cortex AI par rapport aux modèles Meta Llama de base dans Cortex AI qui ne sont pas optimisés SwiftKV. Cela se traduit directement par des économies substantielles et une amélioration des performances pour nos clients, favorisant ainsi le déploiement évolutif d’initiatives d’IA générative. En optimisant l’étape de pré-remplissage de l’inférence, SwiftKV assure le traitement efficace des longs prompts de saisie, une exigence essentielle pour de nombreuses applications d’entreprise.

Accès intégré via SQL et Python

La série Llama 4 actuellement disponible en preview sur Cortex AI offre un accès facile via les fonctions SQL établies et les points de terminaison standard de l’API REST. Nos clients peuvent utiliser les capacités d’inférence avancées de Llama 4 dans des applications et des pipelines de données existants sans procédures d’intégration complexes. Les nouveaux modèles Llama 4 peuvent être appelés en utilisant une simple fonction COMPLETE dans Cortex AI. 

SELECT SNOWFLAKE.CORTEX.COMPLETE('llama4-maverick',
       [{'role':'user','content':CONCAT('Summarize this customer feedback in bullet points:<feedback>',content,'</feedback>')}]
       ,{'guardrails':true})
FROM my_table;

Accès intégré via l’API REST

Pour permettre à des services ou des applications s’exécutant en dehors de Snowflake de faire des appels d’inférence à faible latence vers Cortex AI, l’interface API REST est la solution idéale. Voici un exemple de ce à quoi cela ressemble :

curl -X POST \
    -H "Authorization: Bearer <jwt>" \
    -H 'Content-Type: application/json' \
    -H 'Accept: application/json, text/event-stream' \
    -d '{
    "model": "llama4-maverick",
    "messages": [
      {
        "role": "user",
        "content": "What is the weather like in San Francisco?"
      }
    ],
    "max_tokens": 4096,
    "top_p": 1,
    "stream": true
    }' \
https://<account_identifier>.snowflakecomputing.com/api/v2/cortex/inference:complete

La voie fiable vers des capacités d’inférence avancées

Snowflake est la seule plateforme data dans le cloud à intégrer nativement des modèles phares d’OpenAI et d’Anthropic, entre autres. En intégrant Llama 4 dans Snowflake Cortex AI, nous fournissons à nos clients un accès à des modèles d’IA de pointe afin qu’ils puissent créer des applications et des agents de données intelligents, le tout dans l’environnement de sécurité, de gouvernance et unifié de Snowflake. Cette puissante combinaison permettra aux entreprises d’automatiser les tâches répétitives, d’obtenir des informations plus approfondies à partir de leurs données et de fournir plus de valeur à leurs clients.

Suivez nos actualités pour découvrir comment vous pouvez commencer à créer la prochaine génération d’applications d’IA avec Llama 4 sur Snowflake Cortex AI.

En savoir plus

  • Rejoignez-nous au Summit 2025 pour en savoir plus sur nos dernières innovations en matière d’IA.

  • Téléchargez dès maintenant le guide des cas d’usage des données et de l’IA.

  • Pour en savoir plus sur les dernières annonces de Meta, c’est ici.

Partager cet article

Subscribe to our blog newsletter

Get the best, coolest and latest delivered to your inbox each week

Démarrez votre essai gratuitde 30 jours

Essayez Snowflake gratuitement pendant 30 jours et découvrez l’AI Data Cloud qui élimine la complexité, les coûts et les contraintes d’autres solutions.