JAN 16, 2025/Lecture : 5 minProduit et technologie

SwiftKV de Snowflake AI Research réduit les coûts d’inférence des LLM Meta Llama jusqu’à 75 % avec Cortex AI

Digital illustration of connected lines and dots in a column lined with grids

Les grands modèles de langage (LLM) sont au cœur des transformations de l’IA générative et sont le moteur de solutions dans tous les secteurs, de l’assistance client efficace à l’analyse simplifiée des données. Les entreprises ont besoin d’une inférence performante, rentable et à faible latence pour faire évoluer leurs solutions d’IA générative. Cependant, la complexité et les exigences de calcul de l’inférence des LLM représentent un défi. Les coûts d’inférence restent prohibitifs pour de nombreux workloads. C’est là qu’entrent en jeu SwiftKV et Snowflake Cortex AI.

Les optimisations SwiftKV développées et intégrées dans vLLM par l’équipe Snowflake AI Research améliorent considérablement le débit d’inférence des LLM afin de réduire les coûts. Les modèles Llama 3.3 70B et Llama 3.1 405B optimisés par SwiftKV, appelés Snowflake-LLama-3.3-70B et Snowflake-Llama-3.1-405B, sont désormais disponibles pour l’inférence serverless dans Cortex AI avec une réduction des coûts d’inférence allant jusqu’à 75 % par rapport aux modèles Meta Llama de référence dans Cortex AI qui ne sont pas optimisés par SwiftKV. Les clients peuvent y accéder dans Cortex AI via la fonction COMPLETE. Pour continuer à permettre aux entreprises de mettre leurs applications d’IA en production de manière efficace et rentable, nous envisageons d’apporter les mêmes optimisations à d’autres familles de modèles disponibles dans Snowflake Cortex AI.

Présentation de SwiftKV

Examinons comment SwiftKV atteint cette performance. Les cas d'usage d'entreprise impliquent souvent de longues invites d'entrée avec un minimum de sortie (près de 10:1). Cela implique que la majorité des ressources de calcul sont consommées pendant l’entrée (ou la phase de pré-remplissage) de mise en cache clé-valeur (KV). SwiftKV réutilise les états cachés des couches de transformeurs précédentes pour une mise en cache KV pour les couches suivantes. Cela élimine les calculs redondants dans la phase de pré-remplissage, ce qui réduit considérablement les frais de calcul. En conséquence, SwiftKV réduit jusqu’à 50 % le calcul de pré-remplissage tout en maintenant les niveaux de précision exigés des applications d’entreprise. Cette optimisation permet d’améliorer le débit et de fournir une pile d’inférence plus rentable.

SwiftKV obtient des performances de débit supérieures avec une perte de précision minime (voir les tableaux 1 et 2). Pour ce faire, il est possible d’associer le câblage du modèle sans altération des paramètres avec un fine-tuning léger afin de minimiser les risques de perte de connaissances dans le processus. Grâce à l’autodistillation, le modèle recablé réplique le comportement d’origine, atteignant ainsi des performances quasi identiques. La perte de précision est limitée à environ un point dans la moyenne des benchmarks multiples (voir les tableaux 1 et 2). Cette approche chirurgicale de l’optimisation permet aux entreprises de bénéficier de l’efficacité de calcul de SwiftKV sans compromettre la qualité de leurs résultats d’IA générative.

Tableau 1 : Comparaison de la qualité entre la référence Llama 3.3 70B Instruct et la version Snowflake SwiftKV évaluée à l'aide de Simple-Eval.

Tableau 2 : Comparaison de la qualité entre la référence Llama 3.1 405B Instruct et la version Snowflake SwiftKV évaluée à l'aide de Simple-Eval.

Sur la base de notre benchmark, SwiftKV surclasse constamment les implémentations de cache KV standard et les méthodes traditionnelles de compression de cache KV dans les cas d’usage de production réels. Par exemple, dans les environnements de production utilisant des GPU haut de gamme tels que les NVIDIA H100, SwiftKV atteint un débit jusqu’à deux fois supérieur (voir Figure 1) pour les modèles tels que le Llama-3.3-70B. Ces améliorations se traduisent par une réalisation plus rapide des tâches, une latence plus faible pour les applications interactives (voir tableau 3) et des économies substantielles pour les entreprises opérant à grande échelle.

Performances par cas d’usage

Combined input and output throughput of Llama 3.3 70B (left) and Llama 3.1 405B (right) with and without SwiftKV. The x-axis represents input sequence length.

Figure 1 : Débit d’entrée et de sortie combiné de Llama 3.3 70B (gauche) et Llama 3.1 405B (droite) avec et sans SwiftKV. L'axe des abscisses représente la longueur de la séquence d'entrée.

SwiftKV permet d’optimiser les performances sur un large éventail de cas d’usage. Pour les tâches d’inférence à grande échelle, comme le traitement de texte non structuré (par exemple, résumé, traduction ou analyse des opinions), SwiftKV améliore le débit combiné (voir Figure 1), ce qui permet aux entreprises de traiter plus de données en moins de temps. Dans les scénarios sensibles à la latence, tels que les chatbots ou les copilotes d’IA, SwiftKV réduit jusqu’à 50 % le délai de premier token (voir Tableau 4), ce qui se traduit par une expérience utilisateur plus rapide et plus réactive. En outre, SwiftKV s’intègre facilement à vLLM sans changements majeurs pour permettre un large éventail de techniques d’optimisation complémentaires, y compris l’optimisation de l’attention et le décodage spéculatif. Cette intégration fait de SwiftKV une solution polyvalente et pratique pour les workloads d’entreprise.

Tableau 3 : Achèvement plus rapide des tâches avec SwiftKV spécialement pour la génération de contexte long.

Tableau 4 : Délai de premier token jusqu’à deux fois plus court avec SwiftKV.

SwiftKV sur Snowflake Cortex AI

L’introduction de SwiftKV intervient à un moment crucial pour les entreprises qui adoptent les technologies de LLM. Avec la croissance des cas d’usage, les entreprises ont besoin de solutions qui offrent à la fois des gains de performances immédiats et une évolutivité à long terme. En s’attaquant directement aux goulots d’étranglement du calcul de l’inférence, SwiftKV offre une nouvelle voie à suivre, permettant aux entreprises d’exploiter tout le potentiel de leurs déploiements de production de LLM. Nous sommes ravis d’apporter l’innovation SwiftKV sur les modèles Llama avec le lancement de Snowflake-Llama-3.3-70B et Snowflake-Llama-3.1-405B avec une inférence coûtant une fraction du coût (75 % et 68 % de réduction du coût, respectivement). Les modèles Llama dérivés de Snowflake changent la donne pour les entreprises qui doivent surmonter les difficultés de mise à l’échelle de l’innovation dans l’IA générative de manière simple et rentable.

SwiftKV open source

Premiers pas : exécutez votre propre entraînement SwiftKV en suivant ce guide quickstart.

SwiftKV étant entièrement open source, vous pouvez également le déployer vous-même avec des points de contrôle de modèle sur Hugging Face et une inférence optimisée sur vLLM. Vous pouvez en savoir plus en consultant notre article de blog sur la recherche autour de SwiftKV.

Nous créons également des pipelines de distillation des connaissances via ArcticTraining Framework open source afin que vous puissiez créer vos propres modèles SwiftKV pour votre entreprise ou vos besoins académiques. ArcticTraining Framework est une bibliothèque de post-formation efficace pour rationaliser la recherche et le développement. Elle est conçue pour faciliter la recherche et prototyper de nouvelles idées pour le post-entraînement sans se laisser dépasser par des couches d'abstraction complexes ou des généralisations. Elle offre un pipeline de génération de données synthétiques convivial de haute qualité et un framework d’entraînement évolutif et adaptable pour l’innovation algorithmique, ainsi qu’une recette prête à l’emploi pour entraîner vos propres modèles SwiftKV.

Conclusion

Alors que l’innovation dans l’IA générative continue de s’étendre à tous les secteurs et cas d’usage, les optimisations telles que SwiftKV sont essentielles pour apporter l’IA aux utilisateurs finaux de manière rentable et performante. Désormais disponible en open source, SwiftKV rend l’IA générative professionnelle plus rapide et moins coûteuse à exécuter. Pour aller encore plus loin, nous lançons également des modèles Llama optimisés avec SwiftKV dans Snowflake Cortex AI. Avec les modèles Snowflake-Llama-3.3-70B et Snowflake-Llama-3.1-405B, nos clients constatent des coûts d’inférence jusqu’à 75 % inférieurs. Nous les aidons à développer des solutions d’IA générative à la fois rentables et performantes.

Événement virtuel

Snowflake Gen AI Day

Transformez vos données non structurées en information et façonnez l'avenir de l'IA d'entreprise

Inscrivez-vous dès aujourd’hui

Auteurs

SwiftKV de Snowflake AI Research réduit les coûts d’inférence des LLM Meta Llama jusqu’à 75 % avec Cortex AI

Présentation de SwiftKV

Performances par cas d’usage

SwiftKV sur Snowflake Cortex AI

SwiftKV open source

Conclusion

Événement virtuel

Snowflake Gen AI Day

Auteurs

Harshal Pimpalkhute

Samyam Rajbhandari

Yuxiong He

Aurick Qiao

Jeff Rasley

OpenAI GPT-5 annoncé sur Snowflake Cortex AI

Offrir le Postgres le plus adapté aux entreprises, conçu pour l’AI Data Cloud de Snowflake

Snowflake étend ses méthodes MFA prises en charge et les rend disponibles par défaut partout

Subscribe to our blog newsletter
Get the best, coolest and latest delivered to your inbox each week

Where Data Does More

SwiftKV de Snowflake AI Research réduit les coûts d’inférence des LLM Meta Llama jusqu’à 75 % avec Cortex AI

Présentation de SwiftKV

Performances par cas d’usage

SwiftKV sur Snowflake Cortex AI

SwiftKV open source

Conclusion

Événement virtuel

Snowflake Gen AI Day

Auteurs

Harshal Pimpalkhute

Samyam Rajbhandari

Yuxiong He

Aurick Qiao

Jeff Rasley

Contenu connexe

OpenAI GPT-5 annoncé sur Snowflake Cortex AI

Offrir le Postgres le plus adapté aux entreprises, conçu pour l’AI Data Cloud de Snowflake

Snowflake étend ses méthodes MFA prises en charge et les rend disponibles par défaut partout

Subscribe to our blog newsletterGet the best, coolest and latest delivered to your inbox each week

Where Data Does More

Subscribe to our blog newsletter
Get the best, coolest and latest delivered to your inbox each week