Producto y tecnología

SwiftKV de Snowflake AI Research reduce los costes de inferencia de los LLM de Meta Llama hasta un 75 % en Cortex AI

Digital illustration of connected lines and dots in a column lined with grids

Los large language models (LLM) son el núcleo de las transformaciones de la IA generativa, ya que impulsan soluciones en todos los sectores, desde la asistencia al cliente eficiente hasta el análisis de datos simplificado. Las empresas necesitan una inferencia eficaz, rentable y de baja latencia para escalar sus soluciones de inteligencia artificial (IA) generativa. Sin embargo, la complejidad y las exigencias computacionales de la inferencia de LLM presentan un desafío. Los costes de inferencia siguen siendo prohibitivos para muchos workloads. Aquí es donde entran en juego SwiftKV y Snowflake Cortex AI. 

Las optimizaciones de SwiftKV desarrolladas e integradas en vLLM por el equipo de Snowflake AI Research mejoran significativamente el rendimiento de la inferencia de LLM para reducir el coste. Los modelos Llama 3.3 70B y Llama 3.1 405B optimizados para SwiftKV, denominados Snowflake-Llama-3.3-70B y Snowflake-Llama-3.1-405B, ahora están disponibles para la inferencia sin servidor en Cortex AI con una reducción de los costes de hasta el 75 % en comparación con los modelos Meta Llama de referencia en Cortex AI que no están optimizados para SwiftKV. Los clientes pueden acceder a ellos en Cortex AI a través de la función completa. Para seguir permitiendo a las organizaciones llevar sus aplicaciones de IA a producción de forma eficiente y rentable, nos planteamos llevar las mismas optimizaciones a otras familias de modelos disponibles en Snowflake Cortex AI. 

Descripción general de SwiftKV

Vamos a repasar cómo logra SwiftKV este rendimiento. Los casos de uso empresariales suelen implicar instrucciones de entrada largas con una salida mínima (casi 10:1). Esto implica que la mayoría de los recursos de computación se consumen durante la etapa de entrada (o carga previa) de la generación de caché de clave-valor (key-value, KV). SwiftKV reutiliza los estados ocultos de anteriores capas del transformador para generar una caché de KV para las capas posteriores. Esto elimina los cálculos redundantes en la etapa de carga previa, lo que reduce significativamente la sobrecarga computacional. Como resultado, SwiftKV logra una reducción de hasta el 50 % en el cómputo de carga previa, al tiempo que mantiene los niveles de precisión que exigen las aplicaciones empresariales. Esta optimización ayuda a mejorar el rendimiento y ofrece una pila de inferencia más rentable.

SwiftKV logra un mayor rendimiento con una pérdida de precisión mínima (consulta las tablas 1 y 2). Esto se logra combinando la reconfiguración de modelos que preservan los parámetros con un ajuste ligero para minimizar la probabilidad de que se pierda conocimiento en el proceso. Mediante la autodestilación, el modelo reconfigurado replica el comportamiento original, logrando así un rendimiento casi idéntico. La pérdida de precisión se limita a aproximadamente un punto de la media de varios indicadores (consulta las tablas 1 y 2). Este enfoque quirúrgico de optimización garantiza que las empresas puedan beneficiarse de la eficiencia computacional de SwiftKV sin comprometer la calidad de los resultados de la IA generativa.

Table of SwiftKV performance
Tabla 1: Comparación de calidad entre la referencia de Llama 3.3 70B Instruct y la versión de Snowflake SwiftKV evaluada mediante Simple-Eval.
Table of SwiftKV performance
Tabla 2: Comparación de calidad entre la referencia de Llama 3.1 405B Instruct y la versión de Snowflake SwiftKV evaluada mediante Simple-Eval.

Gracias a nuestro análisis comparativo, el rendimiento de SwiftKV siempre supera a las implementaciones estándar de caché KV y a los métodos tradicionales de compresión de caché KV en casos de uso de producción reales. Por ejemplo, en entornos de producción que utilizan GPU de gama alta como NVIDIA H100, SwiftKV logra incluso duplicar su rendimiento (figura 1) para modelos como el Llama-3.3-70B. Estas mejoras se traducen en una finalización más rápida de los trabajos, una menor latencia para las aplicaciones interactivas (consulta la tabla 3) y un ahorro sustancial de costes para las empresas que operan a escala.

Rendimiento por caso de uso

Combined input and output throughput of Llama 3.3 70B (left) and Llama 3.1 405B (right) with and without SwiftKV. The x-axis represents input sequence length.
Figura 1: Rendimiento de entrada y salida combinado de Llama 3.3 70B (izquierda) y Llama 3.1 405B (derecha) con y sin SwiftKV. El eje X representa la longitud de la secuencia de entrada.

SwiftKV permite optimizar el rendimiento en una amplia gama de casos de uso. En el caso de las tareas de inferencia a gran escala, como el procesamiento de textos no estructurados (por ejemplo, análisis de resúmenes, traducciones o sentimientos), SwiftKV mejora el rendimiento combinado (figura 1), lo que permite a las empresas procesar más datos en menos tiempo. En situaciones sensibles a la latencia, como chatbots o asistentes de IA, SwiftKV reduce el tiempo necesario para el primer token hasta en un 50 % (consulta la tabla 4), lo que da lugar a experiencias de usuario más rápidas y que generan respuesta. Además, SwiftKV se integra sin problemas con vLLM sin grandes cambios para permitir una amplia gama de técnicas de optimización complementarias, como la optimización de la atención y la descodificación especulativa. Esta integración hace de SwiftKV una solución versátil y práctica para workloads empresariales.

Swift KV latency table
Tabla 3: Finalización de trabajos más rápida con SwiftKV, especialmente para la generación de contextos extensos.
Swift KV TTFT table
Tabla 4: Hasta la mitad de tiempo para el primer token con SwiftKV.

SwiftKV en Snowflake Cortex AI

SwiftKV se presenta en un momento crítico para las empresas que adoptan las tecnologías de LLM. Debido al crecimiento de los casos de uso, las organizaciones necesitan soluciones que proporcionen mejoras de rendimiento inmediatas y escalabilidad a largo plazo. Al abordar directamente los cuellos de botella computacionales de la inferencia, SwiftKV ofrece un nuevo camino, lo que permite a las empresas aprovechar todo el potencial de sus implementaciones de producción de LLM. Nos complace ofrecer la innovación SwiftKV en los modelos Llama con el lanzamiento de Snowflake-Llama-3.3-70B y Snowflake-Llama-3.1-405B con inferencia a un coste menor (75 % y 68 % menos, respectivamente). Los modelos Llama derivados de Snowflake suponen una revolución para las empresas que abordan los retos de escalar la innovación en IA generativa en sus organizaciones de una forma fácil y rentable.  

Código abierto de SwiftKV

Primeros pasos: Realiza tu propio entrenamiento de SwiftKV siguiendo esta Quickstart.

SwiftKV es totalmente de código abierto, por lo que también puedes implementarlo por tu cuenta con puntos de control del modelo en Hugging Face y una inferencia optimizada en vLLM. Puedes obtener más información en nuestra entrada del blog SwiftKV de Snowflake AI Research.

También estamos creando flujos de destilación de conocimientos a través del marco ArcticTraining Framework de código abierto para que puedas crear tus propios modelos SwiftKV para tus necesidades empresariales o académicas. ArcticTraining Framework es una potente biblioteca de posentrenamiento para optimizar la investigación y el desarrollo. Está diseñada para facilitar la investigación y crear prototipos de nuevas ideas para el entrenamiento posterior sin verse abrumada por las complejas capas de abstracción o las generalizaciones. Ofrece un flujo de generación de datos sintéticos de alta calidad y fácil de usar, un marco de entrenamiento escalable y adaptable para la innovación algorítmica y una receta lista para entrenar tus propios modelos SwiftKV. 

Conclusión

Dado que la innovación en IA generativa sigue ampliándose en todos los sectores y casos de uso, optimizaciones como SwiftKV son fundamentales para llevar la IA a los usuarios finales de una manera rentable y eficaz. Ahora disponible como código abierto, SwiftKV hace que la IA generativa empresarial sea más rápida y barata de ejecutar. Además, lanzamos modelos Llama optimizados con SwiftKV en Snowflake Cortex AI. Con los modelos Snowflake-Llama-3.3-70B y Snowflake-Llama-3.1-405B, los clientes observan unos costes de inferencia hasta un 75 % menores. Les estamos ayudando a crear soluciones de IA generativa rentables y de alto rendimiento.

Virtual Event

Snowflake Gen AI Day

Turn unstructured data into insights and shape the future of enterprise AI

Subscribe to our blog newsletter

Get the best, coolest and latest delivered to your inbox each week

Comienza tu pruebagratuita de 30 días

Prueba Snowflake gratis durante 30 días y experimenta el AI Data Cloud, que acaba con la complejidad, el coste y las restricciones de otras soluciones.