Produto e tecnologia

SwiftKV da Snowflake AI Research reduz custos de inferência dos LLMs Meta Llama em até 75% no Cortex AI

Digital illustration of connected lines and dots in a column lined with grids

Os grandes modelos de linguagem (large language models, LLMs) estão no centro das transformações de IA generativa, promovendo soluções em todos os setores, desde o suporte eficiente ao cliente até a análise de dados simplificada. As empresas precisam de inferência de latência baixa, econômica e de bom desempenho para dimensionar suas soluções de IA generativa. No entanto, a complexidade e as exigências computacionais da inferência de LLM representam um desafio. Os custos de inferência continuam proibitivos para muitas cargas de trabalho. É aqui que entram em cena o SwiftKV e o Snowflake Cortex AI. 

As otimizações do SwiftKV desenvolvidas e integradas ao vLLM pela equipe da Snowflake AI Research melhoram de modo significativo o rendimento da inferência do LLM, reduzindo os custos. Os modelos Llama 3.3 70B e Llama 3.1 405B otimizados para SwiftKV, chamados Snowflake-LLama-3.3-70B e Snowflake-Llama-3.1-405B, agora estão disponíveis para inferência sem servidor no Cortex AI com uma redução de custo de inferência de até 75% em comparação aos principais modelos Meta Llama no Cortex AI que não são otimizados para SwiftKV. Os clientes podem acessar essas versões no Cortex AI por meio da função COMPLETE. Para continuar permitindo que as organizações coloquem seus apps de IA em produção de forma eficiente e econômica, estamos pensando em trazer as mesmas otimizações para outras famílias de modelos disponíveis no Snowflake Cortex AI. 

Visão geral do SwiftKV

Vamos conversar sobre como o SwiftKV consegue esse desempenho. Os casos de uso corporativos muitas vezes envolvem longas solicitações de entrada com saída mínima (quase 10:1). Isso significa que a maior parte dos recursos de processamento é consumida durante a entrada (ou carga prévia) da geração de cache de valor-chave (key-value, kV). O SwiftKV reutiliza os estados ocultos das camadas anteriores do transformador para gerar um cache de KV para as camadas posteriores. Isso elimina os cálculos redundantes na fase de carga prévia, reduzindo significativamente a sobrecarga de processamento. Como resultado, o SwiftKV reduz até 50% no processamento de carga prévia e mantém os níveis de precisão exigidos pelas aplicações empresariais. Essa otimização ajuda a melhorar o rendimento e oferece um stack de inferência mais econômico.

O SwiftKV obtém um desempenho de transferência maior com mínima perda de precisão (ver tabelas 1 e 2). Isso é feito combinando a redistribuição do modelo de preservação de parâmetros com o ajuste fino para minimizar a probabilidade de perda de conhecimento no processo. Usando a autodestilação, o modelo redirecionado replica o comportamento original, obtendo um desempenho quase idêntico. A perda de precisão é limitada a cerca de um ponto na média de vários benchmarks (ver tabelas 1 e 2). Esse enfoque cirúrgico de otimização garante que as empresas possam se beneficiar das eficiências computacionais do SwiftKV sem comprometer a qualidade dos resultados de IA generativa.

Table of SwiftKV performance
Tabela 1. Comparação de qualidade entre o padrão de referência do Llama 3.3 70B Instruct e a versão do Snowflake SwiftKV avaliada com o Simple-Eval.
Table of SwiftKV performance
Tabela 2. Comparação de qualidade entre o padrão de referência do Llama 3.1 405B Instruct e a versão do Snowflake SwiftKV avaliada com o Simple-Eval.

Com base em nosso benchmarking, o SwiftKV supera consistentemente as implementações padrão de KV cache e os métodos tradicionais de compactação de KV cache nos casos de uso reais de produção. Por exemplo, em ambientes de produção que utilizam GPUs de alta tecnologia como a NVIDIA H100s, a solução SwiftKV tem uma taxa de transferência até duas vezes maior (ver figura 1) para modelos como o Llama-3.3-70B. Essas melhorias resultam na conclusão mais rápida do trabalho, menor latência para aplicações interativas (ver tabela 3) e redução substancial dos custos para empresas que operam em escala.

Desempenho por caso de uso

Combined input and output throughput of Llama 3.3 70B (left) and Llama 3.1 405B (right) with and without SwiftKV. The x-axis represents input sequence length.
Figura 1. Transmissão de entrada e saída combinada do Llama 3.3 70B (esquerda) e do Llama 3.1 405B (direita) com e sem o SwiftKV. O eixo x representa o tamanho da sequência de entrada.

O SwiftKV possibilita otimizações de desempenho em diversos casos de uso. Para tarefas de inferência em grande escala, como processamento de texto não estruturado (por exemplo, resumo, tradução ou análise de sentimento), o SwiftKV melhora o rendimento combinado (ver figura 1), permitindo que as empresas processem mais dados em menos tempo. Em cenários relacionados à latência, como chatbots ou copilotos de IA, o SwiftKV reduz até 50% o tempo até o primeiro token (ver tabela 4), gerando experiências de usuário mais rápidas e responsivas. Além disso, o SwiftKV integra-se perfeitamente ao vLLM sem mudanças significativas, permitindo uma ampla gama de técnicas de otimização complementares, incluindo otimização de atenção e decodificação especulativa. Com essa integração, o SwiftKV é uma solução prática e versátil para cargas de trabalho corporativas.

Swift KV latency table
Tabela 3. Conclusão mais rápida de tarefas com o SwiftKV especificamente para geração de contexto longo.
Swift KV TTFT table
Tabela 4. Até duas vezes menos tempo para primeiro token com o SwiftKV.

SwiftKV no Snowflake Cortex AI

O lançamento do SwiftKV ocorre em um momento crítico para as empresas que adotam tecnologias de LLM. Com o crescimento dos casos de uso, as organizações precisam de soluções que ofereçam ganhos de desempenho imediatos e escalabilidade de longo prazo. Ao lidar diretamente com os gargalos computacionais da inferência, o SwiftKV oferece um novo caminho, permitindo que as empresas aproveitem todo o potencial de suas implementações de produção de LLM. Temos o prazer de oferecer a inovação do SwiftKV aos modelos Llama com o lançamento do Snowflake-Llama-3.3-70B e do Snowflake-Llama-3.1-405B com inferência a uma fração do custo (custo inferior de 75% e 68% respectivamente). Os modelos Llama derivados do Snowflake são revolucionários para as empresas que enfrentam os desafios de ampliar a inovação da IA generativa em suas organizações de maneira fácil e econômica.  

SwiftKV de código aberto

Por onde começar: faça um treinamento de SwiftKV seguindo esse quickstart.

Como o SwiftKV é inteiramente de código aberto, você também pode implementá-lo usando os pontos de verificação do modelo no Hugging Face e inferência otimizada no vLLM. Saiba mais em nosso post no blog de pesquisa da SwiftKV.

Também estamos criando pipelines de destilação de conhecimento por meio do ArcticTraining Framework de código aberto para que você possa criar seus próprios modelos SwiftKV para suas necessidades corporativas ou acadêmicas. O ArcticTraining Framework é uma avançada biblioteca pós-treinamento para simplificar a pesquisa e o desenvolvimento. Ele foi projetado para facilitar a pesquisa e criar protótipos de novas ideias para pós-treinamento, sem ser sobrecarregado por camadas de abstração ou generalizações complexas. Ele oferece um pipeline de geração de dados sintéticos de alta qualidade e fácil de usar, além de uma estrutura de treinamento dimensionável e adaptável para inovação de algoritmos, bem como um passo a passo pronto de treinamento de seus próprios modelos SwiftKV. 

Conclusão

À medida que a inovação da IA generativa continua a expandir em setores e casos de uso, otimizações como o SwiftKV são fundamentais para levar a IA até os usuários finais de forma econômica e com bom desempenho. Agora disponível como código aberto, o SwiftKV torna a IA generativa de nível empresarial mais rápida e menos cara de executar. Além disso, também estamos lançando modelos Llama otimizados com o SwiftKV no Snowflake Cortex AI. Com os modelos Snowflake-Llama-3.3-70B e Snowflake-Llama-3.1-405B, os clientes notam uma redução de até 75% nos custos de inferência. Estamos ajudando os clientes a criar soluções de IA generativa que sejam econômicas e de alto desempenho.

Virtual Event

Snowflake Gen AI Day

Turn unstructured data into insights and shape the future of enterprise AI

Subscribe to our blog newsletter

Get the best, coolest and latest delivered to your inbox each week

Onde os dados fazem mais

  • Avaliação gratuita de 30 dias
  • Sem precisar de cartão de crédito
  • Cancele a qualquer hora