I large language model Llama 4 di Meta sono ora disponibili su Snowflake Cortex AI

Snowflake si impegna a fornire ai suoi clienti LLM leader del settore. Siamo lieti di portare gli ultimi modelli Llama 4 di Meta su Snowflake Cortex AI!
I modelli Llama 4 offrono inferenza performante consentendo ai clienti di creare applicazioni di AI generativa di livello enterprise e fornire esperienze personalizzate. I modelli Llama 4 Maverick e Llama 4 Scout sono accessibili all’interno del perimetro sicuro Snowflake con Cortex AI. Secondo Meta, Llama 4 Scout è il miglior modello multimodale al mondo della sua categoria e supporta una finestra di contesto leader del settore con fino a 10 milioni di token. Secondo Meta, questi modelli sono addestrati con grandi quantità di dati di testo, immagini e video non etichettati per offrire ricche esperienze all’utente finale. Questi modelli sono progettati per la multimodalità nativa, incorporando la fusione iniziale per integrare in modo trasparente testo e vision token in un backbone di modello unificato. Questo design si adatta a una gamma di casi d’uso e alle esigenze degli sviluppatori. In questo modo gli sviluppatori possono creare applicazioni AI di livello enterprise.
Inferenza più veloce e di alta qualità con un’architettura Mixture of Experts (MoE)
Llama 4 sono i primi modelli Meta a utilizzare un’architettura MoE: un singolo token attiva solo una frazione dei parametri totali. Di conseguenza, le architetture MoE sono più efficienti sia per l’addestramento dei modelli che per l’inferenza e forniscono un’inferenza di qualità superiore rispetto ad altre architetture. All’interno di Snowflake, Llama 4 Maverick e Llama 4 Scout possono essere integrati con le applicazioni Gen AI.
Llama 4 Maverick offre prestazioni leader di settore nella comprensione di immagini e testi con il supporto per 12 lingue per superare le barriere linguistiche. Essendo un LLM generico, Llama 4 Maverick contiene 17 miliardi di parametri attivi (400 miliardi di parametri totali), offrendo un’inferenza di alta qualità rispetto a Llama 3.3 70B. Il modello è adatto per una comprensione precisa delle immagini e una scrittura creativa. Fornisce velocemente intelligence all’avanguardia, ottimizzata per la migliore qualità di risposta per quanto riguarda il tono e i rifiuti.
Llama 4 Scout è un modello generico più piccolo con 17 miliardi di parametri attivi (109 miliardi di parametri totali) e supporta una finestra contestuale leader del settore con 10 milioni di token. Questo apre le porte a un mondo di possibilità, tra cui la sintesi di più documenti, l’analisi di notevole attività degli utenti per task personalizzati e il ragionamento su enormi basi di codice.
L’impegno di Snowflake nell’open source
I modelli open source Llama di Meta hanno consentito alle aziende di creare esperienze AI uniche. Snowflake utilizza questi modelli all’interno di Cortex AI per creare soluzioni su misura che soddisfano esigenze aziendali in evoluzione. I clienti possono utilizzare i modelli Llama per alimentare gli agenti AI che gestiscono attività complesse e integrarsi con strumenti come Cortex Analyst e Cortex Search, sbloccando l’intero valore dei loro dati su un’unica piattaforma.
"TripAdvisor, la più grande piattaforma di consigli di viaggio al mondo, aiuta oltre 450 milioni di viaggiatori a sfruttare al meglio i loro viaggi ogni mese. Grazie ai modelli Llama in Snowflake, siamo stati in grado di fornire a questi viaggiatori consigli altamente pertinenti e personalizzati per i loro viaggi, aumentando al contempo il coinvolgimento e i ricavi per la nostra attività. Il nostro team è entusiasta di iniziare a utilizzare i modelli Llama 4 in Cortex AI per spingere i confini di ciò che possiamo ottenere nella personalizzazione dei viaggi e nell'esperienza utente, per offrire un'esperienza di viaggio e un'esperienza utente ancora più personalizzate."
— Rahul Todkar
Il nostro team di ricerca sull’AI sta sviluppando attivamente tecnologie all’avanguardia in aggiunta a questi modelli Llama. Ad esempio, Arctic Ulysses è una nuova tecnologia che abbiamo sviluppato e che è ottimizzata per l’inferenza a bassa latenza e ad alto throughput, ed è utile per attività a lunga sequenza. Inoltre, SwiftKV, un’altra recente innovazione basata sui modelli Llama di Meta e disponibile in Snowflake-Llama-3.3-70B e Snowflake-Llama-3.1-405B, ottiene una riduzione dei costi di inferenza dei LLM Llama fino al 75% su Cortex AI rispetto ai modelli Meta Llama di base in Cortex AI che non sono ottimizzati per SwiftKV. Questo si traduce direttamente in un tangibile risparmio sui costi e in un miglioramento delle prestazioni per i nostri clienti, favorendo la distribuzione scalabile di iniziative di AI generativa. Ottimizzando la fase di precompilazione dell’inferenza, SwiftKV garantisce l’elaborazione efficiente di lunghi prompt di input, un requisito cruciale per molte applicazioni aziendali.
Accesso integrato tramite SQL e Python
La serie Llama 4 ora disponibile in preview su Cortex AI offre un facile accesso tramite funzioni SQL consolidate ed endpoint API REST standard. I clienti possono utilizzare le funzionalità di inferenza avanzate di Llama 4 nelle applicazioni e pipeline di dati esistenti senza complesse procedure di integrazione. I nuovi modelli Llama 4 possono essere richiamati utilizzando una semplice funzione COMPLETE all’interno di Cortex AI.
SELECT SNOWFLAKE.CORTEX.COMPLETE('llama4-maverick',
[{'role':'user','content':CONCAT('Summarize this customer feedback in bullet points:<feedback>',content,'</feedback>')}]
,{'guardrails':true})
FROM my_table;
Accesso integrato tramite API REST
Per consentire ai servizi o alle applicazioni eseguiti all’esterno di Snowflake di effettuare chiamate di inferenza a bassa latenza verso Cortex AI, l’interfaccia API REST è la scelta giusta. Ecco un esempio di come funziona:
curl -X POST \
-H "Authorization: Bearer <jwt>" \
-H 'Content-Type: application/json' \
-H 'Accept: application/json, text/event-stream' \
-d '{
"model": "llama4-maverick",
"messages": [
{
"role": "user",
"content": "What is the weather like in San Francisco?"
}
],
"max_tokens": 4096,
"top_p": 1,
"stream": true
}' \
https://<account_identifier>.snowflakecomputing.com/api/v2/cortex/inference:complete
Il percorso affidabile verso funzionalità di inferenza avanzate
Snowflake è l’unica cloud data platform con integrazione nativa per i modelli premier di OpenAI, Anthropic e altri. Grazie all’integrazione di Llama 4 in Snowflake Cortex AI, offriamo ai nostri clienti l’accesso a modelli AI all’avanguardia per creare applicazioni e data agent intelligenti, il tutto all’interno dell’ambiente Snowflake sicuro, governato e unificato. Questa potente combinazione consentirà alle aziende di automatizzare attività ripetitive, ottenere insight più approfonditi dai loro dati e fornire più valore ai clienti.
Continua a leggere per ulteriori aggiornamenti su come iniziare a creare applicazioni AI di nuova generazione con Llama 4 su Snowflake Cortex AI.
Scopri di più
Partecipa al Summit 2025 per scoprire di più sulle ultime innovazioni dell’AI.
Scarica la guida ai casi d’uso di AI e dati di leader del settore.
Leggi qui le ultime notizie su Meta.