KI und ML

Metas Llama 4 Large Language Models jetzt verfügbar auf Snowflake Cortex AI

Wir bei Snowflake legen großen Wert darauf, unseren Kunden branchenführende LLMs bereitzustellen. Wir freuen uns, die neuesten Llama 4-Modelle von Meta für Snowflake Cortex AI verfügbar zu machen! 

Llama-4-Modelle liefern leistungsstarke Inferenzen, damit Kunden GenAI-Anwendungen auf Unternehmensniveau entwickeln und personalisierte Erfahrungen bereitstellen können. Die Modelle Llama 4 Maverick und Llama 4 Scout können innerhalb des sicheren Snowflake-Umfelds auf Cortex AI abgerufen werden. Laut Meta ist Llama 4 Scout das beste multimodale Modell der Welt in seiner Klasse und unterstützt ein branchenführendes Kontextfenster von bis zu 10 Mio. Token. Laut Meta werden diese Modelle mit großen Mengen unbeschrifteter Text-, Bild- und Videodaten trainiert, um eine umfassende Benutzererfahrung zu bieten. Diese Modelle wurden für native Multimodalität entwickelt und beinhalten Early Fusion, um Text- und Vision-Token nahtlos in ein einheitliches Modell-Backbone zu integrieren. Dieses Design erfüllt eine Reihe von Anwendungsfällen und Entwickleranforderungen. So können Entwickler:innen KI-Anwendungen auf Unternehmensniveau entwickeln. 

Schnellere und hochwertige Inferenz mit einer Mixture-of-Experts-Architektur (MoE)

Llama 4 sind die ersten Modelle von Meta, die eine MoE-Architektur verwenden – ein einziges Token aktiviert nur einen Bruchteil der Gesamtparameter. Dadurch sind MoE-Architekturen recheneffizienter sowohl für Modelltraining als auch Inferenz und liefern im Vergleich zu anderen Architekturen eine höhere Qualität der Inferenz. Innerhalb von Snowflake können Llama 4 Maverick und Llama 4 Scout mit GenAI-Anwendungen integriert werden.

  • Llama 4 Maverick bietet branchenführende Performance im Bild- und Textverständnis mit Unterstützung für 12 Sprachen, um Sprachbarrieren zu überbrücken. Als allgemeines LLM enthält Llama 4 Maverick 17 Milliarden aktive Parameter (400 Milliarden Gesamtparameter), was im Vergleich zu Llama 3.3 70B eine hohe Inferenzqualität bietet. Das Modell eignet sich hervorragend für präzises Bildverständnis und kreatives Schreiben. Es bietet modernste Intelligenz mit hoher Geschwindigkeit, optimiert für beste Antwortqualität im Ton und Ablehnungen.

  • Llama 4 Scout ist ein kleineres Allzweckmodell mit 17 Milliarden aktiven Parametern (109 Milliarden Gesamtparameter) und unterstützt eine branchenführende Kontextfenstergröße von 10 Millionen Token. Das eröffnet zahlreiche Möglichkeiten, darunter Zusammenfassungen aus mehreren Dokumenten, das Analysieren umfangreicher Benutzeraktivitäten für personalisierte Aufgaben und das Nachdenken über riesige Codebasen. 

Snowflakes Engagement für Open Source

Die Open-Source-Llama-Modelle von Meta ermöglichen es Unternehmen, einzigartige KI-Erfahrungen zu schaffen. Bei Snowflake nutzen wir diese Modelle innerhalb von Cortex AI, um maßgeschneiderte Lösungen zu entwickeln, die den dynamischen Geschäftsanforderungen entsprechen. Kunden können Llama-Modelle nutzen, um KI-Agenten zu unterstützen, die komplexe Aufgaben erledigen und sich mit Tools wie Cortex Analyst und Cortex Search integrieren lassen – und so den vollen Wert ihrer Daten auf einer einzigen Plattform erschließen.

„Als weltweit größte Reiseberatungsplattform hilft TripAdvisor monatlich über 450 Millionen Reisenden, das Beste aus ihrer Reise zu machen. Durch die Nutzung der Llama-Modelle in Snowflake konnten wir diesen Reisenden hochrelevante, personalisierte Empfehlungen für ihre Reisen geben und gleichzeitig die Interaktion und den Umsatz unseres Unternehmens steigern. Unser Team freut sich darauf, Llama 4-Modelle in Cortex AI einzusetzen und damit die Grenzen dessen zu erweitern, was wir bei der Reisepersonalisierung und dem Nutzererlebnis erreichen können.“

— Rahul Todkar
Head of Data and AI, TripAdvisor.

Unser KI-Forschungsteam hat aktiv modernste Technologien entwickelt, die auf diesen Llama-Modellen basieren. Arctic Ulysses ist beispielsweise eine neue Technologie, die für Inferenzen mit niedriger Latenz und hohem Durchsatz optimiert wurde und sich für lange Sequenzaufgaben eignet. Darüber hinaus erzielt SwiftKV, eine weitere kürzlich eingeführte Innovation, die auf den Llama-Modellen von Meta basiert und in Snowflake-Llama-3.3-70B und Snowflake-Llama-3.1-405B verfügbar ist, auf Cortex AI eine Reduzierung der Inferenzkosten von Llama-LLMs um bis zu 75 % im Vergleich zu den grundlegenden Meta-Llama-Modellen in Cortex AI, die nicht für SwiftKV optimiert sind. Das führt direkt zu spürbaren Kosteneinsparungen und gesteigerter Performance für unsere Kunden und ermöglicht die skalierbare Implementierung von GenAI-Initiativen. Durch die Optimierung der Prefill-Phase der Inferenz gewährleistet SwiftKV die effiziente Verarbeitung langwieriger Eingabeaufforderungen – eine wichtige Anforderung für viele Unternehmensanwendungen.

Integrierter Zugriff über SQL und Python

Die Llama 4-Serie ist jetzt in Preview auf Cortex AI verfügbar und bietet einfachen Zugriff über etablierte SQL-Funktionen und standardmäßige REST API-Endpunkte. Kunden können die erweiterten Inferenzfunktionen von Llama 4 ohne komplexe Integrationsverfahren in bestehende Anwendungen und Daten-Pipelines nutzen. Die neuen Llama 4-Modelle können über eine einfache COMPLETE-Funktion in Cortex AI aufgerufen werden. 

SELECT SNOWFLAKE.CORTEX.COMPLETE('llama4-maverick',
       [{'role':'user','content':CONCAT('Summarize this customer feedback in bullet points:<feedback>',content,'</feedback>')}]
       ,{'guardrails':true})
FROM my_table;

Integrierter Zugriff über REST API

Damit Dienste oder Anwendungen, die außerhalb von Snowflake ausgeführt werden, Inferenzen mit niedriger Latenz an Cortex AI durchführen können, ist die REST API-Schnittstelle die ideale Lösung. Hier ein Beispiel dafür, wie das aussieht:

curl -X POST \
    -H "Authorization: Bearer <jwt>" \
    -H 'Content-Type: application/json' \
    -H 'Accept: application/json, text/event-stream' \
    -d '{
    "model": "llama4-maverick",
    "messages": [
      {
        "role": "user",
        "content": "What is the weather like in San Francisco?"
      }
    ],
    "max_tokens": 4096,
    "top_p": 1,
    "stream": true
    }' \
https://<account_identifier>.snowflakecomputing.com/api/v2/cortex/inference:complete

Der bewährte Weg zu erweiterten Inferenzfunktionen

Snowflake ist die einzige Cloud-Datenplattform mit nativer Integration zu führenden Modellen sowohl von OpenAI als auch von Anthropic und anderen. Durch die Integration von Llama 4 in Snowflake Cortex AI bieten wir unseren Kunden Zugang zu hochmodernen KI-Modellen, damit sie intelligente Anwendungen und Datenagenten entwickeln können – und das alles innerhalb der sicheren, kontrollierten und einheitlichen Umgebung von Snowflake. Dank dieser leistungsstarken Kombination können Unternehmen Routineaufgaben automatisieren, tiefere Einblicke aus ihren Daten gewinnen und ihren Kunden mehr Wert liefern.

Erfahren Sie, wie Sie mit Llama 4 auf Snowflake Cortex AI die nächste Generation von KI-Anwendungen entwickeln können.

Mehr erfahren

  • Seien Sie beim Summit 2025 dabei, um mehr über unsere neuesten KI-Innovationen zu erfahren.

  • Holen Sie sich einen Leitfaden für branchenführende KI- und Datenanwendungsfälle – jetzt herunterladen.

  • Hier erfahren Sie mehr über die neuesten Ankündigungen von Meta.

Beitrag teilen

Subscribe to our blog newsletter

Get the best, coolest and latest delivered to your inbox each week

Starten Sie Ihre 30-tägigekostenlose Testversion

Testen Sie Snowflake 30 Tage kostenlos und erleben Sie die AI Data Cloud – ohne die Komplexität, Kosten und Beschränkungen anderer Lösungen.