Mehr Vertrauen in Enterprise-KI durch KI-Beobachtbarkeit und Evaluierungen in Snowflake Cortex AI

Die breite Integration von Large Language Models (LLMs) und generativer KI in geschäftskritische Geschäftsprozesse hat dazu geführt, dass ein Bedarf an robuster KI-Beobachtbarkeit besteht, um die inhärente „Blackbox“ und den nichtdeterministischen Charakter dieser Systeme und Applikationen anzugehen.
Die wahre Chance für die Teams, die Plattformen wie Snowflake Cortex AI nutzen, besteht darin, Prototypen generativer KI in zuverlässige, effiziente und vertrauenswürdige produktionsreife Anwendungen zu verwandeln.
Der Prozess der Auswahl des richtigen LLM und der Optimierung von Prompts erfordert:
Ständige Experimente und Evaluierungen für präzisere Antworten
Systematische Tests zur Erkennung und Behebung einer Vielzahl von Fehlermodi
Gleichzeitige Überwachung und Optimierung für wichtige betriebliche Kennzahlen wie Antwortlatenz und Tokennutzung.
Ohne eine integrierte Lösung zur kontinuierlichen Evaluierung, Fehlerbehebung und Nachverfolgung dieser Faktoren direkt in ihrer KI-Datenumgebung können Unternehmen keine effektiven und effizienten GenAI-Lösungen bereitstellen.
Was ist KI-Beobachtbarkeit?
KI-Beobachtbarkeit ermöglicht es Entwickler:innen, die internen Zustände, Inputs und Outputs von GenAI-Anwendungen zu überwachen, zu analysieren und zu visualisieren. Das steigert die Genauigkeit, das Vertrauen, die Effizienz und die Einhaltung gesetzlicher Vorschriften in realen Umgebungen. KI-Beobachtbarkeit erstreckt sich auf alle Phasen der Anwendungsentwicklung, einschließlich Entwicklung, Test und Produktion, und ist auf drei Schlüsselpfeilern verankert:
Nachverfolgung: Während Entwickler:innen ihre Anwendungen erstellen und anpassen, können sie mithilfe von Tracing die Inputs, Outputs und Zwischenzustände der Anwendung visualisieren. So erhalten Sie detaillierte Informationen zu jeder Komponente innerhalb der Applikation, um das Debugging und die Erklärbarkeit des Anwendungsverhaltens zu verbessern.
Evaluierungen: Nachdem die ursprüngliche Version der Anwendung bereit ist, führen Entwickler systematische Evaluierungen durch, um die Performance ihrer Anwendung zu bewerten und so die Antwortgenauigkeit proaktiv zu verbessern. So können sie verschiedene Modelle und Prompts testen und vergleichen und die Konfiguration für Produktbereitstellungen abschließen.
Überwachung: Sobald die Applikation in der Produktion bereitgestellt wird, müssen Entwickler:innen die Performance ihrer Applikation ständig überwachen, um die Betriebssicherheit zu gewährleisten und Performance-Drift zu vermeiden. Kontinuierliche Überwachung ermöglicht es ihnen auch, die Applikation zu optimieren, indem sie Ausfallstellen beseitigen und der Datendrift entgegenwirken.
KI-Beobachtbarkeit in Snowflake Cortex
Snowflake unterstützt umfassende Funktionen zur KI-Beobachtbarkeit, mit denen Entwickler:innen ihre GenAI-Apps effektiv evaluieren und überwachen können. KI-Beobachtbarkeit kann in maßgeschneiderten GenAI-Apps sowie in Snowflakes nativen GenAI-Diensten ermöglicht werden.

KI-Beobachtbarkeit in GenAI-Apps
KI-Beobachtbarkeit für benutzerdefinierte GenAI-Apps ist jetzt allgemein verfügbar und bietet KI-Engineers und Entwickler:innen die Möglichkeit, ihre GenAI-Anwendungen mühelos zu evaluieren und nachzuverfolgen. Mithilfe von KI-Beobachtbarkeit können Nutzende die Performance ihrer KI-Anwendungen messen, indem sie systematische Evaluierungen durchführen und Anwendungskonfigurationen iterieren, um die Performance zu steigern. Zudem ermöglicht die Funktion die Protokollierung von Anwendungs-Traces, was das Debugging vereinfacht. Diese Funktion erhöht das Vertrauen und die Transparenz von GenAI-Anwendungen und -Agenten und ermöglicht umfassende Benchmarks und Performancemessungen vor der Anwendungsbereitstellung.
End-to-End-Evaluierung: KI-Beobachtbarkeit kann die Performance von Agenten und Apps mithilfe von Techniken wie LLM-as-a-Judge evaluieren. Sie kann Metriken wie Relevanz, Fundiertheit und Schädlichkeit melden, sodass Kunden den Agenten schnell iterieren und optimieren können, um die Performance zu verbessern.
Vergleich: Benutzer:innen können parallele Evaluierungsläufe vergleichen und die Qualität und Genauigkeit der Antworten in verschiedenen LLM-Konfigurationen bewerten, um die beste Konfiguration für die Produktionsbereitstellung zu ermitteln.
Umfassendes Tracing: Kunden können die Protokollierung für jeden Schritt der Agentenausführung über Eingabeaufforderungen, die Toolnutzung und die Generierung der finalen Antwort aktivieren mithifle von OpenTelemetry-Traces. Dies ermöglicht einfaches Debugging und Optimierung für Genauigkeit, Latenz und Kosten.
Beobachtbarkeit von KI über Cortex AI Services hinweg

Snowflake Intelligence und Cortex Agents
Snowflake Intelligence stellt KI-generierte Einblicke in natürlicher Sprache bereit, denen Nutzende vertrauen können, indem es überprüfbare Erklärbarkeit und Transparenz bietet. Diese neue Agentenerfahrung, die über ein dediziertes Portal zugänglich ist, ermöglicht es allen Benutzer:innen, auf sichere Weise mit ihren Daten zu sprechen, aussagekräftige Erkenntnisse aus ihren vertrauenswürdigen Unternehmensdaten zu gewinnen und über eine einheitliche, intuitive Oberfläche Maßnahmen einzuleiten.
Mit nativer Beobachtbarkeit können Snowflake Intelligence-Anwender:innen ganz einfach das „Warum“ hinter jeder vom Agenten generierten Antwort erkennen, verfolgen, ob die Daten aus verifizierten Quellen oder kuratierten Abfragen stammen, und die Datenherkunft nachverfolgen. Datenadministrator:innen erhalten einen Überblick über die gestellten Fragen und die Relevanzwerte der Antworten. Das ermöglicht kontinuierliche Verbesserungen und Fine-Tuning mit zentraler Kontrolle.
Darüber hinaus erhalten Engineers für die Agents, die mit Cortex Agents entwickelt wurden, bald die Möglichkeit, ihre Agents mühelos zu evaluieren, nachzuverfolgen und zu überwachen – mit nativen Funktionen zur Beobachtbarkeit.
Mit der Agenten-Beobachtbarkeit können Entwickler:innen Agenteninteraktionen in Echtzeit nachverfolgen und erhalten so einen besseren Überblick über die Schritte zur Agentenplanung, Toolauswahl, Ausführung und Antwortgenerierung. Entwickler:innen können jede Interaktion mit dem Agenten protokollieren und überwachen, um die Performance des Agenten systematisch zu debuggen, zu verbessern und zu iterieren.
Diese native Beobachtbarkeit beschleunigt den Entwicklungszyklus und verbessert die Vertrauenswürdigkeit und Transparenz von GenAI-Anwendungen und -Agenten vor der Bereitstellung.
Cortex Search
Bei KI-Agenten oder -Applikationen, die Retrieval-Augmented Generation (RAG) durchführen, hängt die Qualität der Endergebnisse grundlegend von der Genauigkeit des Erstabrufs ab.
Um die Abrufqualität zu messen und kontinuierlich zu verbessern, bietet Cortex Search nun eine native Suite von Evaluierungs- und Anpassungstools an. Jetzt haben Benutzer:innen Zugriff auf eine dedizierte Evaluation UI für Cortex Search, mit der sie:
hochwertige Evaluierungssets erstellen
Experimente durchführen
Suchparameter zur Optimierung der Performance für ihren spezifischen Geschäftsanwendungsfall automatisch anpassen
Diese Benutzeroberfläche nutzt LLMs, um den Suchevaluierungsprozess zu beschleunigen, unter anderem für die Abfragegenerierung und die Beurteilung der Relevanz.
Mit der Evaluation UI können Anwender:innen schnell Experimente durchführen und vergleichen, um die Abfragequalität mit menschen- und LLM-gekennzeichneten Datasets zu messen. So wird sichergestellt, dass die Such- und Chat-Apps nachgelagerter Anwender:innen den relevantesten Kontext für ihre Abfragen erhalten.
Cortex Analyst
Cortex Analyst übersetzt Prompts in natürlicher Sprache in präzise SQL-Abfragen, sodass Anwender:innen wichtige Einblicke aus komplexen Datasets gewinnen können.
Um kontinuierliche Verbesserungen und Genauigkeit zu gewährleisten, haben Administrator:innen und Engineers Zugriff auf historische Protokolle aller früheren Interaktionen. Durch die Analyse dieser Protokolle können Engineers fundierte Anpassungen am zugrundeliegenden semantischen Modell vornehmen und so die Fähigkeit verbessern, hochpräzise Antworten zu generieren.
Zur quantitativen Messung der Performance hat Cortex Analyst ein Open-Source-Streamlit-Tool entwickelt, basierend auf einem LLM-as-a-Judge. Hierbei werden die Antworten des Modells mit einem goldenen Satz idealer Anfrage-Antwort-Paare verglichen, der einen aggregierten Prozentsatz der Korrektheit berechnet und einen Maßstab für die Genauigkeit des Modells bietet.
Document AI
Beobachtbarkeit in Document AI wird durch Attention Spans für Erklärbarkeit und Confidence Scores für Zuverlässigkeit erreicht.
Attention Spans bieten eine direkte Methode zur Validierung der aus Dokumenten extrahierten Ausgaben. Diese Funktion verbessert die Erklärbarkeit, indem ein sekundäres LLM verwendet wird, um die spezifischen Nachweise aus dem Quelltext zu präsentieren, die jedes Ergebnis unterstützen. Dies ist insbesondere in Vorproduktionsphasen wie Inferenz und Training nützlich, da die Output-Qualität kontinuierlich validiert werden kann, um zu bestätigen, dass sie den Erwartungen entspricht.

Darüber hinaus generiert das System für jeden extrahierten Wert integrierte Confidence Scores. Diese Werte werden über einen Algorithmus berechnet, der die individuellen Wahrscheinlichkeiten jedes Wort-Tokens in der Antwort aggregiert. Ein hoher Konfidenzwert garantiert zwar keine korrekte Antwort, erhöht aber die Wahrscheinlichkeit für die Genauigkeit erheblich. Dies ist ein leistungsstarkes Tool für verantwortungsvolle KI, mit dem Workflows automatisch Antworten mit niedrigen Werten filtern oder kennzeichnen können. Die ständige Überwachung dieser Werte gewährleistet die rechtzeitige Erkennung und Behebung von Verschlechterungen der Modellperformance im Laufe der Zeit.
Vertrauen in Ihre KI schaffen mit Beobachtbarkeit in Snowflake Cortex AI
Vertrauen und Transparenz sind die Voraussetzung für den Weg von Prototypen generativer KI zu zuverlässigen, produktionsbereiten Anwendungen. Snowflake Cortex AI bietet das unverzichtbare Toolkit für die Beobachtbarkeit und Evaluierung von KI, um diesen nahtlosen Übergang zu ermöglichen und Entwickler:innen so zu befähigen, die Blackbox-Natur von KI-Systemen zu verlassen.
Durch die Integration von Beobachtbarkeit in ihren KI-Entwicklungslebenszyklus können Entwickler:innen ihre Arbeit kontinuierlich validieren, debuggen und optimieren und so sicherstellen, dass KI-Lösungen nicht nur effektiv und effizient, sondern auch vollständig erklärbar und zuverlässig sind.
Mit Snowflake Cortex AI können Sie GenAI-Anwendungen entwickeln, die nicht nur leistungsstark, sondern auch transparent und vertrauenswürdig sind.
Zusätzliche Ressourcen:

