Optimieren Sie Abläufe und ermöglichen Sie es Geschäftsteams, unstrukturierte Daten zu nutzen, mit Document AI

Schätzungen zufolge sind 80 bis 90 % der weltweiten Daten unstrukturiert1, wobei Textdateien und Dokumente einen erheblichen Anteil ausmachen. Täglich werden unzählige textbasierte Dokumente wie Verträge und Versicherungsansprüche zur Verwahrung gespeichert. Trotz der Fülle von Einblicken bleibt dieser riesige Informationsvorrat oft ungenutzt, da die Extraktion relevanter Daten aus diesen Dokumenten eine Herausforderung darstellt, langwierig und zeitaufwendig ist. Darüber hinaus sorgt die inhärente Variabilität von Dokumentformaten, -quellen und -inhalten für zusätzliche Komplexität.
Diese Variabilität erfordert maßgeschneiderte Extraktionsansätze für jeden Dokumententyp, was die Bearbeitungszeiten erheblich verlängert. Legacy-Systeme zur Lösung dieses Problems sind oft unzureichend und erfordern umfangreiche Entwicklung und umfassendes Fachwissen im Bereich des maschinellen Lernens (ML). Die Straffung dieser Prozesse durch technologische Fortschritte wie KI könnte die Art und Weise, wie Unternehmen ihre Dokumentendaten für eine bessere Entscheidungsfindung nutzen, drastisch verbessern. Stellen Sie sich das transformative Potenzial eines Systems vor, das automatisch und genau wichtige Informationen aus jedem Dokument extrahieren kann – mit präziser Genauigkeit und sehr wenig Aufwand für Ihre Geschäftsteams.
Document AI: intelligente Dokumentenverarbeitung in Snowflake
Um Unternehmen bei der Lösung dieser Herausforderung bei der Dokumentenverarbeitung zu unterstützen, hat Snowflake Document AI entwickelt, die demnächst allgemein auf AWS und Azure verfügbar ist. Mit dieser aufregenden neuen Funktion können Teams Workflows zur intelligenten Dokumentenverarbeitung (Intelligent Document Processing, IDP) vollständig innerhalb von Snowflake einrichten. Mithilfe von Document AI können wichtige Informationen aus Dokumenten wie Rechnungen und Verträgen extrahiert und direkt auf betriebliche Workflows angewendet werden, ohne sich um Skalierbarkeit oder Variabilität Ihrer Dokumente sorgen zu müssen. Document AI basiert auf dem proprietären, integrierten multimodalen Large Language Model (LLM), Snowflake Arctic-TILT (Text Image Layout Transformer), das modernste Performance bei äußerst effizienter und kostengünstiger Ressourcennutzung bietet.
So funktioniert es
Mit der Leistung von Document AI können Geschäftsteams Prozesse automatisieren, wertvolle Erkenntnisse aus ihren Daten gewinnen und die Entscheidungsfindung verbessern. Die Benutzererfahrung von Document AI gliedert sich in zwei Hauptphasen: Modellerstellung (mit einer Handvoll Dokumenten) und Inferenz (über Tausende von Dokumenten hinweg). Keine der beiden Phasen erfordert ML- oder Anwendungsentwicklungserfahrung.
Modellvorbereitungsphase: In dieser Phase verwendet der Dokumentinhaber die Document AI-Benutzeroberfläche, um einen Modell-Build zu erstellen und zu verwalten. Jeder Build enthält die Dokumente, die Fragen, für die Sie Antworten benötigen (die eventuell extrahierten Datenpunkte) und das Modell selbst – alles für einen bestimmten Dokumenttyp oder Anwendungsfall zusammengepackt. Anwender:innen stellen dem Modell Fragen in natürlicher Sprache und optimieren sie bei Bedarf durch Korrekturen. Dank der benutzerfreundlichen und intuitiven Natural Language Interface benötigen geschäftliche Benutzer:innen keinen ML- oder KI-Hintergrund, um das zugrunde liegende Modell zu nutzen und Informationen aus Dokumenten zu extrahieren. Mit nur einem Klick können dieselben Benutzer:innen das Modell optimieren, indem sie es auf ihre speziellen Bedürfnisse trainieren. Nachdem das Modell erfolgreich anhand einer Handvoll Dokumente bewertet wurde, veröffentlicht der Anwender das Modell und übergibt die nächsten Schritte zur Extraktion umfangreicher Informationen (e.g., Tausende Dokumente pro Tag) an einen Data Engineer.

Inferenzphase: Ist das Modell produktionsreif, richtet der Data Engineer eine automatisierte Pipeline zur intelligenten Dokumentenverarbeitung (IDP) ein. Angefangen bei der Beschaffung und dem Laden von Dokumenten hat der Data Engineer die Möglichkeit, Dateien auf externen Stages zu pflegen oder direkt in Snowflake-interne Stages einzubringen. Anschließend zeigen sie das Modell auf die Phase der Dokumente für den jeweiligen Anwendungsfall. Das Modell wird über die Funktion PREDICT aufgerufen und die Ergebnisse können dann weiterverarbeitet und über Dashboards, Streamlit oder andere Anwendungen an den Dokumenteninhaber oder andere Stakeholder weitergegeben werden.

Da Document AI auf Snowflake Cortex AI basiert, werden alle Vorgänge auf verwalteten GPUs ausgeführt und das Modell wird direkt in Snowflake gehostet. Einfach das Modell auswerten, bei Bedarf fine-tunen und dann skalierbar arbeiten, ohne dass GPUs getestet, gesichert, bereitgestellt oder aufgerüstet werden müssen. Snowflake kümmert sich um die gesamte Infrastruktur für Sie, mit der Möglichkeit, die Operationalisierung in Pipelines genau dort vorzunehmen, wo sich Ihre Daten befinden.
Ein genauerer Blick auf Snowflake Arctic-TILT
Arctic-TILT, das Modell, das Document AI unterstützt, ist ein von Snowflake entwickeltes LLM, das auf einer proprietären und einzigartigen Transformer-Architektur basiert, die darauf zugeschnitten ist, Daten aus Dokumenten zu verstehen und zu extrahieren. Durch die Kombination mehrerer Datenmodalitäten bietet Arctic-TILT eine beispiellose Vielseitigkeit und Performance bei Aufgaben zum Verständnis von Dokumenten. Der Average Normalized Levenshtein Similarity (ANLS) Score ist eine Kennzahl, die verwendet wird, um eine umfassende Bewertung der Performance eines Modells bei der Verarbeitung verschiedener Texteingaben bereitzustellen. Snowflake Arctic-TILT verarbeitet Dokumente mit einem ANLS-Score von 90,2 im aktuellsten DocVQA-Benchmark und übertrifft damit den ANLS-Score von GPT-4 von 88,4. Arctic-TILT kann also eine Vielzahl von Dokumenten genau verarbeiten, selbst wenn es sich diese oder ähnliche Dokumente noch nie angesehen hat – keine Anmerkungen, handgefertigte Vorlagen oder Regeln erforderlich. Das Modell lässt sich weiterhin auf Ihre spezifischen Geschäftsanforderungen abstimmen, indem Sie einfach eine begrenzte Anzahl von Dokumenten über die Document AI-Schnittstelle annotieren.
Wichtige Funktionen und Fähigkeiten
- Multimodales Verständnis: Arctic-TILT benötigt weder Regeln noch Spezifikationen, um Informationen zu extrahieren, noch müssen die Dokumente vor der Verarbeitung organisiert werden. Mit Document AI können Sie verschiedene Dokumente einbinden und das Modell gleichzeitig Informationen aus Text, Bildern und räumlichen Layouts verstehen, analysieren und extrahieren lassen.
- Hochmoderne Performance: Bei Benchmarks wie DocVQA weist Arctic-TILT Visual Question Answering-Funktionen auf, die mit Modellen wie GPT-4, die um Größenordnungen mehr Parameter haben, gleichwertig, wenn nicht sogar besser sind.
- Erweitertes Kontextfenster: Arctic-TILT bietet ein außergewöhnlich großes Kontextfenster. Diese Funktion ist entscheidend, um den gesamten Kontext multimodaler Inhalte zu erfassen und das Hochladen von Dokumenten mit einer Länge von bis zu 125 Seiten zu ermöglichen.
- Effiziente Inferenz: Arctic-TILT wurde entwickelt, um sowohl kleine als auch unternehmensweite Dokumentenvolumina zu verarbeiten und dabei die Performance und – was noch wichtiger ist – Genauigkeit beizubehalten, die beide bei der Verarbeitung von Geschäftsdokumenten entscheidend sind.
- Anpassungsfähigkeit: Arctic-TILT wurde für eine Vielzahl von Anwendungen und Branchen entwickelt und erfordert keine Vorkenntnisse eines bestimmten Dokuments oder Formats und lässt sich bei Bedarf einfach fine-tunen.
Von unstrukturierten Daten bis hin zu grenzenlosen Möglichkeiten
Die Anwendungsmöglichkeiten für diese Technologie sind enorm – von kleinen Finanzunternehmen bis hin zu Fertigungskonglomeraten, vom Rechnungsabgleich bis zur Beweisermittlung.
Nehmen wir zum Beispiel Northern Trust, das 134 Jahre alte Finanzdienstleistungsunternehmen mit Hauptsitz in Chicago. Durch den Einsatz von Document AI wird der Aufwand für die Extraktion von Informationen aus Finanzdokumenten für den Futures-Abgleich erheblich reduziert. „Document AI hat das Potenzial, die Art und Weise zu optimieren, wie wir Daten aus Finanzdokumenten extrahieren, und so unsere Effizienz und Genauigkeit zu steigern“, so Robert Ismailov, SVP und Head of Information Delivery bei Northern Trust. „Damit könnte sich unser Team mehr auf die Datenanalyse konzentrieren und weniger auf die manuelle Eingabe.“
Heute nutzen Snowflake-Kunden verschiedenster Branchen Document AI für verschiedenste Anwendungsfälle, darunter:
- Beobachtung von SEC-Einreichungen: Extrahieren von Daten aus 10-K-, 10-Q- und 8-K-Einreichungen, um aktuelle Übersichten über börsennotierte Unternehmen und ihre Änderungen zu erhalten
- Rechnungsabgleich: Extrahieren von wichtigen Zahlen für Finanzabteilungen
- Vertragsverständnis und Organisation: Extrahieren von Vertragsbedingungen für eine einfache Kategorisierung und Analyse
- Digitalisierung von physischen Dokumenten, wie z. B. Menüs: Automatisches Analysieren von Menüpunkten für ein digitaleres Speiseerlebnis
Snowflakes eigenes Finanzteam nutzt die Technologie, um die Identifizierung von nicht standardmäßigen Vertragsbedingungen in Bestellformularen zu optimieren. „Document AI hat das Potenzial, uns Hunderte Stunden im Monat zu sparen, sodass unser Team sich von Routineaufgaben auf effektivere Aufgaben konzentrieren kann“, so Anh Doan, Director of Revenue and Billing bei Snowflake. „Die Transformationsmöglichkeiten sind immens.“
Sehen Sie sich diesen Quickstart an, um die Leistungsfähigkeit von Snowflake Arctic-TILT und den Wert, den Document AI für Ihr Unternehmen bieten kann, selbst zu erfahren.
Document AI ist nur eine der vielen Möglichkeiten, wie Snowflake die Leistungsfähigkeit von KI in jeden Bereich Ihres Unternehmens einbringt. Wir beschleunigen den Einsatz von KI in Unternehmen, um durch fortschrittlichere Automatisierung bessere Erfahrungen zu schaffen und die Effizienz zu steigern und so einen greifbaren Mehrwert zu erzielen. Erfahren Sie hier mehr über Snowflake Cortex AI und Snowflake Copilot.
1. Quelle: https://mitsloan.mit.edu/ideas-made-to-matter/tapping-power-unstructured-data