Erfolgreicher Einsatz generativer KI beginnt mit einer starken Datengrundlage
Denken Sie ein paar Jahre zurück, als die meisten Unternehmen gerade ihren Umstieg auf die Cloud planten oder noch ganz am Anfang der Migration standen. Und dann kam die Pandemie und praktisch über Nacht mussten wir unsere Arbeitsweisen radikal verändern, was dem Umstieg auf die Cloud einen zusätzlichen Schub verschafft hat. Kosteneffiziente Anpassungsfähigkeit war damals absolut entscheidend: Unternehmen, die in der Lage waren, schnell hoch- und herunterzuskalieren, konnten die Herausforderungen der Pandemie am Ende erfolgreich bewältigen. Und die Migration zur Cloud hat all das möglich gemacht.
Und heute? Heute sorgen die revolutionären Vorteile generativer KI erneut dafür, dass Unternehmen schnell und entschlossen handeln müssen. Dieses Mal müssen sie dafür sorgen, dass ihre Daten und die Plattform, auf der diese Daten verarbeitet werden, für die neuen KI-Modelle bereit sind.
Doch bis dahin ist es noch ein weiter Weg – insbesondere, weil das Volumen, das Tempo und die Komplexität der Daten und Datentypen ständig zunehmen. Bei 2025 werden voraussichtlich jeden Tag sieben Petabyte an Daten generiert werden. Zum Vergleich: 2021 waren es „nur“ 2,3 Petabyte pro Tag. Und wir sprechen hier nicht von irgendwelchen Daten. Die meisten von ihnen (80 %) werden voraussichtlich unstrukturiert sein, zum Beispiel Bilder, Videos und Dokumente – diese unstrukturierten Daten sind eine Ressource, die Unternehmen bisher noch viel zu wenig nutzen.
Eine große Kluft zwischen Erwartung und Realität
Wenn Unternehmen künftig in dieser datenintensiven Welt mithalten wollen, müssen sie die Verfügbarkeit, Korrektheit und Zugänglichkeit der benötigten Daten gewährleisten – und dessen sind sie sich durchaus bewusst. So sagen 83 % der Accenture-Kunden, dass Echtzeitdaten entscheidend sein werden, um sich in den nächsten zwei Jahren einen Wettbewerbsvorteil zu verschaffen. Doch nur 31 % geben an, dass sie diese Daten effektiv verwalten.
Mit anderen Worten: Es besteht eine große Kluft zwischen Erwartung und Realität. Und je wichtiger sicheres Data Sharing wird – sowohl innerhalb des eigenen Unternehmens als auch darüber hinaus –, desto wichtiger wird auch die Fähigkeit, leistungsstarke und zuverlässige Daten-Pipelines zu erstellen und zu verwalten. Doch derzeit geben 55 % der Unternehmen an, dass sie die Datenherkunft nicht von der Quelle bis zum Endpunkt nachverfolgen können. Und das ist nur allzu verständlich: Denn wenn strukturierte und unstrukturierte Daten in verschiedenen cloudbasierten und lokalen Datensilos gespeichert sind, ist die Nachverfolgung der Datenherkunft eine echte Herausforderung. Doch es ist eine Herausforderung, die Unternehmen meistern müssen, um in Zukunft wettbewerbsfähig zu bleiben.
Das zeigt auch unsere Forschung. Wir haben herausgefunden, dass die erfolgreichsten Unternehmen 2,4-mal häufiger Daten auf speziellen, modernen Cloud-Datenplattformen speichern. Aber was genau unterscheidet diese Unternehmen von anderen? Das Aufbrechen von Datensilos, das Entfernen von Duplikaten, das Erstellen zuverlässiger Datenprodukte, reduzierte Kosten für die Datenüberarbeitung, Gewährleistung zeitnaher Einblicke und funktionsübergreifender Anwendungsfälle und verbesserte Nutzerakzeptanz.
Den Wert der unternehmenseigenen Daten erkennen
Den größten Nutzen liefern groß angelegte Modelle für maschinelles Lernen (ML) und generative KI, wenn Unternehmen diese Technologien auf ihre eigenen Daten anwenden. Hierdurch sind sie in der Lage, einzigartige Einblicke und Empfehlungen zu generieren, die am Ende erhebliche Auswirkungen auf die Performance haben. So können sie generische Chatbots, die mithilfe des Internets trainiert wurden, hinter sich lassen und stattdessen äußerst relevante Inhalte generieren, die aktuelle und potenziell vertrauliche Unternehmensdaten nutzen.
Unternehmen, die wirklich Kontrolle über ihre Daten haben, können die neue Technologie deutlich gezielter und gewinnbringender einsetzen. Denken Sie beispielsweise an ein Life-Sciences-Unternehmen, das sein KI-Modell mit internen Versuchs- und Produktdaten trainiert, um die Wirksamkeit von Medikamenten genauer, effizienter und schneller zu ermitteln als die Konkurrenz.
Viele moderne Unternehmen haben weit verzweigte Betriebe, Produkte und Wertschöpfungsketten, die allesamt relevante Daten generieren. Um gezieltere, individuellere Modelle zu erstellen – wie das aus dem oben genannten Life-Sciences-Beispiel –, müssen Teams in der Lage sein, Daten aus verschiedenen Clouds in einer sicheren und kontrollierten Umgebung zu teilen und zu nutzen.
Die ideale Lösung besteht darin, den Einsatz aktueller Primärdaten zu ermöglichen, ohne dass diese Daten hierfür von einem Ort zum nächsten kopiert werden müssen. Und gleichzeitig müssen alle relevanten Vorschriften eingehalten werden, die sich mit dem Fortschritt der KI natürlich noch weiterentwickeln werden.
Mit diesem Ansatz können Unternehmen nicht nur viele unnötige Datenspeicherkosten vermeiden, sondern auch das Entstehen weiterer Datensilos verhindern. Und er ist entscheidend, um starke Governance und Sicherheit zu gewährleisten, beispielsweise über präzise Datenzugriffskontrollen. Das letzte Glied in der Kette ist der nahtlose Zugriff auf wichtige Datasets, die von Drittanbietern kontrolliert werden – und zwar über vertrauenswürdige virtuelle „Clean Rooms“. Hierdurch entstehen völlig neue Möglichkeiten für die Wertschöpfung.
Priorisierung von Datensicherheit und Data Governance
Aber wie können Unternehmen diese scheinbar widersprüchlichen Ziele erreichen: schnell agieren und gleichzeitig Sicherheit gewährleisten? Eine umfassende Datengrundlage mit fest integrierten Funktionen für Sicherheit und Governance ist hierfür eine Grundvoraussetzung. Diese Grundlage muss es jedem Team ermöglichen, sicher auf alle nötigen Daten zuzugreifen – egal, ob intern oder aus anderen Quellen, darunter auch Partner im gesamten Ökosystem.
Und sie muss in der Lage sein, den Datenzugriff zu steuern, und zwar in komplexeren Konfigurationen als je zuvor. Einer der vielen spannenden Aspekte generativer KI ist ihre Fähigkeit, den Zugang zu Einblicken zu demokratisieren, die zuvor KI-Fachleuten und Data Scientists vorbehalten waren. Doch wenn Unternehmen die Einstiegshürde verringern, entstehen hierdurch auch neue Risiken, was Sicherheit und Governance noch wichtiger macht.
Wie geht es weiter?
Viele, wenn auch bei Weitem nicht alle Unternehmen haben Phase 1 der Datenherausforderung bereits gemeistert: Sie sind mittlerweile in der Lage, strukturierte Daten innerhalb des Unternehmens und mit Dritten zu teilen. Die zweite Phase – in der es darum geht, die explosionsartige Zunahme unstrukturierter, schnell fließender Daten zu bewältigen – ist bei den meisten Unternehmen noch nicht abgeschlossen. Und die dritte Phase – der Einsatz maßgeschneiderter Large Language Models (LLMs) und groß angelegter ML-Modelle, die mit diesen Daten trainiert oder optimiert wurden – steht gerade erst am Anfang.
Für die zweite Phase ist es entscheidend, Vertrauen in Daten aufzubauen. Hierzu braucht es eine Datenplattform, die alle nötigen Rechenressourcen zu den Daten bringt und sie innerhalb desselben Governance-Frameworks zur Verfügung stellt. Deshalb arbeiten wir mit unseren Partnern bei Snowflake zusammen, um unserer Kundschaft genau das zu ermöglichen. Dank Kontrollen auf Datenebene und über Clouds hinweg erhalten sie mit der Plattform von Snowflake die Möglichkeit, die Verarbeitung direkt bei den Daten durchzuführen. So können sich Mitarbeitende im gesamten Unternehmen darauf verlassen, dass ihre KI-Modelle bei jeder Interaktion zuverlässige Daten nutzen. Ohne diese Sicherheit laufen Unternehmen Gefahr, dass Modelle fehlerhafte Einblicke generieren.
In der dritten Phase – der Demokratisierung und Ausweitung der Vorteile branchenführender KI und LLMs – müssen Unternehmen eine Möglichkeit finden, wie alle Mitarbeitenden (nicht nur KI-Fachleute) diese modernen Technologien nutzen und darauf zugreifen können. Darüber hinaus müssen sie Wege finden, all ihre vertrauenswürdigen Daten zu verwenden, um nicht nur individuelle, sondern auch Open-Source-basierte LLMs zu trainieren und abzufragen.
Investition in eine Cloud-Datenplattform
Egal, welche Phase Ihr Unternehmen bereits erreicht hat oder noch anstrebt – es schadet auf keinen Fall, schon heute in eine moderne Datenplattform zu investieren, um Ihr digitales Fundament zu verbessern. Ermitteln Sie zunächst Geschäftsbereiche mit der höchsten potenziellen Wertsteigerung. Tätigen Sie dann entsprechende Investitionen, um die Verwaltung und den Schutz der Daten-Pipelines zu optimieren, die diese Geschäftsbereiche nutzen.
Wir erleben immer häufiger, dass unsere Kunden Investitionen in diesen Bereich als Priorität sehen. GenAI- und ML-Funktionen werden zusehends zu dem entscheidenden Alleinstellungsmerkmal, und zwar in sämtlichen Branchen. Heutzutage müssen Unternehmen unbedingt den Zugang zu der neuen Technologie demokratisieren und gewährleisten, dass sie nur vertrauenswürdige Daten verwendet.
Wenn sie das erreichen, verschaffen sie sich hierdurch einen Wettbewerbsvorteil, und zwar durch drei Faktoren:
- Sämtliche Teams im Unternehmen können KI in Sekundenschnelle für alltägliche Analytik verwenden.
- Die Innovation wird beschleunigt, da technische Fachleute in nur wenigen Minuten KI-Apps entwickeln und bereitstellen können.
- Alle Daten und Modelle werden optimal geschützt und kontrolliert.