Die Apache Iceberg-Lawine: Wie das offene Tabellenformat Data Lakes verändert

Digital illustration of an iceberg in a ring with a blue background with white dots

Der Datenspeicher hat sich weiterentwickelt: von Datenbanken zu Data Warehouses und expansiven Data Lakes, wobei jede Architektur unterschiedliche Geschäfts- und Datenanforderungen erfüllt. Herkömmliche Datenbanken glänzten bei strukturierten Daten und transaktionalen Workloads, hatten aber Probleme mit skalierbarer Performance bei wachsendem Datenvolumen. Das Data Warehouse löste Performance und Skalierbarkeit, nutzte aber – ähnlich wie die Datenbanken davor – proprietäre Formate, um vertikal integrierte Systeme zu entwickeln. Data Lake-Systeme wurden auf offene Formate umgestellt, es fehlten jedoch die funktionalen Vorteile, die Warehouses bieten, wie ACID-konforme Transaktionen, umfassende Governance und mehr. Letztlich befanden sich die Benutzer:innen zwischen zwei Optionen: entweder eine vollständig integrierte Plattform mit nur proprietären Lösungen oder ein ressourcenintensiver, selbstgebauter, anbieterneutraler Data Lake in einem ständigen Migrationszustand, in der Hoffnung, endlich den versprochenen Mehrwert zu erobern.

Jetzt müssen Sie sich nicht mehr entscheiden. Mit der Einführung und breiten Verbreitung von Apache IcebergTM ist das Open Data Lakehouse entstanden, das das Beste aus Data Warehouses und Data Lakes kombiniert, indem es offenen Speicher und Rechenressourcen entkoppelt, um Datenteams mit der Flexibilität und Kontrolle offener Architekturen und der hohen Performance von Data Warehouses auszustatten. Deshalb setzt Snowflake voll und ganz auf dieses offene Tabellenformat. Kunden profitieren nun von den Vorteilen, Daten in einem vollständig offenen, interoperablen Format zu speichern und gleichzeitig die Leistungsfähigkeit der einfachen, vernetzten und vertrauenswürdigen Plattform von Snowflake zu nutzen. Dadurch können Unternehmen ihre offenen Lakehouse-Strategien beschleunigen und schneller fortschrittliche Analytics und KI bereitstellen.

Was ist Iceberg?

Kernstück dieser Open-Data-Lakehouse-Revolution ist Iceberg, ein Open-Source-Tabellenformat für große analytische Workloads. Iceberg ist weder Rechenressource noch Datenbank. Es wird beschrieben, wie sich eine Reihe von Dateien wie eine Datenbanktabelle verhalten können. Da die Beschreibung offen und egineunabhängig ist, ist eine Iceberg-Tabelle intrinsisch anbieterneutral. Diese Kombination aus Funktion und Anbieterneutralität leitet die nächste Stufe der Architekturentwicklung ein: das offene Lakehouse, in dem Rechenressource, Format und Speicher voneinander entkoppelt sind.

Iceberg-Tabellen werden interoperabel und wahren gleichzeitig die ACID-Compliance, indem sie eine Ebene von Metadaten zu den Datendateien im Objektspeicher eines Benutzers hinzufügen. Ein externer Katalog verfolgt die neuesten Tabellenmetadaten und sorgt für Konsistenz über mehrere Leser und Schreiber hinweg.

Diagram showing the Iceberg architecture from data layer to metadata layer to Iceberg Catalog.

Source: iceberg.apache.org

Einfach ausgedrückt: Iceberg sind Metadaten. Datendateien werden nicht auf Verzeichnisebene, sondern einzeln durch Manifestdateien, Manifestlisten und Metadatendateien verfolgt. Diese gut aufeinander abgestimmte Metadatenebene bedeutet, dass Iceberg nicht Opfer gefährlicherer Probleme wird, die bei anderen gängigen Tabellenformaten (z. B. Apache Hive™) auftreten, da sie sich strikt auf eine physische Verzeichnisstruktur verlassen.

Warum sollte Ihnen Iceberg wichtig sein?

Ohne die Einführung von Iceberg-Tabellen müssen Datenteams viel Zeit und Ressourcen in die Verwaltung von Migrationen und Governance stecken, bevor sie die Chancen nutzen können, die sich durch neue Technologien und Lösungen bieten. Iceberg beseitigt diesen Kompromiss. Iceberg bietet ein vollständig interoperables Speicherformat, das es Data Engineers ermöglicht, ihre Speicherschicht zu besitzen und zu kontrollieren, und bietet so die Flexibilität, jede kompatible moderne Datenplattform oder Rechenressource zu nutzen. So können Datenteams in Rekordzeit – ohne Kompromisse – von der Idee zur Wirkung gelangen und die Wirkung in dem Tempo entfalten, das Unternehmen heute erwarten.

So können Datenteams davon profitieren, ihre offenen Lakehouse-Architekturen auf Iceberg-Tabellen aufzubauen:

Höhere Entwicklerproduktivität: Iceberg bietet Entwickler:innen und Data Engineers die Möglichkeit, so zu arbeiten, als würden sie eine standardmäßige relationale Datenbank wie Postgres verwenden.
Fähigkeit, einmal zu schreiben, überall zu lesen: Iceberg ist ohne Migration mit allen neuesten Analysetools kompatibel. Wechseln Sie ohne Strafe die Engines oder nutzen Sie mehrere Engines gleichzeitig.
Schnellere Rechenleistung: Die Metadatenebene von Iceberg ist für den Cloud-Speicher optimiert und ermöglicht vorab Datei- und Partitionsbereinigung mit minimalem IO-Overhead.

Da es sich um einen Open-Source-Standard handelt, der für alle Tools und Engines verfügbar ist, die unterstützt und genutzt werden können, kann Iceberg diese unglaublichen Vorteile für jedes Unternehmen bringen. Letztlich ist diese Offenheit ein Gewinn für Sie.

Offener sein

Snowflake hat immer seine Benutzer:innen an erste Stelle gestellt. Mit der Weiterentwicklung der Technologie setzt Snowflake auch weiterhin auf die Unterstützung von Open-Source-Initiativen. Die Vorteile liegen auf der Hand: Wenn Nutzende die Wahl haben, gewinnen sie. Dieses Engagement für Open Source wird durch die Beiträge von Snowflake zu Iceberg unterstrichen, die ein effizientes, kontrolliertes Data Lake-Management mit Schema-Entwicklung, Partitionierung und Transaktionsmanagement ermöglichen.

Iceberg gibt zwar vor, wie sich Kataloge verhalten sollen, doch die Iceberg-Community hat sich bisher sehr bewusst von der Bereitstellung ferngehalten. Da der Katalog die Metadaten der Tabelle verwaltet und Einheitlichkeit über mehrere Leser und Autoren hinweg gewährleistet, sollte dieses Fehlen eines standardisierten Katalogs das Risiko einer Wiedereinführung der Kompromisse lösen, die Iceberg einführen sollte. Konkret müssten sich Unternehmen erneut zwischen zwei Optionen entscheiden: entweder einen Katalog selbst implementieren, verwalten und pflegen oder eine Anbieterlösung nutzen, die das Potenzial hat, sich erneut an eine Lösung zu binden. Als Snowflake diese Lücke erkannte, verdoppelte sich sein Engagement für offene Standards und eine communityorientierte Entwicklung, indem es einen Iceberg-Katalog entwickelte und dann auf Open Source umstellte und ihn im Juli 2024 in die Apache Software Foundation einbrachte, die heute als Apache Polaris (incubating) bekannt ist.

Polaris ist ein voll funktionsfähiger Open-Source-Iceberg-Katalog. Das Design ist anbieterneutral und die Governance-Struktur und die communityorientierte Entwicklung von Polaris sorgen dafür, dass das so bleibt. Die Implementierung der Iceberg REST API von Polaris sorgt für Konsistenz über mehrere Leser und Schreiber hinweg und bietet Möglichkeiten zur atomaren Aktualisierung von Tabellen von einem Zustand zum nächsten.

Das ist noch nicht alles. Polaris bietet außerdem eine zentrale Möglichkeit zur Sicherung der Unternehmensdaten. Ursprünglich als interoperabler Iceberg-Katalog konzipiert, unterstützt die Polaris-Roadmap nun eine breitere Palette von Datenformaten und Datenobjekttypen, damit Benutzer:innen alle ihre Daten von einem Ort aus katalogisieren können.

Aufbau eines offenen Data Lakehouse

Snowflake hat es sich zum Ziel gesetzt, Unternehmen dabei zu unterstützen, offene Lakehouse-Ambitionen aufzubauen und zu beschleunigen, damit sie mit weniger Komplexität mehr Wirkung erzielen können.

Erste Schritte:

Beginnen Sie mit der Aktivierung von Daten, die in einem Cloud-Speicheranbieter gespeichert sind, ohne dass Sie daran gebunden sind, indem Sie Iceberg-Tabellen direkt aus vorhandenen Parquet-Dateien in Snowflake erstellen.
Mit Horizon Catalog können Sie umfassende Sicherheits- und Governance-Kontrollen innerhalb der Plattform von Snowflake anwenden.
Verwalten Sie sicheren Multi-Engine-Zugriff mit Snowflakes Open Catalog, einem vollständig verwalteten Dienst für Polaris, der die Möglichkeit zur Selbstverwaltung bewahrt, indem er rollenbasierte Zugriffskontrollen (Role-Based Access Control, RBAC), Namespaces und Definitionen intakt hält, unabhängig davon, wo der Katalog gehostet wird – so wird die Migrationskomplexität nahezu eliminiert.

Darüber hinaus wird die elastische Zero-Ops-Daten-Engine von Snowflake kontinuierlich weiterentwickelt, deren Funktionen gezielt darauf abzielen, die Abfrageperformance und Effizienz von Iceberg-Tabellen zu verbessern. Kunden profitieren von Vorteilen wie verbesserten Bereinigungstechniken, die Cloud-Speicheranfragen reduzieren und die Abfrageausführung beschleunigen, und Adaptive Scan, mit dem scanintensive Abfragen schneller ausgeführt werden können. Diese Funktionen sind sofort einsatzbereit, ohne dass eine neue Implementierung durchgeführt werden muss. So wird die Performance verbessert und gleichzeitig der Betriebsaufwand gesenkt.

Erfahren Sie, wie WHOOP seine Datenarchitektur mit Snowflake und Iceberg umgestaltet, täglich 20 Stunden Rechenleistung spart und die Datenzugänglichkeit im gesamten Unternehmen verbessert.

Mehr erfahren

Nehmen Sie mit Snowflake am Iceberg Summit teil, einer zweitägigen Veranstaltung, die am 8. und 9. April in San Francisco stattfindet. Wir freuen uns, die Community als Headliner-Sponsor für die Eröffnungsveranstaltung zu unterstützen.
Nehmen Sie teil an unserem Webinar Data Engineering Connect: Entwicklung von Pipelines für Open Lakehouse am 29. April mit zwei virtuellen Demos und einem Hands-On Lab.
Lesen Sie „The Essential Guide to Modernizing Data Lakes for AI with Snowflake“ mit kompetenter Anleitung zur Schaffung der Grundlage, um das volle Potenzial von Daten und KI auszuschöpfen.

E-Book

The Essential Guide to Modernizing Data Lakes for AI with Snowflake

Holen Sie sich Expertenrat für die Entscheidung, ob Sie einen Data Lake aufbauen oder auf eine neue Plattform modernisieren möchten – und wo Sie anfangen sollten.

jetzt lesen