Einführung von Polaris Catalog: ein Open-Source-Katalog für Apache Iceberg
Open-Source-basierte Datei- und Tabellenformate sind für die Datenbranche äußerst interessant, da sie die Interoperabilität fördern. So können viele verschiedene Technologien auf sichere Weise zusammenarbeiten, und zwar mit einer einzigen Datenkopie. Gesteigerte Interoperabilität reduziert nicht nur die Komplexität und die Kosten, die mit dem parallelen Einsatz mehrerer Tools und Verarbeitungs-Engines einhergehen. Sie kann auch potenzielle Risiken im Bereich der Anbieterbindung minimieren.
Trotz der rasanten Verbreitung offener Datei- und Tabellenformate bestehen weiterhin viele gegenseitig bedingte Beschränkungen zwischen Engines und Katalogen, die den Wert der offenen Iceberg-Standards schmälern. Data Architects und Data Engineers stehen vor der schweren Aufgabe, diese Einschränkungen bewältigen zu müssen – mit schwierigen Kompromissen zwischen Komplexität und Anbieterbindung. Um die Interoperabilität zu steigern, hat die Apache-Iceberg-Community einen offenen Standard eines REST-Protokolls im Iceberg-Projekt entwickelt. Die offene API-Spezifikation ist bereits ein großer Schritt in Richtung Interoperabilität, doch das Ökosystem könnte von der Implementierung eines Open-Source-Katalogs profitieren, der anbieterneutralen Speicher bietet.
Deshalb freuen wir uns bei Snowflake, Ihnen Polaris Catalog vorzustellen. Hiermit erhalten Unternehmen und die Iceberg-Community mehr Auswahl, Flexibilität und Kontrolle hinsichtlich ihrer Daten – mit umfassender Sicherheit für Unternehmen sowie Apache-Iceberg-Interoperabilität mit Amazon Web Services (AWS), Confluent, Dremio, Google Cloud, Microsoft Azure, Salesforce und mehr. Polaris Catalog baut auf den Standards auf, die von der Iceberg-Community entwickelt wurden, um die oben beschriebenen Herausforderungen zu meistern.
- Anstatt Daten für verschiedene Engines und Kataloge zu verschieben und zu kopieren, können mehrere Engines parallel mit einer einzigen zentralen Kopie der Daten arbeiten.
- Sie können die Daten in einer von Snowflake verwalteten oder einer anderen Infrastruktur Ihrer Wahl hosten.
Polaris Catalog wird in den nächsten 90 Tagen auf Open Source umgestellt und wird in Kürze als Public-Preview-Version in der Snowflake-Infrastruktur zur Verfügung stehen. Im weiteren Verlauf des Beitrags gehen wir näher auf die Funktionen und Hosting-Optionen ein.
Lese- und Schreib-Interoperabilität für mehrere Engines
Viele Unternehmen verwenden mehrere Verarbeitungs-Engines, um bestimmte Workloads auszuführen; andere wollen einfach nur in der Lage sein, künftig flexibel Engines hinzuzufügen und auszumustern. So oder so: Sie alle wollen die Freiheit, auf sichere Weise mehrere Engines auf eine einzige Datenkopie anzusetzen. So sollen die Kosten für Speicher und Rechenressourcen reduziert werden, die mit dem Verschieben der Daten oder mit der Pflege mehrerer Kopien einhergehen.
Kataloge spielen eine wichtige Rolle in Architekturen, in denen mehrere Engines zum Einsatz kommen. Sie sorgen für zuverlässige Tabellenvorgänge, indem sie atomare Transaktionen ermöglichen. So können Data Engineers – und ihre Pipelines – Tabellen gleichzeitig bearbeiten, ohne dass die Abfragen dieser Tabellen ungenaue Ergebnisse generieren. Um das zu erreichen, werden sämtliche Lese- und Schreibvorgänge an Iceberg-Tabellen durch einen einzigen Katalog geleitet, selbst wenn sie von verschiedenen Engines stammen.
Hierbei ermöglicht ein standardisiertes Katalogprotokoll für sämtliche Engines die nötige Interoperabilität. Glücklicherweise hat die Apache-Iceberg-Community eine Open-Source-Spezifikation für ein REST-Protokoll entwickelt. Immer mehr Open-Source-, aber auch kommerzielle Engines und Kataloge bieten Unterstützung für diese REST-API-Spezifikation an, um die Interoperabilität zu steigern.
Auch Polaris Catalog implementiert die offene REST-API von Iceberg, um die Anzahl der Engines zu maximieren, die Sie integrieren können. Diese Engines umfassen derzeit Apache Doris, Apache Flink, Apache Spark, PyIceberg, StarRocks und Trino. Künftig kommen weitere kommerzielle Optionen wie Dremio hinzu. Sie können auch Snowflake nutzen, um mit Polaris Catalog aus Iceberg Tables zu lesen oder darin zu schreiben – dank der erweiterten Unterstützung für Katalogintegrationen mit der Iceberg-REST-API (demnächst in Public Preview).
Alle Optionen, keine Bindung
Sie können den Open-Source-basierten Polaris Catalog in der Infrastruktur der Snowflake AI Data Cloud (demnächst in Public Preview) oder in Ihrer eigenen Infrastruktur mit Containern wie Docker oder Kubernetes hosten (demnächst verfügbar). Doch egal, wie Sie Polaris Catalog einsetzen wollen – es gibt keine Anbieterbindung: Wenn Sie Ihre zugrunde liegende Infrastruktur wechseln wollen, können Sie das ganz flexibel tun.
Ausweitung der Governance von Snowflake Horizon dank Integration des Polaris Catalog
Ist die Integration zwischen Snowflake Horizon und Polaris Catalog einmal eingerichtet, funktionieren die Governance- und Discovery-Features von Snowflake Horizon – darunter Richtlinien zur Spaltenmaskierung, Row Access Policies, Object Tagging und Sharing – auch in Polaris Catalog. Es spielt also keine Rolle, ob die Iceberg-Tabelle in Polaris Catalog von Snowflake oder einer anderen Engine, wie Flink oder Spark, erstellt wird. Sie können in jedem Fall die Funktionen von Snowflake Horizon auf diese Tabellen anwenden, als wären es native Snowflake-Objekte.
Der Weg nach vorn
Polaris Catalog soll nicht nur Snowflake-Kunden, sondern auch dem breiteren Datenökosystem einen vollständig interoperablen Speicher bereitstellen, der auf den Standards der Apache-Iceberg-Community aufbaut. Wir werden unsere Erfahrung, die wir mit dem Betrieb unserer globalen cloudübergreifenden Plattform gewonnen haben, mit der schnell wachsenden Iceberg-Community kombinieren, um Polaris Catalog gemeinsam weiterzuentwickeln. Wenn Sie weitere Informationen zu Polaris Catalog erhalten möchten, sehen Sie sich die Summit Sessions an, die on-demand zur Verfügung stehen, oder registrieren Sie sich für dieses Webinar, um von unserem Team mehr über das Thema zu erfahren. Und wenn Sie als erstes davon erfahren wollen, sobald der Code für Polaris Catalog veröffentlicht wird, können Sie sich in diesem GitHub-Repository für entsprechende Benachrichtigungen anmelden.
Zukunftsgerichtete Aussagen
Dieser Artikel enthält zukunftsgerichtete Aussagen, unter anderem über künftige Produktangebote. Diese Aussagen stellen keine Garantie dar, dass diese Angebote wirklich bereitgestellt werden. Die tatsächlichen Ergebnisse und Angebote können abweichen und unterliegen bekannten und unbekannten Risiken und Unsicherheiten. Weitere Informationen finden Sie in unserem jüngsten 10-Q-Formular.