JUN 02, 2026/16 min de lecturaProducto y tecnología

El lakehouse interoperable ofrece control sobre tus datos

Snowflake Summit rollup summary blog placeholder2

La inteligencia artificial (IA) está poniendo a prueba cada decisión de arquitectura. Cuando los equipos no pueden actuar sobre los datos allí donde residen, los copian. Los pipelines proliferan, la gobernanza se fragmenta, los costes se acumulan y los agentes de IA acaban razonando a partir de datos obsoletos y desconectados, en lugar de los datos gobernados y con riqueza semántica que necesitan.

El lakehouse abierto prometía resolver la fragmentación de los datos sin obligar a todo el mundo a usar una única plataforma. Pero, en la mayoría de las organizaciones, el formato llegó antes de que pudieran abordarse la gobernanza y la fragmentación semántica. Eso cambia hoy. El lakehouse interoperable de Snowflake, basado en Apache Iceberg™, Apache Polaris™ y Open Semantic Interchange (OSI), ya cuenta con disponibilidad general. Ofrece un nuevo modelo para conectar una única copia gobernada de tus datos, acceder a ella, gobernarla y operar sobre ella, esté donde esté y sin dependencia de proveedor. Al devolver el control a los propietarios de los datos, no a los proveedores, puedes lograr ese control sobre tus datos y, de paso, reducir el coste de arquitectura y asentar cada iniciativa de IA sobre una base en la que puedas confiar de verdad.

Actuar sobre los datos allí donde están

El control sobre tus datos empieza con un fundamento de datos conectado: un único lugar desde el que actuar sobre cada conjunto de datos, para cualquier operación, sin tener que copiarlo. Con este lanzamiento, Snowflake hace avanzar ese fundamento en todas las capas de acceso. La compatibilidad de Snowflake con Apache Iceberg v3 cuenta con disponibilidad general y está lista para producción; esto ofrece el conjunto más amplio de funcionalidades de v3 del mercado actual, profundamente integradas en toda la plataforma para ofrecer una mayor interoperabilidad. Las tablas de Snowflake Storage for Apache Iceberg™ hacen que Iceberg gestionado sea tan sencillo como CREATE TABLE. Las integraciones de copia cero incorporan tus sistemas de registro a la plataforma con la semántica intacta. Horizon Context conecta las definiciones de negocio en las que se basa cada equipo y cada agente de IA. Más datos. Más contexto. Una sola copia gobernada.

Apache Iceberg se diseñó originalmente para conjuntos de datos analíticos enormes, pero no ofrecía un soporte óptimo para workloads con datos semiestructurados, pequeñas actualizaciones, analíticas geoespaciales y pipelines de seguimiento de cambios. Apache Iceberg v3 cierra esa brecha. Desde hoy, Snowflake lleva a producción el conjunto más amplio de funcionalidades de v3, incluido compatibilidad con VARIANT para datos semiestructurados, linaje de filas para el seguimiento de cambios entre motores, vectores de eliminación para eliminaciones a nivel de fila eficientes, marcas de tiempo en nanosegundos para telemetría de alta frecuencia y workloads financieros, valores predeterminados y tipos geoespaciales. Ahora, más workloads tienen una vía clara hacia la interoperabilidad.

Sin embargo, un formato capaz no elimina la carga operativa de gestionar el almacenamiento. Las tablas de Snowflake Storage for Apache Iceberg™, con disponibilidad general para Amazon Web Services (AWS) y Azure, y pronto en vista previa privada para Google Cloud, ofrecen una experiencia de Iceberg totalmente gestionada: abierta desde el principio, gobernada mediante Horizon Catalog, con lectura y escritura desde cualquier motor compatible con Iceberg. Para los equipos que gestionan su propio almacenamiento en Azure, la compatibilidad con Azure DFS cuenta con disponibilidad general y ofrece interoperabilidad completa a través de puntos de conexión nativos de Azure Data Lake Storage Gen2.

Figura 1. Presentamos Snowflake Storage for Apache Iceberg™, ahora con disponibilidad general.

Incorporar datos existentes no debería exigir migración ni conversión. Parquet Direct, en vista previa privada y próximamente con disponibilidad general, permite consultar los archivos Parquet existentes con rendimiento comparable al de Iceberg. La integración de Google Cloud Lakehouse cuenta con disponibilidad general y crea bases de datos vinculadas al catálogo para el entorno lakehouse de Google entre nubes, con descubrimiento automático de tablas y acceso de lectura y escritura entre nubes. La actualización just-in-time para Iceberg gestionado externamente, en vista previa privada, detecta metadatos obsoletos en el momento de la consulta y los actualiza automáticamente, lo que elimina la necesidad de configurar actualizaciones programadas.

Las plataformas empresariales son donde residen los datos empresariales más valiosos y donde el coste asociado a los pipelines siempre ha sido más elevado. La integración de copia cero pone los datos empresariales esenciales a tu disposición en el ecosistema de Snowflake prácticamente en tiempo real, sin pipelines de extracción, transformación y carga (ETL) ni necesidad de reconstruir el contexto semántico. Ya están disponibles para SAP (disponibilidad general), Salesforce y Workday (vista previa privada); y las nuevas colaboraciones con AVEVA e IBM ampliarán aún más este modelo (datos industriales y de tecnología de las operaciones de AVEVA CONNECT, y plataformas de datos empresariales de IBM), al unir definiciones empresariales y contexto para obtener datos más coherentes y preparados para la IA.

Contar con sistemas conectados no implica necesariamente que el significado también lo esté. Los ingresos, el abandono y los recuentos de clientes siguen significando tres cosas distintas en tres lugares distintos hasta que las propias definiciones residen en una capa conectada. Horizon Context es esa capa. Vincula definiciones empresariales dispersas entre bases de datos, data lakes y herramientas de inteligencia empresarial (BI) para que todos los equipos, dentro y fuera de Snowflake (y los agentes de IA), razonen a partir de la misma definición de verdad empresarial. Conéctate a sistemas externos de bases de datos, BI y pipelines de datos, como PostgreSQL, Microsoft SQL Server, Tableau, Microsoft Power BI y dbt, y enriquece los metadatos con esquemas, registros de consultas, definiciones de paneles y mucho más (en vista previa privada). Horizon Context habilita este fundamento de datos mediante un conjunto de funcionalidades integradas:

Conectores listos para usar: Conéctate a herramientas como PostgreSQL, Microsoft SQL Server, Tableau, Microsoft Power BI y dbt que te permiten recopilar contexto enriquecido (registros de consultas, popularidad, esquemas y mucho más) de muchas fuentes en un único catálogo con capacidad de búsqueda.
Linaje integral a nivel de columna: El linaje es clave para entender cómo se relacionan entre sí los activos de datos. Horizon Context extrae información de linaje de los registros de consultas de Snowflake y de bases de datos externas, sistemas de BI y feeds de OpenLineage, y lo integra todo para crear un grafo de linaje completo e integral.
Semantic Studio, en vista previa privada, es un entorno de desarrollo integrado (IDE) asistido por IA dentro de Snowflake Workspaces que permite a los equipos definir, probar y publicar lógica empresarial compartida sin necesidad de conocimientos especializados de SQL. Se integra con Snowflake CoCo y permite la sincronización con Git para el control de versiones.
Semantic View Autopilot (disponibilidad general) analiza los patrones de consulta existentes para generar y perfeccionar automáticamente vistas semánticas, lo que ayuda a garantizar que tu capa de contexto se mantenga actualizada a medida que evolucionan tus datos y su uso. CoCo ahora recupera contexto empresarial para la búsqueda, la generación de SQL y el análisis complejo, ya con disponibilidad general.
Y, a través de Open Semantic Interchange (OSI), esas definiciones van más allá de Snowflake y llegan al ecosistema más amplio de BI e IA, con 54 proveedores participantes y una especificación publicada.

Hacer una pregunta a tus datos debería funcionar sin más. Con una base conectada e interoperable como soporte, funciona. Agentic Queries (disponibilidad general) permite a tus equipos formular preguntas en lenguaje natural en Snowflake, data lakes y, en vista previa privada, sistemas relacionales externos. Horizon Context devuelve la respuesta gobernada casi al instante.

Eso es solo el punto de partida. Los datos compartidos, incluidos los que están en formatos abiertos, también deberían ser igual de conversacionales. Auto-gen Agents for Data Shares and Listings, en vista previa pública, genera al instante una vista semántica y un agente de IA a partir de cualquier producto de datos o data share seguro, sin desarrollo manual. Cortex Agent Sharing, en vista previa pública, despliega después ese agente en distintas cuentas de Snowflake para equipos internos, partners o el ecosistema más amplio a través de Marketplace. Juntas, estas funcionalidades amplían las audiencias y los casos de uso para los mismos conjuntos de datos gobernados mediante una experiencia conversacional. Los consumidores incluso pueden combinar datos compartidos con sus propios datos de primera mano para obtener información más completa, todo ello gobernado de inmediato.

Gobernanza universal

Actuar sobre los datos donde se alojan solo resuelve la mitad del problema. El problema mayor se hace evidente en cuanto empiezas a diseñar con este enfoque: quién gobierna tus datos, dónde y cómo. Los entornos con varios catálogos fragmentan las políticas. El acceso multimotor multiplica los retos y, con cada solución alternativa, se erosiona tu control sobre tus datos. ¿Y si solo tuvieras que definir las políticas de acceso una vez en un único catálogo universal? Nos complace anunciar nuevas capacidades en Horizon Catalog (basado en Apache Polaris™) que ayudan a conectar todo tu ecosistema de Iceberg. Ahora puedes gobernar no solo las tablas de Iceberg gestionadas por Snowflake, sino todas las tablas de Iceberg de tu patrimonio. La gobernanza universal, definida en Horizon, se aplica en todos los motores compatibles con el catálogo REST de Iceberg (IRC) y sin dependencia de proveedor.

Empieza por ofrecer una base interoperable lista para producción. Ahora, en Horizon Catalog, tanto el acceso de lectura como el de escritura desde motores externos cuentan con disponibilidad general, lo que proporciona interoperabilidad bidireccional completa mediante credenciales suministradas (vended credentials), los mecanismos de seguridad abiertos definidos en el protocolo Iceberg REST para tablas de Iceberg gestionadas por Snowflake. Spark, Trino, PyIceberg y cualquier motor compatible pueden leer y escribir en la misma copia gobernada que usan tus usuarios de Snowflake. Un catálogo, un conjunto de políticas, sin tener que elegir entre usar tus motores preferidos y mantener las políticas de gobernanza en un solo lugar.

Cuando la mayoría de las empresas tienen varios catálogos, establecer controles de gobernanza uniformes resulta costoso y complejo. Implementar una gobernanza universal obliga a elegir entre realizar migraciones costosas o trasladar la complejidad y el coste operativo a tus equipos de datos al duplicar los controles de gobernanza, auditoría y supervisión en cada catálogo. Esta elección forzada erosiona el control sobre tus datos. El año pasado, basándonos en el principio de actuar sobre los datos donde residen, lanzamos las bases de datos vinculadas a catálogos (disponibilidad general) para descubrir automáticamente todas tus tablas de Iceberg externas, y leerlas y escribir en ellas de forma segura desde Snowflake. Este año ampliamos ese principio para incluir la gobernanza de los datos donde residen, lo que elimina la necesidad de migraciones forzadas. Ahora, en vista previa privada, también puedes gestionar el acceso seguro de los motores a estas tablas de Iceberg externas mediante las API de Horizon Iceberg REST Catalog para operaciones de lectura y escritura, lo que convierte Horizon Catalog en una capa de gobernanza universal para todas las tablas de Iceberg. Obtienes capacidades integrales de gobernanza, auditoría y observabilidad en un solo lugar para todas las operaciones de cualquier motor.

Otra causa frecuente de la fragmentación de los catálogos es que los controles de acceso detallados se han limitado al catálogo asociado a un único motor. Esta limitación aumenta la carga operativa que supone gestionar un entorno multimotor para tus equipos de datos, lo que eleva el riesgo de que una política mal configurada provoque una filtración de datos. Ahora, la compatibilidad con Iceberg REST Scan Plan API (en vista previa privada) elimina esta restricción. Con esta capacidad, las políticas de acceso detalladas acompañan a los datos dondequiera que se consulten, lo que permite aplicar las políticas de acceso a filas y de enmascaramiento de datos dinámico definidas en Horizon Catalog a las tablas de Iceberg gestionadas por Snowflake cuando se accede a ellas desde motores externos. Por último, el nuevo Snowflake Connector for Apache Spark (disponibilidad general) aplica estas políticas a los equipos que ya trabajan con Spark y ofrece una solución lista para producción desde hoy.

Estamos ampliando el alcance de Open Data Sharing, lo que permite a los clientes compartir catálogos federados mediante bases de datos vinculadas a catálogos (próximamente con disponibilidad general). También anunciamos que Open Data Sharing se ha mejorado (vista previa pública) para que cualquier motor externo compatible con IRC pueda consumir todos los data shares sin necesitar una cuenta de Snowflake. Combinadas, estas dos capacidades permiten a los clientes usar cualquier motor externo para acceder de forma segura a cualquier formato de tabla abierto que esté disponible a través de Horizon.

Las políticas siguen aplicándose porque las propias conexiones son seguras. Private Link a catálogos y almacenamiento externos cuenta con disponibilidad general, lo que mantiene los datos fuera de la Internet pública cuando Snowflake se conecta a data lakes externos.

Esto funciona porque los estándares subyacentes son abiertos. Apache Polaris es ahora un proyecto de alto nivel de la Apache Software Foundation, y los ingenieros de Snowflake aportaron la especificación de la Scan Planning API al proyecto Apache Iceberg. La gobernanza universal se convierte en una solución de ecosistema, no solo en una función de Snowflake.

Diseñado para entornos empresariales de forma predeterminada

Actuar sobre los datos donde residen y gobernarlos de forma universal es la arquitectura. Ejecutarla en producción es responsabilidad de tu equipo. La mayoría de las arquitecturas lakehouse devuelven esa responsabilidad al equipo de arquitectura: comprobaciones del estado de los instrumentos, registros de auditoría que conciliar entre motores y resiliencia que incorporar a posteriori. Hoy, esa carga operativa desaparece. La auditoría integral en el historial de acceso, en vista previa privada, registra cada operación de motores externos directamente en el historial de acceso de Snowflake, lo que proporciona a los equipos de cumplimiento y seguridad un único registro conectado de todas las operaciones de tabla a nivel de usuario, con independencia del motor utilizado o de la tabla a la que se acceda. La supervisión del estado operativo de las tablas de Iceberg gestionadas externamente en bases de datos vinculadas a catálogos, en vista previa privada, detecta problemas de vigencia y actualización antes de que lleguen a producción. Y la replicación de Iceberg gestionado, próximamente con disponibilidad general, hace que esa misma base abierta sea resiliente ante interrupciones de forma predeterminada. Diseñado para entornos empresariales, sin proyecto de integración.

Los equipos de cumplimiento siempre han tenido que conciliar registros de auditoría entre motores. La auditoría integral en el historial de acceso, en vista previa privada, registra cada operación de motores externos directamente en el historial de acceso de Snowflake y pone fin a esa tarea. Cada evento de acceso se incluye en un único registro defendible: quién accedió a qué, dónde y cuándo. Los arquitectos pueden responder a la auditoría en un solo lugar.

Iceberg Health Insights en Snowsight, en vista previa privada, proporciona a los equipos de plataforma una vista operativa conectada de su entorno de Iceberg gestionado externamente (estado de actualización automática, descubrimiento de tablas y señales de vigencia), sin tener que alternar entre consolas en la nube ni crear una supervisión personalizada. Cuando una base de datos vinculada a un catálogo muestra metadatos obsoletos o un pipeline de actualización se detiene, los equipos lo ven en un solo lugar y lo resuelven antes de que las consultas posteriores devuelvan resultados desactualizados. A medida que esta capacidad avance hacia la disponibilidad general, se extenderá por todo el entorno de Iceberg (tanto gestionado por Snowflake como externo) y aportará la confianza operativa que exigen las arquitecturas lakehouse de producción.

Figure 2: Instantly monitor your external table’s health by diagnosing table linking and refresh issues in a single dashboard.

Figura 2. Supervisa al instante el estado de tu tabla externa al diagnosticar la vinculación de tablas y problemas de actualización en un solo panel.

Figure 3: Troubleshoot your table refresh issues with a single click with Cortex Code or drill down into actionable error details in Snowflake’s Refresh Issues view.

Figura 3. Resuelve los problemas de actualización de tu tabla con un solo clic con Cortex Code o profundiza en los detalles de los errores con la vista Refresh Issues de Snowflake.

La resiliencia debe estar en la base, no en un proyecto independiente. La replicación y conmutación por error de Iceberg gestionado de Snowflake, próximamente con disponibilidad general, amplía la replicación de cuentas y la conmutación por error a las tablas de Iceberg gestionadas por Snowflake, lo que ayuda a los equipos a hacer que su fundamento de datos abierto sea más resiliente frente a interrupciones. La resiliencia se refuerza aún más con Optimized Refresh, una nueva función de replicación para grupos de conmutación por error que ahora está en vista previa pública. Creado sobre el motor de replicación basado en registros de última generación de Snowflake, Optimized Refresh registra los cambios a medida que se producen y aplica solo lo que debe actualizarse. En vista previa, los clientes experimentaron un rendimiento de replicación entre 1,6 y 22 veces más rápido, lo que ayuda a los equipos a reducir las metas de objetivo de punto de recuperación (RPO) para workloads esenciales mientras mantienen costes predecibles en función del volumen de datos replicados.

Con estas capacidades integradas en la plataforma de Snowflake, los equipos pueden realizar la conmutación por error de datos, aplicaciones y pipelines con una fricción operativa mínima y sin rediseñar sus entornos. Eso da a las organizaciones la confianza necesaria para apostar de lleno por Iceberg sin renunciar a la resiliencia operativa que requieren sus workloads esenciales.

Control sobre tus datos

El lakehouse abierto prometía que los datos se moverían menos y rendirían más. Pero, para la mayoría de las empresas, la apertura acababa en el formato de tabla. La gobernanza se fragmentó, la semántica quedó aislada y cada requisito de producción seguía exigiendo un proyecto personalizado. La IA hizo imposible ignorar esta fragmentación de la gobernanza y de la semántica. Los agentes que razonan sobre datos obsoletos y desconectados erosionan la confianza en los propios sistemas que están creando tus equipos.

El lakehouse interoperable aporta lo que el formato por sí solo no podía: interoperabilidad en todas las capas, desde el almacenamiento hasta la gobernanza y la semántica, en una base conectada en la que cada capa refuerza a las demás. ¿Qué significa esto en la práctica? Tu equipo de ingeniería elige el motor adecuado para cada workload sin duplicar datos. Tu equipo de gobernanza define la política una sola vez y esta se aplica en Snowflake, Apache Spark, Trino y otros entornos. Tu entorno de Iceberg es observable, auditable y resiliente sin un proyecto de operaciones independiente. Y tus iniciativas de IA se ejecutan sobre datos gobernados y con riqueza semántica desde el primer día.

Esto es verdadero control sobre tus datos. No es un eslogan: es un principio operativo. Diseña tu arquitectura en torno a lo que requiere tu empresa y exige la IA, no a lo que permite tu proveedor.

La base interoperable ya está aquí.

Construye sobre ella.

Para empezar a recuperar el control sobre tus datos, visita la página sobre el lakehouse interoperable de Snowflake y explora las soluciones de Snowflake. Obtén más información con el ebook gratuito Creación del lakehouse interoperable: estrategias de datos para responsables de IA, o mira el webinar de TDWI, con la participación de James Roland-Jones, Director of Product Management de Snowflake. Después, ponte manos a la obra con este laboratorio virtual, Build a Multi-Engine Stack on Snowflake Storage for Iceberg and Horizon Catalog.

Declaraciones prospectivas

Este contenido contiene declaraciones prospectivas, incluidas las relativas a nuestras futuras ofertas de productos, que no implican un compromiso de entrega de ninguna oferta de producto. Los resultados y las ofertas reales pueden diferir y están sujetos a riesgos e incertidumbres conocidos y desconocidos. Consulta nuestro formulario 10-Q más reciente para obtener más información.

Artículo de

James Rowland-Jones

Director of Product Management

Carlos Nai

Product Marketing Lead, Data Lakes at Snowflake