Data Lake

Prepara tu lakehouse para la IA

Los equipos de ingeniería de datos están sometidos a una presión sin precedentes. Se les ha encomendado crear el fundamento de los datos para la IA generativa y las analíticas avanzadas, pero los estudios muestran un dato asombroso: el 75 % de los proyectos de inteligencia artificial (IA) no llega a producción. ¿Por qué?

El problema no son los modelos de IA, sino los fundamentos de los datos fragmentados en los que se basan.

Hoy en día, el ingeniero de datos a menudo se ve obligado a asumir el papel de bombero, dedicando su valioso tiempo a apagar fuegos y a realizar tareas rutinarias de mantenimiento de su infraestructura, en lugar de innovar. Están constantemente uniendo flujos de datos rígidos y complejos, corrigiendo dependencias rotas y gestionando una infraestructura fragmentada en silos.

Nos complace anunciar la disponibilidad general de capacidades avanzadas de ingeniería de datos para formatos de tablas abiertos en Snowflake, lo que permite a cualquier organización crear un lakehouse unificado, gobernado y de alto rendimiento en la era de la IA.  

Con estas mejoras, eliminamos las decisiones forzadas del pasado entre flexibilidad y simplicidad, apertura y seguridad, y dependencia de un proveedor e interoperabilidad. Explicamos cómo se consigue:

  • Usa bases de datos vinculadas a catálogos (disponibilidad general): Fedéralas con cualquier catálogo REST de Iceberg —incluidos AWS Glue, Databricks Unity y Microsoft OneLake—, todo desde un único entorno de desarrollo de Snowflake para descubrir y acceder automáticamente a datos recientes. Esto cumple la promesa de lakehouse sin ETL, a la vez que ofrece una interoperabilidad y una potencia de procesamiento sin precedentes con el excepcional motor de rendimiento de Snowflake.

  • Escribe en cualquier tabla de Apache Iceberg™ (disponibilidad general): Ahora se admite la ingeniería de datos completa para cualquier tabla de Iceberg, independientemente del catálogo REST de Iceberg. Los usuarios pueden centralizar no solo el descubrimiento, sino también las operaciones de ingesta, transformación y modelado en la plataforma unificada y totalmente gestionada de Snowflake. Como resultado, dedicas más tiempo a innovar y menos a gestionar la infraestructura.

  • Aprovecha la optimización automática de Iceberg: Obtén la flexibilidad de los formatos abiertos sin la sobrecarga operativa. Con Snowflake, ahora puedes optimizar los tamaños de archivo y las particiones (ahora con disponibilidad general) en todo tu ecosistema de Iceberg y así optimizar el rendimiento, independientemente del catálogo o el motor. Además, automatiza fácilmente las operaciones de mantenimiento de tablas (ahora en vista previa privada), como la caducidad de instantáneas, la compactación de archivos y la reescritura de manifiestos, para obtener un rendimiento de consulta superior y una gestión simplificada en todo tu lakehouse.

  • Compartir activos de datos en formatos abiertos (disponibilidad general): El data sharing seguro sin ETL de Snowflake ahora admite tablas tanto de Iceberg como de Delta Lake, al margen del catálogo. Esto significa que puedes compartir formatos de tablas abiertos de forma sencilla y segura entre regiones y nubes, manteniendo las políticas de seguridad y gobernanza para tu cliente de datos.

Estas soluciones permiten aprovechar por completo el conjunto de soluciones de ingeniería de datos y colaboración de Snowflake, desde la ingesta hasta el impacto en el negocio, para ayudar a más organizaciones a vencer la complejidad de los datos y materializar el potencial de IA. 

Vence la complejidad de los datos: el nuevo paradigma de la ingeniería de datos

El cambio hacia un data lakehouse verdaderamente preparado para la IA requiere eliminar tres grandes puntos de fricción que afectan a los equipos de datos modernos: dedicar tiempo a unir arquitecturas de datos rígidas y fragmentadas, corregir flujos rotos y complejos, y gestionar una gobernanza incoherente entre silos.

A continuación te mostramos cómo las nuevas capacidades, con disponibilidad general, de Snowflake y las ya existentes abordan estos problemas para que los equipos de ingeniería de datos puedan centrarse en ofrecer datos fiables para la IA.

Conectar los datos de forma segura, estén donde estén

La promesa del lakehouse reside en su flexibilidad abierta y multiformato, pero esa visión a menudo se ve socavada por la complejidad de gestionar metadatos y catálogos entre distintos equipos, regiones y nubes. Para superar este reto, hacemos realidad la visión de un lakehouse unificado, conectado y gobernado. 

Supera la fragmentación de los datos existentes con bases de datos vinculadas a catálogos y conecta nuevos datos con una mayor rentabilidad económica: 

  • Conecta nuevos datos con una mayor rentabilidad económica: Disfruta de un modelo de precios más sencillo y predecible basado en el volumen de datos, que ha supuesto una reducción de costes de ingesta de más del 50 % para los clientes de las ediciones Business Critical/Virtual Private de Snowflake (se espera que el despliegue completo finalice pronto). Con Snowpipe, junto con Snowpipe Streaming API, puedes incorporar datos con la latencia que elijas o simplemente conectar datos multimodales desde cualquier lugar mediante Snowflake Openflow, un servicio de integración gestionado con poco código.

  • Amplía tu ecosistema de Iceberg: Accede a datos en tablas Delta con Delta Direct y a archivos Parquet con transformaciones sencillas de metadatos para obtener una visión verdaderamente unificada de todo tu patrimonio de datos. 

  • Impulsa datos preparados para la IA: Prepara tus datos para la IA al mantenerlos conectados, actualizados, curados y contextuales. Automatiza la preparación de datos no estructurados o simplemente añade datos listos para consultar procedentes de fuentes externas de confianza con Cortex AI de Snowflake, mediante Document AI, Cortex AISQL y Cortex Knowledge Base.

Esto significa que puedes unificar tu patrimonio de datos fragmentado en una sola plataforma centralizada y gobernada, independientemente de la ubicación o el catálogo, y mantener, al mismo tiempo, la flexibilidad y la capacidad de elección que ofrece el amplio ecosistema de Iceberg.

Optimizar los flujos con una infraestructura totalmente gestionada

El mayor consumo de tiempo para un ingeniero de datos es gestionar manualmente los grafos de dependencias y depurar código procedimental de transformación de datos. Se merecen una forma mejor de crear flujos de datos de baja latencia.

Llevamos la potencia del AI Data Cloud de Snowflake a tus datos en formatos abiertos con funciones diseñadas para eliminar la complejidad de la gestión de flujos:

  • Usa tablas dinámicas para Iceberg: Al aprovechar un marco de SQL declarativo, solo tienes que definir el resultado deseado de tu transformación de datos, y Snowflake gestiona automáticamente la orquestación, la gestión de dependencias, la programación y la actualización incremental. El resultado son flujos totalmente gestionados que liberan horas de desarrollo y ofrecen datos eficientes y estables.

  • Acelera los flujos existentes: Para los equipos que ejecutan extensas bases de código de Spark, Snowpark Connect for Apache Spark™ te permite ejecutar workloads de Spark directamente en el motor de alto rendimiento de Snowflake, lo que a menudo se traduce en mejoras sustanciales en la relación precio-rendimiento. Los clientes observan un rendimiento 5,6 veces más rápido y un ahorro de costes del 41 % con Snowpark frente a su entorno tradicional de Spark.1

  • Hazlo a tu manera: Mantén la flexibilidad para los desarrolladores al usar el lenguaje que prefieras, con compatibilidad con SQL, Python o Java. Automatiza la gestión de objetos en un flujo de integración y desarrollo continuos (CI/CD) con Snowflake CLI, dbt Projects, integración con GIT y otras herramientas que ayudan a tu equipo a crear flujos de producción con una eficiencia óptima.

Gobernar para la IA: ofrecer productos de datos fiables

Los modelos de IA y aprendizaje automático (ML) dependen de datos gobernados y de alta calidad para evitar sesgos y generar resultados fiables. Esto significa que las capacidades de gobernanza, calidad de los datos y descubrimiento deben venir integradas. Esto es especialmente difícil en arquitecturas de lakehouse en las que los datos residen en múltiples regiones, nubes y herramientas. Snowflake Horizon Catalog centraliza la gobernanza para la IA al proporcionar una capacidad de gestión unificada, independientemente de dónde residan tus datos. 

Horizon Catalog te ayuda a crear un fundamento de los datos que sea auditable, seguro y esté listo para tus iniciativas de IA y ML más críticas:

  • Gobernanza centralizada e inteligente con Horizon Catalog: Snowflake Horizon Catalog proporciona una única capa de gobernanza inteligente que aplica políticas en todas las regiones, nubes y objetos de datos, incluidas tus tablas de Iceberg, sea cual sea el catálogo.

  • Acceso a datos aislados: Implementa funciones de seguridad listas para usar, como controles de acceso basados en roles (RBAC) que separan la función de la identidad, controles de acceso granulares (FGAC) y controles de acceso basados en atributos (ABAC), para crear políticas de acceso precisas y en tiempo real. Aísla los datos confidenciales y asegúrate de que solo los usuarios o los modelos de ML autorizados puedan acceder a campos específicos, con independencia del origen.

  • La calidad de los datos como algo innegociable: Aprovecha controles de calidad de los datos personalizables y alertas proactivas (actualmente en vista previa privada) que aíslan los registros erróneos para su corrección. Obtendrás la certeza de que cada producto de datos entregado —ya sea a un panel, a una aplicación o para impulsar un modelo de IA generativa— es coherente y fiable.

Snowflake AI Data Cloud: crea para innovar

El objetivo de la ingeniería de datos moderna es proporcionar el camino más corto desde los datos sin procesar hasta el impacto empresarial. Esta versión con disponibilidad general marca un gran salto adelante para que ese camino sea sencillo, abierto y escalable.

Clientes como Affirm ahora cuentan tanto con la soberanía sobre sus datos como con la simplicidad operativa que necesitan para escalar su fundamento de los datos listo para la IA. Affirm ha reducido los costes mensuales de los flujos de replicación a la sexta parte y ha logrado una mejora de hasta el 66 % en los SLA críticos. Mira su presentación.

Ha llegado el momento de que los ingenieros de datos se quiten de encima la carga del bombero reactivo y asuman su papel como artesanos de datos cualificados. Deja de gestionar infraestructuras y dependencias complejas. Empieza a ofrecer innovación.

¿Todo listo para conquistar la complejidad de los datos?

  1. Mira la solución: Data Engineer Connect: Architect for AI.

  2. Obtén más información: Accede a la página de soluciones para obtener instrucciones detalladas para cada uno de los casos de uso.

  3. Comienza a crear.

Declaraciones prospectivas
Este artículo contiene declaraciones prospectivas, incluidas las relativas a nuestras futuras ofertas de productos, que no implican que nos comprometamos a proporcionar ninguna oferta de producto. Los resultados y las ofertas reales pueden diferir y están sujetos a riesgos e incertidumbres conocidos y desconocidos. Consulta nuestro formulario 10-Q más reciente para obtener más información.


1Basado en casos de uso de producción de clientes y en pruebas de concepto (POC) que comparaban la velocidad y el coste de Snowpark con los servicios gestionados de Spark entre noviembre de 2022 y mayo de 2025. Las conclusiones sintetizan los resultados de los clientes con datos reales y no representan los conjuntos de datos fabricados utilizados para pruebas de rendimiento.

Artículo de
Compartir artículo

Subscribe to our blog newsletter

Get the best, coolest and latest delivered to your inbox each week

Where Data Does More

  • Prueba gratuita de 30 días
  • No se requiere tarjeta de crédito
  • Cancela en cualquier momento