JUN 03, 2026/8 min de lecturaProducto y tecnología

Simplificar el ciclo de vida del desarrollo de datos

Cuando la mayoría de los datos empresariales llegan a los sistemas que deben actuar sobre ellos, a menudo ya están obsoletos. Ese retraso es lo que determina que los agentes de IA generen una respuesta útil o cometan un error costoso. Los agentes de IA solo pueden ofrecer decisiones inteligentes cuando tienen acceso continuo a información actualizada.

La demanda sobre los equipos de ingeniería de datos se ha orientado hacia pipelines en tiempo real y arquitecturas basadas en eventos a medida que más organizaciones llevan los agentes de IA a producción; esto pone de relieve la necesidad de conectar y gobernar más fuentes incluso mientras cambian constantemente. Pero lo que se pide a los equipos que desarrollen ha superado lo que su plataforma de datos puede admitir actualmente.

En Summit 2026, Snowflake refuerza la plataforma para ayudar a los equipos de ingeniería de datos a tener éxito en la era de la inteligencia artificial (IA). Esto incluye lanzamientos destacados, como un servicio de transmisión nativo compatible con Apache Kafka y funcionalidades basadas en IA que reducen el movimiento de datos y los costes de migración.

Estas mejoras reducen el tiempo que los ingenieros de datos dedican a la gestión de la infraestructura y a la orquestación manual, lo que les permite dedicar menos tiempo en tareas de fontanería y más a los resultados de la IA con Snowflake CoCo como hilo conductor que convierte una configuración compleja en una conversación guiada.

Transmite datos a la velocidad que exige la IA

Los agentes de IA observan, deciden, actúan, aprenden e incorporan ese aprendizaje a la siguiente decisión. Cada bucle de decisión debería hacer que la siguiente respuesta sea más precisa, más personalizada y más práctica. Ese ciclo se ejecuta de forma continua, lo que significa que los datos que lo alimentan también deben fluir continuamente. Las organizaciones que utilizan Kafka ya cuentan con la columna vertebral de transmisión que exige este ciclo. El problema es que operarlo junto con una plataforma de analíticas independiente implica pagar y gobernar dos sistemas separados, y dotarlos de personal, mientras que los datos siguen llegando tarde al lugar donde realmente se toman las decisiones.

Datastream (próximamente en vista previa privada) es el servicio de transmisión nativo y compatible con Apache Kafka de Snowflake, diseñado para concentrar esa sobrecarga operativa en una única plataforma gobernada. Los datos llegan de forma continua como tablas nativas de Snowflake o tablas abiertas de Apache Iceberg™, consultables en cuestión de segundos. Los temas se protegen con el control de acceso basado en roles (RBAC) de Snowflake, y las tablas heredan toda la potencia de Horizon Catalog, incluidas la clasificación, el linaje y las políticas de enmascaramiento. Los datos se gobiernan desde el momento en que llegan. Solo tienes que describir el pipeline de transmisión que necesitas, y CoCo gestionará la autenticación de Datastream y hará que los equipos estén operativos en cuestión de minutos sin necesidad de conocimientos profundos de Kafka.

Datastream está diseñado específicamente para organizaciones que quieren sustituir su infraestructura de Kafka por un servicio nativo de Snowflake. La arquitectura de alto rendimiento de Snowpipe Streaming es una API de ingesta directa para equipos que transmiten datos desde sus propias aplicaciones, incluidos los clústeres de Kafka existentes mediante Kafka Connector. Hoy, Cboe Global Markets, operador de mercados bursátiles financieros, procesa 190 000 millones de filas de datos de mercado al día y se consultan en menos de 30 segundos para ofrecer a agentes de bolsa y analistas visibilidad en tiempo real de la actividad del mercado. En Summit, las mejoras de Snowpipe Streaming incluyen:

Kafka Connector 4.0 (disponibilidad general) ofrece ingesta de servidor de hasta 10 GB/s por tabla y reduce los recursos de cliente hasta un 30 %¹, de modo que los equipos pueden escalar la capacidad de procesamiento sin sacrificar costes.
Registro de errores (disponibilidad general) captura las filas fallidas en una tabla consultable mediante SQL con todo el contexto, de modo que los equipos detectan problemas de calidad de los datos antes de que los agentes actúen con entradas incorrectas.
Con compatibilidad con SDK multilenguaje (disponibilidad general), los equipos transmiten datos de transmisión desde su pila habitual, que incluye Java, Python, Node.js y una interfaz REST.
Elastic Channels (vista previa privada) permite que miles de clientes envíen simultáneamente por transmisión gigabytes por segundo a una tabla a través de un punto de conexión compartido y con escalado automático, lo que reduce el tiempo de desarrollo necesario para crear y escalar pipelines de transmisión.
Durable Acknowledgments (vista previa privada) elimina la ventana de posible pérdida de datos entre la ingesta y la confirmación. Los pipelines esenciales nunca proporcionan datos incompletos a los agentes.

Pipelines que se autogestionan

Llevar datos a Snowflake en tiempo real es solo la mitad del trabajo. La otra mitad consiste en convertir ese flujo sin procesar en algo que analistas, modelos y agentes puedan consumir realmente. Esa capa de transformación debe ejecutarse de forma continua, gestionar sus propios reintentos y la lógica de actualización, y seguir siendo fiable sin que un ingeniero dedicado tenga que supervisarla constantemente. Los equipos avanzan más rápido cuando los pipelines se autogestionan.

En Summit, Sergey Labetsik, de Wind Creek Hospitality, demostró cómo migrar una tarea por lotes de dbt (que antes se ejecutaba con una programación de 30 minutos) a un pipeline de tablas dinámicas redujo la latencia integral a menos de un minuto y permitió entregar vales de comida a los huéspedes en el momento en que los ganaban.

Y esta vía declarativa se ha vuelto más rápida y flexible. Las mejoras de rendimiento (disponibilidad general) ofrecen una actualización hasta 2,8 veces más rápida para workloads comunes de tablas dinámicas². La incrementalización personalizada (vista previa pública) permite a los ingenieros usar sentencias MERGE o INSERT para transformaciones que no pueden expresarse de forma declarativa, al tiempo que conservan toda la automatización de las tablas dinámicas.

Figure 2: Up to 2.8x faster refresh performance for Dynamic Tables with improvements to how Snowflake works with aggregate functions, qualify rank (SCD-1), cluster-by, joins and more.

DCM Projects (vista previa pública) ofrece a los equipos un flujo de trabajo único y controlado para definir infraestructura de forma declarativa, previsualizar e implementar cambios entre entornos, y conservar un registro de auditoría completo de cada implementación. dbt Projects en Snowflake, ahora aún más rápido con compatibilidad con Fusion (disponibilidad general), amplía esa misma filosofía a los usuarios de dbt.

Las skills de CoCo para Snowpipe Streaming, las tablas dinámicas y dbt Projects aceleran la configuración y la resolución de problemas en estos flujos de trabajo, lo que permite a los ingenieros centrarse en la lógica de los pipelines en lugar de en el código repetitivo.

Accede a los datos empresariales con semántica empresarial, sin moverlos

Algunos de los datos de mayor valor de cualquier organización no necesitan moverse en absoluto. Ya residen en plataformas empresariales clave como SAP, Salesforce y Workday, con el significado de negocio, las relaciones y los modelos semánticos ya integrados. Para los directivos que intentan llevar iniciativas de IA a producción, ese coste de reconstrucción suele ser el principal obstáculo.

En lugar de replicar los datos, las integraciones de copia cero exponen la inteligencia del sistema de origen directamente en Snowflake: gobernada, lista para consultas y con la riqueza semántica que los workloads de IA necesitan para funcionar de forma fiable. Los modelos y agentes operan con datos que conservan su contexto empresarial original, en lugar de réplicas de tablas simplificadas.

SAP ya cuenta con disponibilidad general a través de SAP BDC Connect for Snowflake, que ofrece una integración bidireccional y de copia cero. Los ingenieros de datos acceden a datos de SAP ERP para IA, analíticas e ingeniería de datos sin procesos de extracción, transformación y carga (ETL) complejos, mientras que la información enriquecida vuelve a SAP para activar acciones automatizadas. Salesforce Data 360, pionero en la integración nativa de copia cero con Snowflake, ofrece una experiencia de conector mejorada que permite a los clientes compartir datos de forma bidireccional sin mantenimiento de pipelines. Workday entra en vista previa privada y expone datos de personal y finanzas como tablas de Iceberg gestionadas externamente con captura incremental de cambios en la capa de almacenamiento.

En los tres casos, la arquitectura es coherente: los datos residen en el sistema de origen, se exponen en Snowflake a través de bases de datos vinculadas a catálogos y heredan todo el perímetro de gobernanza de Horizon. El linaje integral, las políticas de acceso y los registros de auditoría se aplican desde el momento en que los datos pasan a estar visibles. Además, las skills de CoCo gestionan el ciclo de vida para que los equipos configuren y mantengan conexiones mediante prompts en lenguaje natural, lo que pone la integración de datos empresariales al alcance de cualquier usuario de Snowflake.

Conecta el resto con Snowflake Openflow

El enfoque de copia cero funciona para plataformas empresariales que han invertido en rutas de integración nativa. Pero muchos datos esenciales siguen residiendo en bases de datos de procesamiento de transacciones en línea (OLTP) on‑premise, aplicaciones SaaS y sistemas heredados que nunca se diseñaron para compartir datos.

Desde su lanzamiento el año pasado, Openflow, el servicio gestionado de integración de datos de Snowflake, basado en Apache NiFi, ha registrado una adopción creciente entre los clientes a medida que los equipos consolidan pilas de conectores fragmentados en una única plataforma. Ese impulso está llevando a una ampliación significativa del alcance en Summit.

La implementación gestionada de Snowflake cuenta ahora con disponibilidad general en Google Cloud Platform y se suma a Amazon Web Services (AWS) y Azure. El Data Connectivity Proxy (con disponibilidad general próximamente en AWS) amplía Openflow a redes privadas y conecta fuentes a las que antes solo se podía acceder con trabajo de ingeniería a medida. Openflow admite datos estructurados y no estructurados, procesamiento por lotes y transmisión, y sigue siendo abierto y extensible. Los equipos crean conectores personalizados y los ejecutan en la plataforma gestionada de Snowflake sin sacrificar el control.

Un asistente de configuración guiada en Snowsight te guía paso a paso por la instalación del conector con validación integrada de la conectividad de origen, lo que facilita pasar de la configuración a la ingesta de datos en cuestión de minutos. Cuando los conectores muestran errores, la resolución de problemas asistida por IA, con tecnología de CoCo e integrada directamente en Connector Monitoring Dashboard, analiza los registros y ofrece pasos de corrección específicos en toda la biblioteca en expansión de Openflow, incluidos conectores muy demandados recién añadidos como Veeva, BigQuery y MongoDB (todos en vista previa pública). Estos conectores utilizan la capacidad de personalización asistida por IA para acelerar la implementación y proporcionar una visibilidad más profunda de datos sectoriales especializados.

Crea e implementa a escala con Snowpark

No todas las transformaciones encajan en un modelo declarativo. Para los ingenieros y científicos de datos que desarrollan de forma programática con Python, Java, Scala y Apache Spark™, las transformaciones implican análisis de archivos complejos, inferencia de aprendizaje automático (ML) por lotes a escala y flujos de trabajo de Python de varios pasos. El desafío es que la implementación en producción puede llevar más tiempo que escribir el propio código. Snowpark reduce esa distancia entre prototipo y producción.

Entre los lanzamientos clave de Summit se incluyen la inferencia por lotes de ML optimizada (vista previa pública) para una puntuación a escala más rápida y eficiente; las API de integración de datos de Snowpark ampliadas con compatibilidad con JDBC (vista previa pública) para reducir el trabajo necesario para llevar datos externos a Snowflake; File transform para Apache Spark (próximamente en vista previa pública) para ETL de archivos grandes y complejos; Snowpark Directory Import (disponibilidad general) para una implementación más sencilla de proyectos de Python con varios archivos; un generador visual de pipelines DAG para orquestar Notebooks y ML Jobs (vista previa privada); y Code Bundles para implementar código de Python y Java en producción (próximamente en vista previa pública).

Las skills de CoCo para Snowpark Python y Apache Spark reducen aún más la fricción que supone implementar y migrar estos pipelines programáticos, y ayudan a los equipos a pasar de código local de Python o Apache Spark a flujos de trabajo listos para producción con un rendimiento 5,1 veces más rápido y costes un 42 % más bajos³.

Define tu objetivo: Snowflake AIM se encarga del resto

No hay nada que ralentice tanto a un equipo de datos como el peso de lo heredado. Herramientas de ETL heredadas, dialectos SQL obsoletos, esquemas de Oracle anteriores al equipo de ingeniería actual: los proyectos de migración tienen una merecida fama de alargarse, superar el presupuesto e introducir riesgos en workloads que funcionaban bien hasta que dejaron de hacerlo. Muchas organizaciones acaban manteniendo la pila tecnológica antigua en paralelo con la nueva, lo que duplica tanto el coste como el esfuerzo de gestión durante meses, si no años.

Snowflake AIM (migración basada en IA), que ahora cuenta con disponibilidad general, es una plataforma unificada de migración, modernización y virtualización que combina propiedad intelectual de SnowConvert AI, Snowpark Migration Accelerator y Datometry. Un agente de migración de Snowflake AIM, disponible a través de Snowflake CoCo, guía a los equipos por el recorrido integral: ofrece una visión clara y que tiene en cuenta las dependencias de qué debe moverse, en qué orden y con qué niveles de riesgo, antes de que nadie toque producción. Procesos que antes llevaban semanas o meses ahora se completan en una fracción del tiempo.

El ingeniero de datos como arquitecto de resultados

El patrón en todos los anuncios es el mismo: reducir el tiempo que los ingenieros dedican a mantener los sistemas en funcionamiento para que puedan dedicar más tiempo a los resultados que importan. Las tareas que antes consumían ciclos de ingeniería, desde el mantenimiento de conectores hasta la depuración de pipelines, son cada vez más rápidas y sencillas de gestionar con cada versión, y CoCo es el nexo de unión.

En ese entorno, el papel del ingeniero de datos no hace sino crecer. El trabajo pasa a centrarse menos en la fontanería y más en diseñar la infraestructura de datos sobre la que realmente se ejecuta la IA. Snowflake mantiene su compromiso de hacer invisible la complejidad para que los equipos de datos puedan centrarse en lo que ahora hacen posible.

Los clientes informan de una reducción de hasta el 30 % en los costes de recursos en el cliente al usar la arquitectura de alto rendimiento de Snowpipe Streaming. Más información aquí: Escalado de Streaming en Snowflake: presentamos la arquitectura de Snowpipe Streaming de nueva generación
Mejoras en el rendimiento de Snowflake basadas en un workload interno de transformación medido el 4 de mayo de 2025 con Standard Warehouse y el 4 de mayo de 2026 con Gen2.
Basado en casos de uso de producción de clientes y en ejercicios de prueba de concepto que comparaban la velocidad y el coste de Snowpark con los servicios gestionados de Spark entre noviembre de 2022 y mayo de 2025. Las conclusiones sintetizan los resultados de los clientes con datos reales y no representan los conjuntos de datos utilizados para pruebas de rendimiento.

Artículo de

Simplificar el ciclo de vida del desarrollo de datos

Transmite datos a la velocidad que exige la IA

Pipelines que se autogestionan

Accede a los datos empresariales con semántica empresarial, sin moverlos

Conecta el resto con Snowflake Openflow

Crea e implementa a escala con Snowpark

Define tu objetivo: Snowflake AIM se encarga del resto

El ingeniero de datos como arquitecto de resultados

Artículo de

Maria Ho

Saptarshi (Sap) Mukherjee

Lauren Delgado

Subscribe to our blog newsletterGet the best, coolest and latest delivered to your inbox each week

Subscribe to our blog newsletter
Get the best, coolest and latest delivered to your inbox each week