“Queríamos pasarnos a Snowpark para mejorar el rendimiento y fue muy fácil hacerlo. Solo tuvimos que hacer un cambio en una sentencia import para convertir nuestro código de PySpark en Snowpark”.
Principal Data Engineer
Homegenius
Utiliza Python u otro lenguaje para los datos gobernados en Snowflake.
Una escalabilidad elástica que no necesita mantenimiento ni conlleva gastos adicionales.
Una gobernanza y una seguridad constantes y de categoría empresarial.
Escribe consultas y transforma datos mediante DataFrames, cuya estructura se asemeja a la de Spark o a la de una versión escalable de pandas (vista previa pública)
Con esta biblioteca de Python, podrás acceder a API unificadas para el desarrollo y las operaciones de modelos y funciones a lo largo de todo el ciclo de vida del aprendizaje automático (machine learning, ML) en Snowflake ML.
Escribe y ejecuta código personalizado en Python, Java y Scala con funciones definidas por el usuario (user-defined functions, UDF) y procedimientos almacenados. Utiliza los paquetes integrados del repositorio de Anaconda.
Registra, implementa y ejecuta imágenes de contenedores (vista previa pública) en la infraestructura gestionada de Snowflake.
Utiliza Python para transformar datos sin procesar en formatos modelados para flujos de datos
De media, los clientes observan un rendimiento 4,6 veces más rápido y un ahorro de costes del 35 % con Snowpark en comparación con las soluciones gestionadas de Spark.1
Transformaciones de datos conectados a tu data lake, tu almacén de datos o tus Iceberg Tables en Snowflake.
Crea y operacionaliza los flujos de ML con Snowpark ML
Utiliza marcos de Python, como Scikit-learn y XGBoost, para el preprocesamiento, la ingeniería de funciones y el entrenamiento de modelos que pueden implementarse y gestionarse en Snowflake ML sin necesidad de mover datos.
Crea modelos de ML, y large language models (LLM) con inteligencia artificial (IA) generativa usando cualquier lenguaje de programación, guárdalos como imágenes de contenedores e impleméntalos en CPU y GPU configurables para disfrutar de una gran flexibilidad de desarrollo.
*A fecha de abril de 2024
“Poder ejecutar tareas de ciencia de datos, como la ingeniería de funciones, directamente donde se encuentran los datos es increíble. Ahora, nuestro trabajo es mucho más eficiente y agradable”.
Data Science Lead
EDF
1Basado en casos de uso de producción de clientes y en ejercicios de prueba de concepto (proof-of-concept, POC) que comparan la velocidad y el coste de Snowpark con los servicios gestionados de Spark entre noviembre de 2022 y junio de 2024. Las conclusiones sintetizan los resultados de los clientes con datos reales y no representan los conjuntos de datos utilizados para las comparativas.