Data engineering

Soutenir le data engineering aujourd’hui pour les défis de demain

Le data engineering n’a jamais été aussi vital qu’aujourd’hui. Face aux progrès de l’IA, des analyses avancées et des applications basées sur les données, les data engineers sont devenus indispensables pour leurs entreprises à mesure qu’elles se préparent à exploiter ces technologies. Ces héros jusque-là méconnus se retrouvent aujourd’hui sous les feux des projecteurs, construisant les pipelines de données stratégiques qui permettront à leurs entreprises d’assurer leur réussite future. Cependant, cette opportunité ne va pas sans difficultés. Les tech stacks fragmentées, les goulots d’étranglement des performances et le prix élevé des talents spécialisés sont devenus la norme, entravant l’innovation, faisant grimper les coûts cachés et ralentissant les progrès.

Chez Snowflake, nous pensons qu’il existe une meilleure solution. Nous nous engageons à fournir aux data engineers les outils et la plateforme nécessaires pour naviguer dans les complexités du paysage moderne des données, qu’il s’agisse de rationaliser le processus de création de pipelines de données ou d’unifier les données non structurées et structurées au sein d’une même infrastructure. Nous voulons que nos clients aient confiance en leur capacité à mener la charge, grâce à des innovations qui rationalisent les processus, favorisent la collaboration et libèrent le véritable potentiel des données. Cela implique de réduire le temps consacré à des réglages fastidieux et les tâches de maintenance banales qu’impliquent des systèmes de data engineering obsolètes ; au lieu de cela, les data engineers peuvent travailler en toute liberté pour découvrir de nouveaux cas d’usage et explorer le territoire inexploré à venir. 

Notre vision de l’avenir du data engineering simplifie la complexité, démocratise les informations et est plus connectée que jamais. Vos données en font plus, pour vous.

Aujourd’hui, nous sommes ravis d’annoncer une liste de nouvelles fonctionnalités et de mises à jour produit conçues pour cet avenir. Dans cet article de blog, nous allons détailler ces fonctionnalités et la valeur qu’elles offrent, pour créer des pipelines de données efficaces, accélérer vos initiatives de lakehouse ouvert et intégrer l’IA et les données non structurées à vos flux de travail avec une facilité surprenante. Avec Snowflake, vous pouvez vous concentrer sur la création de valeur et l’innovation, en abandonnant la complexité de l’infrastructure de données. 

Les dernières innovations de Snowflake pour le data engineering

Openflow : révolutionner le mouvement des données

Snowflake Openflow est un service d’intégration de données multimodales ouvert, extensible et géré qui facilite le déplacement des données entre les sources et destinations de données. En prenant en charge tous les types de données, y compris structurées et non structurées, batch et streaming, Openflow révolutionne le mouvement des données directement dans Snowflake, clé pour permettre un traitement ETL (Extract, Transform, Load) transparent pour l’IA. Toutes les intégrations de données sont unifiées dans une seule plateforme, avec une extensibilité et une interopérabilité illimitées pour se connecter à n’importe quelle source de données. Facilitant n’importe quelle architecture de données, Openflow permet aux entreprises d’adapter en toute confiance leurs besoins d’intégration avec une fiabilité et une gouvernance d’entreprise. Des centaines de connecteurs et de processeurs prêts à l’emploi simplifient et accélèrent rapidement l’intégration des données à partir d’un large éventail de sources de données, y compris les connecteurs issus de partenariats stratégiques. Par exemple, Snowflake travaille en partenariat avec Oracle sur une solution hautes performances, évolutive et rentable pour répliquer Change Data Capture (CDC) des bases de données Oracle vers Snowflake. 

Snowflake Open Flow diagram - Data Eng.jpg

Avec Snowflake Openflow, vous pouvez :

  • Libérer le mouvement des données avec n’importe quel connecteur de votre entreprise.

  • Débloquer des pipelines ETL pour permettre aux agents d’IA de prendre des décisions à la vitesse des machines.

  • Créer une intégration évolutive prête pour l'entreprise avec un déploiement flexible, l'observabilité des données et la gouvernance.

dbt Projects on Snowflake

Éléments de base de toute stratégie data efficace, les transformations sont essentielles pour construire des pipelines de données robustes et évolutifs. Aujourd’hui, nous sommes impatients d’annoncer une autre avancée produit intéressante pour créer et orchestrer des pipelines de données : dbt Projects on Snowflake (bientôt en public preview). 

Favori des équipes data, dbt offre la possibilité d’intégrer les meilleures pratiques d’ingénierie logicielle et une efficacité accrue dans les flux de transformation des données SQL et Snowpark directement dans Snowflake. Grâce à cette nouvelle option native, les équipes data peuvent désormais créer, exécuter et surveiller des projets dbt directement dans Snowsight, ce qui réduit la commutation de contexte, simplifie la configuration et accélère le cycle de développement des pipelines de données. 

Avec la prise en charge de dbt Projects, vous pouvez :

  • Permettre à de nouvelles équipes de construire et déployer des pipelines avec une gouvernance uniforme : accélérez l’intégration et donnez aux nouvelles équipes les moyens de créer les pipelines dont elles ont besoin grâce à une interface intuitive avec un modèle de gouvernance et de sécurité uniforme pour les données et les pipelines.

  • Consolider les systèmes pour réduire l’administration et améliorer le débogage : exécutez dbt nativement sur Snowflake et rationalisez le cycle de développement de pipelines pour améliorer la productivité des développeurs et repérer et résoudre rapidement les problèmes.

Ces fonctionnalités ne sont qu’un début ; d’autres mises à jour intéressantes pour rationaliser et améliorer davantage vos flux de travail sont à venir prochainement.

Améliorations des pipelines SQL et Python

Grâce aux récentes améliorations apportées à certaines de nos fonctionnalités les plus populaires, nous simplifions les flux de travail complexes dans tout le paysage du data engineering, ce qui a un impact sur tout, des flux de travail collaboratifs SQL aux pipelines Python complexes. Ces améliorations visent à rationaliser les processus et à accroître l’efficacité des data engineers travaillant avec divers outils et technologies.

Les Dynamic Tables offre un environnement déclaratif pour les pipelines batch et streaming, ce qui simplifie la configuration grâce à l’orchestration automatique et au traitement continu. Parmi les mises à jour notables figurent la prise en charge complète d’Apache Iceberg, une latence réduite pour les pipelines en temps quasi réel (environ 15 secondes, en private preview) et des améliorations de performances pour diverses opérations SQL. En outre, les nouvelles extensions SQL (bientôt disponibles pour tous nos clients) permettent de mieux contrôler la sémantique des pipelines en empêchant les mises à jour ou les suppressions et en activant le remplissage des données.

Une autre nouvelle mise à jour, Pandas sur Snowflake avec exécution hybride (private preview), prend en charge les pipelines pandas à toutes les échelles de données. Cette fonctionnalité exécute intelligemment les requêtes soit en poussant vers Snowflake pour les jeux de données volumineux, soit localement avec des pandas standard pour les plus petits, ce qui permet des performances cohérentes et efficaces tout au long du cycle de développement.

Lakehouse ouvert

Éliminez la fragmentation des données et accélérez votre délai d’analyse et d’IA grâce à la prise en charge complète par Snowflake des tables Apache Iceberg™. Aujourd’hui, les data engineers peuvent redéfinir en profondeur leur façon de construire des lakehouses ouverts et connectés. En centralisant et en activant automatiquement la quasi-totalité de votre écosystème Iceberg, nous simplifions votre cycle de vie des données, éliminant ainsi le besoin de processus complexes pour la découverte et l’accès aux données. Grâce à la prise en charge continue de la transformation des fichiers Parquet en Iceberg Tables et aux nouvelles optimisations disponibles pour la taille des fichiers et les partitions, votre lakehouse ouvert incorpore davantage vos données tout en augmentant les performances.

Grâce aux capacités croissantes de lakehouse de Snowflake, vous pouvez :

  • Découvrir et activer des données où que vous soyez : créez une vue connectée unique de votre lakehouse ouvert en intégrant Snowflake Open Catalog, ou tout autre catalogue Iceberg compatible REST, à Snowflake avec Catalog Linked Databases (bientôt en public preview). Découvrez, rafraîchissez et activez automatiquement les tables sous-jacentes grâce au moteur de calcul unifié et rentable de l’AI Data Cloud Snowflake.

  • Vous transformer grâce à une gouvernance unifiée et bénéficier de performances optimales : grâce à la prise en charge récemment lancée de l’écriture sur les Iceberg Tables gérées en externe, bientôt en public preview, effectuez une transformation transparente des données dans votre écosystème Iceberg au sein de Snowflake, et profitez d’une gouvernance et d’une sécurité complètes intégrées basées sur Snowflake Horizon Catalog. Prenez le contrôle des performances avec Snowflake en définissant les tailles de fichiers et partitions sur presque toutes les Iceberg Tables, qui seront bientôt mises à disposition en public preview. Exploitez les optimisations de tables (bientôt en public preview) pour automatiser la collecte des déchets, le compactage et plus encore. Passez moins de temps à gérer l’infrastructure et plus de temps à produire de l’impact.

  • Créer des pipelines déclaratifs pour les Iceberg Tables : simplifiez vos pipelines avec Dynamic Iceberg Tables, une solution d’orchestration entièrement gérée qui transforme en continu et de manière incrémentielle vos données stockées dans les Iceberg Tables tout en maintenant une interopérabilité totale. La prise en charge des Iceberg Tables gérées par Snowflake est désormais disponible pour tous nos clients, et la prise en charge des Iceberg Tables gérées en externe le sera bientôt.

  • Proposer des analyses avancées sur davantage de données : libérez la valeur de vos données semi-structurées grâce à la prise en charge de VARIANT, désormais dans les Iceberg Tables. Intégrez en toute transparence les types de données géospatiales et géométriques, bientôt en private preview, pour obtenir des informations plus approfondies et sensibles à la localisation. La prise en charge de Merge on Read, maintenant en private preview, signifie que vous pouvez désormais activer une plus grande partie de votre écosystème Iceberg dans Snowflake.

  • Accéder aux données Delta Lake sous forme de Iceberg Tables sans migration de données : rassemblez davantage de vos données dans votre lakehouse ouvert et connecté en convertissant les métadonnées des tables Delta en Iceberg Tables sans ingestion ni déplacement des fichiers Parquet sous-jacents. 

Intégration renforcée et sécurité professionnelle pour Open Catalog

Exploitez tout le potentiel de vos Iceberg Tables dans Snowflake et profitez d'une sécurité et d'une gouvernance complètes. En synchronisant automatiquement vos Iceberg Tables gérées par Open Catalog, vous bénéficiez d’un accès unifié en lecture/écriture et d’une gouvernance cohérente et intégrée basée sur Horizon Catalog, le tout au sein de l’environnement Snowflake. Profitez d'une séparation claire de la gouvernance, Horizon gérant les requêtes Snowflake et Open Catalog gérant l'accès multimoteur externe, éliminant toute ambiguïté pour votre position de sécurité. De plus, les fonctionnalités de sécurité de niveau professionnel sont désormais disponibles dans Open Catalog, fournissant un accès sécurisé des utilisateurs et des connexions de données privées pour le catalogue de pointe sécurisé, interopérable et indépendant des fournisseurs.

Grâce aux améliorations apportées à Open Catalog de Snowflake, les utilisateurs peuvent :

  • Permettre l’accès sécurisé des utilisateurs professionnels : profitez d'un accès transparent à l'interface utilisateur par le biais de l'authentification unique (SSO) avec SAML 2.0 et permettez une intégration programmatique sécurisée entre les moteurs et les services via OAuth avec votre fournisseur d'identité préféré ou la solution native d'authentification par paire de clés de Snowflake.

  • Activer une connectivité privée bidirectionnelle pour l’accès aux métadonnées : exploitez Private Link, un framework de sécurité unifié, pour établir des connexions protégées entre vos données, Snowflake, vos moteurs, vos outils et Snowflake Open Catalog, afin de garantir que vos données restent privées et conformes tout au long de leur cycle de vie. 

  • Accéder à tout votre écosystème Iceberg : accédez en toute transparence à pratiquement toutes vos Iceberg Tables avec Catalog Federation in Apache Polaris (incubation). En créant une vue unique de tous les catalogues liés, Federation rationalise la découverte de données et permet l’activation sur n’importe quel moteur prenant en charge les intégrations de catalogue Iceberg REST. Federation arrive bientôt sur Open Catalog en private preview.

  • Simplifier la gestion de vos tables Delta : centralisez les tables Iceberg et Delta sur Snowflake Open Catalog. Créez, mettez à jour, supprimez et gouvernez l'accès aux tables Delta et Iceberg à partir d'un point central. Découvrez automatiquement les deux formats dans Snowflake, vous permettant d’interroger les tables Delta, offrant ainsi une visibilité et un contrôle unifiés sur les ressources de votre lakehouse. Delta Tables in Open Catalog, un service géré pour Apache Polaris (en incubation), arrive bientôt en private preview.

Expérience DevOps moderne

Accélérez l’impact grâce aux améliorations de productivité pour les développeurs qui vous permettent de vous concentrer sur les travaux à forte valeur ajoutée au lieu de simplement garder la lumière allumée. La fonctionnalité DevOps dans Snowflake vous permet de rationaliser et d’automatiser le cycle de développement logiciel de vos environnements Snowflake en mettant l’accent sur les meilleures pratiques en matière de CI/CD, de développement de code et de gestion de l’infrastructure. Associée aux outils DevOps modernes et à la prise en charge de l’IA dans Snowflake, vous bénéficiez d’une intégration fluide entre les tâches de développement et les tâches opérationnelles, ce qui se traduit par un flux de travail plus productif et plus efficace.

Conformément à notre engagement à améliorer continuellement votre expérience DevOps avec Snowflake, nous annonçons de nouvelles mises à jour.

  • Snowflake Workspaces : fournit une interface utilisateur moderne pour toutes les tâches de développement Snowflake. À partir de la prise en charge de dbt Projects et de SQL, les développeurs seront en mesure d’utiliser un IDE commun unique avec des fonctionnalités de développement riches, y compris l’intégration native de Git, la différenciation visuelle côte à côte et l’assistance au codage AI Copilot en ligne, lors de l’utilisation de fichiers dans Snowflake. La prise en charge d’objets supplémentaires sera fournie à l'avenir.

  • Gestion de l’infrastructure Snowflake avec Terraform : le fournisseur Snowflake Terraform offre un flux de travail cohérent pour la gestion des ressources Snowflake (entrepôts, bases de données, schémas, tables, rôles, privilèges, etc.) à l’aide de HashiCorp Terraform pour gérer votre infrastructure en tant que code (IaC).

  • Plus de façons de vous connecter à votre référentiel Git : désormais, vous pouvez utiliser des URL personnalisées pour vous connecter à votre référentiel Git (au lieu de vous limiter uniquement aux référentiels appartenant à des domaines bien connus), vous offrant ainsi plus de flexibilité dans la façon dont vous configurez votre environnement Git. 

  • Prise en charge de Python 3.9 : vous pouvez désormais utiliser Python 3.9 avec vos notebooks Snowflake Warehouse.

L’avenir est maintenant

Les dernières innovations de Snowflake sont conçues pour relever de front les plus grands défis du data engineering. Découvrons comment ces avancées peuvent révolutionner votre stratégie data.

Construisez de meilleurs pipelines

Le data engineering moderne prospère grâce à une collaboration et une évolutivité rationalisées. En développant nos capacités natives d’ingestion et de transformation avec des fonctionnalités telles qu’Openflow et dbt Projects, nous permettons à vos équipes de travailler ensemble en toute transparence dans l’environnement sécurisé de Snowflake. Nous prenons également en charge la flexibilité des normes ouvertes et des logiciels open source (OSS) populaires comme dbt et Iceberg, en les intégrant facilement dans vos flux de travail existants.

Libérez votre équipe de la charge de gérer une infrastructure complexe et concentrez-vous plutôt sur des tâches à forte valeur ajoutée. Nos transformations sans serveur et nos options d’orchestration éliminent la nécessité d’héberger et de gérer des clusters de calcul, le tout en offrant des performances exceptionnelles. Et pour couronner le tout, l’automatisation est au cœur de notre plateforme, rationalisant votre cycle de développement grâce au processus CI/CD, à l’automatisation du déploiement et à une solide gestion de l’infrastructure.

Accélérez votre lakehouse ouvert

Votre lakehouse ouvert doit fonctionner comme une machine bien huilée, capable de gérer tous vos formats de données de manière fluide, quel que soit l'endroit où elles sont stockées. Snowflake vous permet de connecter, transformer et activer facilement toutes vos données. La sécurité et la gouvernance sont primordiales : notre plateforme offre une protection robuste des données, des contrôles d'accès granulaires et des pratiques de gouvernance complètes, y compris le masquage des données et l'accès aux audits. Avec Snowflake, vous pouvez maintenir en toute confiance la qualité, la précision et la fiabilité des données dans l’ensemble de votre écosystème de données. Nous nous engageons à promouvoir un environnement de données qui favorise l'innovation et la productivité grâce à des outils et des normes optimisés, tout en nous assurant que votre architecture peut évoluer facilement à mesure que votre entreprise évolue.

Exploitez vos données pour l’IA

Libérez la puissance de l’IA grâce à la capacité de Snowflake à unifier vos données non structurées, semi-structurées et structurées. Combinez en toute transparence du texte, des documents, des images et d’autres formats de données non structurées avec vos données structurées existantes, créant ainsi une base complète pour les modèles d’IA. Exploitez des fonctionnalités comme Openflow (conçu avec des processeurs Snowflake Cortex AI disponibles) et Document AI pour exploiter la puissance des LLM et de l’IA directement dans votre pipeline. Utilisez les fonctionnalités puissantes de Snowpark pour traiter et transformer des données non structurées à grande échelle à l'aide de Python et d'autres langages familiers.

Snowflake vous permet également de créer et de déployer des applications d’IA générative de pointe en exploitant la puissance des LLM haut de gamme, de la génération augmentée de récupération (RAG) de pointe et d’autres services d’IA générative avancés via Cortex AI. Connectez l’ensemble de votre paysage de données d’entreprise à l’IA avec des flux de données bidirectionnels en temps quasi réel à l’aide d’Openflow et de sa prise en charge de diverses structures de données et exigences. Simplifiez la complexité des pipelines de données pour l’IA, en éliminant la nécessité de jongler avec des outils disparates entre plusieurs équipes. Grâce à la sécurité, à la gouvernance et à l'observabilité unifiées de Snowflake, vous pouvez développer en toute confiance des solutions d'IA en production, en ajoutant confiance et fiabilité à chaque étape du processus.

Pour en savoir plus sur ces avancées en data engineering et plus encore, inscrivez-vous au prochain événement Data Engineering Connect de Snowflake le 29 juillet 2025. 

Partager cet article

Subscribe to our blog newsletter

Get the best, coolest and latest delivered to your inbox each week

Démarrez votre essai gratuitde 30 jours

Essayez Snowflake gratuitement pendant 30 jours et découvrez l’AI Data Cloud qui élimine la complexité, les coûts et les contraintes d’autres solutions.