Produit et technologie

La plateforme Snowflake fait progresser les performances, les analyses et les activités critiques et prend en charge toujours plus de types de données

La plateforme Snowflake fait progresser les performances, les analyses et les activités critiques et prend en charge toujours plus de types de données

Le monde subit une véritable métamorphose portée par les données. En raison de limites technologiques, les entreprises ont accumulé des silos dans leur infrastructure de données pour prendre en charge plusieurs charges de travail, langages, outils et formats. Ces silos peuvent avoir de lourdes conséquences, notamment une plus grande charge opérationnelle, des vulnérabilités de sécurité, un coût total de possession accru, des informations incomplètes et une agilité réduite. 

C’est là qu’entre en jeu la plateforme unifiée de Snowflake, qui permet d’éliminer les silos et de simplifier les architectures. Lors du Summit 2023, nous avons annoncé une série d’améliorations apportées à la plateforme pour aider nos clients à éliminer leurs silos : meilleures performances, plus grande visibilité et plus grand contrôle des dépenses, gouvernance optimisée, analyses plus avancées, capacités accrues en matière de continuité des activités, innovations concernant Apache Iceberg, possibilité de tirer le meilleur parti des données non structurées grâce à de grands modèles de langage (LLM) et extension des capacités de machine learning à davantage d’analystes. Dans cet article de blog, nous allons résumer ces nouvelles capacités.

Amélioration continue du rapport prix-performances pour nos clients

La valeur la plus importante de Snowflake est de « donner la priorité aux clients ». À quasiment chaque nouveau lancement de produit, nous nous efforçons de fournir un flot continu d’innovations afin d’assurer de meilleures performances et une plus grande efficacité. Une grande partie des améliorations apportées à la plateforme sont automatiquement déployées auprès de nos clients, sans intervention ni effort de leur part. 

C’est pourquoi nous mettons en place le nouvel indice de performance Snowflake Performance Index (SPI), un indice global qui permet de mesurer les améliorations des performances de Snowflake observées par nos clients au fil du temps. Entre le 25 août 2022, date à laquelle nous avons commencé à suivre l’indice SPI, et le 30 avril 2023, la durée des requêtes s’est améliorée de 15 % pour les charges de travail stables des clients dans Snowflake*. C’est l’une des nombreuses manières dont Snowflake aide ses clients à tirer le meilleur parti de la plateforme.

Search Optimization (SO) Service accélère les performances des requêtes en trouvant rapidement l’aiguille dans la botte de foin pour renvoyer un nombre restreint de lignes dans de grandes tables. Nous avons lancé le service SO pour prendre en charge davantage de types de données (VARIANT, ARRAY, OBJECT et GEOGRAPHY, par exemple) et nous le développons afin de prendre en charge davantage de cas d’usage en matière de disponibilité générale : accélération des recherches de sous-chaînes dans les colonnes de texte et utilisation d’autres fonctionnalités de performances (Query Acceleration Service, par exemple). 

Les analyses TOP-K à faible latence permettent aux clients de ne récupérer que les réponses les plus pertinentes parmi de nombreux résultats, classées par ordre de priorité. Grâce à des fonctionnalités de nettoyage supplémentaires (désormais dans GA), il n’est plus nécessaire d’analyser des ensembles de données entiers, ce qui permet d’accélérer les recherches.

Afin d’aider nos clients à analyser plus facilement la structure des requêtes onéreuses et à identifier les opérateurs à l’origine des problèmes de performances, il sera bientôt possible d’accéder par programme au profil des requêtes dans GA. 

Découvrez les améliorations continues en matière de performances que nous apportons régulièrement à la plateforme. 

Une meilleure visibilité et un plus grand contrôle de vos dépenses Snowflake

Nous avons annoncé trois nouvelles fonctionnalités qui permettent aux utilisateurs d’avoir une meilleure visibilité et un plus grand contrôle de leurs dépenses Snowflake, tout en optimisant leurs ressources existantes et en favorisant davantage la prévisibilité des coûts.

Tout d’abord, notre nouvelle fonctionnalité d’utilisation d’entrepôts (en private preview) fournit à nos clients un indicateur unique qui leur permet non seulement de mieux estimer la capacité et la taille des entrepôts, mais aussi d’optimiser les dépenses relatives à ces derniers. 

La nouvelle fonctionnalité d’attribution des coûts par requête (bientôt en private preview) de Snowflake permet aux utilisateurs d’attribuer les dépenses d’entrepôts aux différentes requêtes. Par exemple, si une équipe centralisée utilise Snowflake pour divers services (RH, Finance et Informatique, par exemple) avec différents types de facturation, elle peut désormais voir combien de crédits Snowflake chaque service utilise. Cela facilite la refacturation, lorsque les services centralisés doivent refacturer différentes équipes pour le nombre de crédits qu’elles ont réellement utilisés sur Snowflake.

Nous avons également annoncé que Budget sera bientôt disponible en public preview pour donner encore plus de contrôle aux utilisateurs. La fonction Budget définit une limite de dépenses, pour un intervalle de temps spécifique, sur les coûts de calcul pour un groupe d’objets Snowflake. Elle aide nos clients à surveiller l’utilisation des entrepôts et des fonctions sans serveur (clustering automatique, vues matérialisées, optimisation des recherches, etc.). Si la limite de dépenses risque d’être dépassée, un e-mail de rappel quotidien est envoyé.

Prise en charge de la criticité des missions grâce à une meilleure gouvernance native des données, à de nouvelles interfaces utilisateur Snowflake, à une empreinte croissante en matière de conformité et à une continuité des activités cross-cloud mise à jour

Chez Snowflake, nous nous engageons à fournir les meilleures fonctionnalités de gouvernance native des données aux clients qui confient leurs données à notre plateforme. Ces clients provenant des quatre coins du monde, nous avons donc étendu nos fonctionnalités de classification pour prendre en charge les données basées au Royaume-Uni, en Australie et au Canada (en private preview). 

Nos clients peuvent également gérer plus facilement leurs données sensibles et personnelles (PII) en tirant parti d’une expérience utilisateur optimisée. L’interface utilisateur de classification (en private preview) offre à nos clients un flux de travail intuitif dans Snowsight afin de classer et d’identifier des tables dans le schéma de leur choix, tandis que l’interface utilisateur de gouvernance des données (bientôt dans GA) résume brièvement les ressources identifiées et protégées dans Snowsight, ainsi que comment procéder pour prendre des mesures. 

Nous développons davantage nos fonctionnalités de gouvernance des données grâce à la surveillance native de la qualité des données (bientôt en private preview), par le biais d’indicateurs prêts à l’emploi sur l’actualisation, le volume, la précision des données et sur les statistiques courantes les concernant. Vous pourrez également définir vos propres indicateurs personnalisés. Snowflake offre ces blocs élémentaires pour la surveillance de la qualité des données, que nos partenaires peuvent exploiter et développer. 

Hormis les innovations en matière de gouvernance native des données, nous cherchons en permanence à élargir notre empreinte en matière de conformité. Début juin, Snowflake a lancé un Data Cloud dédié aux entités gouvernementales et à l’éducation et a obtenu la certification StateRAMP High sur AWS GovCloud. Pour aider les organismes fédéraux, d’État et locaux à respecter les normes de sécurité et de conformité, Snowflake prend désormais en charge des charges de travail réglementées (Criminal Justice Information Services, CJIS, par exemple). 

Snowgrid est une couche technologique cross-cloud différenciée qui interconnecte les écosystèmes de votre entreprise dans différentes régions et différents clouds pour que vous puissiez opérer à l’échelle mondiale. Snowgrid dynamise les capacités de continuité des activités cross-cloud de Snowflake. Nous sommes ravis de vous annoncer que la fonctionnalité Account Replication est désormais disponible. Cette fonctionnalité étend la réplication au-delà des bases de données, pour prendre en charge les intégrations et métadonnées de compte, pour permettre la continuité clé en main de vos activités. Les utilisateurs Snowflake peuvent désormais récupérer leurs comptes et connexions client en quelques secondes seulement, à pratiquement n’importe quelle échelle, en association avec la fonctionnalité Client Redirect

Pour simplifier et rationaliser l’expérience utilisateur pour la continuité de leurs activités cross-cloud, nos clients peuvent installer, configurer et surveiller des réplications de compte via une interface utilisateur intuitive (bientôt en public preview). Cette interface utilisateur leur permet de gérer les sources et destinations de réplication, les objets à répliquer et les délais.

Grâce à la réplication de Stages, de Snowpipe, de la fonction COPY (ingestion) et des tables de répertoires (bientôt en public preview), nos clients pourront répliquer l’intégralité des pipelines ETL (bientôt en public preview) pour se protéger au cas où Snowflake ne serait plus disponible dans une région. Ainsi, nos clients peuvent basculer les pipelines et Snowflake garantit des chargements idempotents. 

Désormais, les utilisateurs Snowflake peuvent aussi répliquer Streams et Tasks dans GA, ces deux fonctions étant souvent utilisées ensemble pour créer des pipelines de données modernes. Chaque jour, des milliers de clients Snowflake développent de puissants pipelines de transformation des données. Les fonctions Streams et Tasks pouvant être répliquées, vos pipelines de données fonctionneront aussi en toute transparence sur vos comptes Snowflake secondaires. 

Analyses avancées grâce à la nouvelle prise en charge de GEOMETRY, aux nouvelles capacités des services financiers et aux fonctionsSQL rapides

Chez Snowflake, nous nous efforçons de garantir à nos clients commodité, flexibilité et efficacité et ce, par le biais d’avancées en matière d’analyse. 

Nous avons beaucoup investi dans le but de devenir la principale plateforme pour les données géospatiales. Que les données d’emplacement soient stockées dans un format sphérique (GEOGRAPHY), plat (GEOMETRY) ou non valide, nos clients peuvent désormais traiter tous ces types de données géospatiales vectorielles dans GA. Nous annonçons également le public preview de transformations entre les systèmes de référence spatiale pour les objets géométriques, ce qui permet des reprojections d’un système de mappage à un autre. 

De plus, nous améliorons sans cesse nos capacités SQL pour assurer une meilleure efficacité en matière de codage, pour gagner du temps et pour garantir une plus grande précision grâce à de nouvelles fonctions. Nous avons mis en œuvre plusieurs améliorations SQL (dans GA), notamment les suivantes : SELECT*, MIN_BY / MAX_BY, GROUP BY ALL et l’arrondi bancaire. En particulier, l’inclusion de la fonctionnalité d’arrondi bancaire contribue à réduire les erreurs pendant toute analyse financière, répondant ainsi aux besoins spécifiques des banquiers et des professionnels de la finance.

Prise en charge d’Apache Iceberg mise à jour avec une plus grande simplicité et de meilleures performances

Apache Iceberg ne cesse de gagner en popularité et s’impose dans le secteur pour les formats de tables ouverts. Grâce à son écosystème de pointe (divers utilisateurs, contributeurs et offres commerciales), Iceberg empêche tout verrouillage du système de stockage et évite de devoir déplacer ou copier des tables entre différents systèmes, ce qui se traduit souvent par une réduction des coûts de calcul et de stockage pour toute votre pile de données.

Lors du Summit 2023, nous avons annoncé que nous unifions les External Tables pour Iceberg et les Iceberg Tables natives en un seul type de table, les Iceberg Tables (bientôt en private preview). Désormais, nos clients bénéficient de la simplicité d’un seul type de table Iceberg, mais ils peuvent également spécifier la mise en œuvre de catalogues, avec bien moins de compromis sur les performances. Les Iceberg Tables gérées peuvent être en lecture/écriture complète dans Snowflake et elles utilisent Snowflake comme catalogue depuis lequel il est facilement possible de lire les moteurs externes. Les Iceberg Tables non gérées se connectent à Snowflake pour lire les Iceberg Tables depuis un catalogue externe. Nous ajoutons également un moyen simple et abordable de convertir une Iceberg Table non gérée en Iceberg Table gérée, facilitant ainsi l’intégration de nos clients en leur évitant de devoir réécrire des tables entières.

Bien que les performances des requêtes dépendent de l’efficacité du format Parquet, nos tests ont démontré que les Iceberg Tables non gérées sont au moins deux fois plus performantes que les External Tables. Quant aux Iceberg Tables gérées, elles sont quasiment aussi performantes que les tables internes utilisant le format de table de Snowflake.

Intégration de données stockées on-premise

Malgré la tendance actuelle des entreprises à transférer leurs données dans le cloud, les données de nombre d’entre elles restent stockées on-premise ou dans des environnements cloud privés pour diverses raisons. Bien que certaines données puissent être incompatibles avec une migration vers le cloud public ou soient actuellement en cours de migration, ces entreprises cherchent à gérer en toute transparence l’ensemble de leurs données depuis un seul et même endroit, peu importe où elles sont stockées. Consolider les données et y accéder depuis différentes sources est essentiel pour la gouvernance et l’analyse des données.

Disponibles bientôt, les External Tables et la fonctionnalité Stages pour le stockage on-premise permettent de combler ces lacunes. Nos clients peuvent utiliser Snowflake pour accéder aux données dans des périphériques de stockage compatibles S3, tout en bénéficiant de la facilité d’utilisation, de l’élasticité, de la gouvernance unifiée, de la résilience et de la connectivité de la plateforme de Snowflake. Les cas d’usage peuvent inclure la réalisation d’analyses sur des data lakes avec des External Tables, l’ingestion simplifiée de fichiers on-premise dans des tables dans le cloud, ou même l’utilisation de Snowpark Python, Java ou Scala pour traiter des fichiers stockés en externe. Pour en savoir plus, obtenir la liste des fournisseurs de services de stockage pris en charge et découvrir notre suite de tests publique, lisez la documentation produit.

Introduction d’un LLM intégré avec DocumentAI

Quasiment toutes les entreprises possèdent des données non structurées sous forme de documents, mais l’accès à des informations d’analyse précieuses tirées de ces fichiers est soit restreint aux experts en machine learning (ML), soit cloisonné de toutes les autres données. Reposant sur notre prise en charge native des données non structurées, la solution Document AI intégrée de Snowflake (en private preview) aide les entreprises à mieux comprendre et exploiter leurs documents grâce au langage naturel.

Document AI exploite un LLM multimodal conçu à cet effet. En intégrant de manière native ce modèle à la plateforme Snowflake, les entreprises peuvent non seulement extraire facilement du contenu (montants des factures ou clauses contractuelles, par exemple) des documents stockés en toute sécurité dans Snowflake, mais aussi affiner les résultats à l’aide d’une interface visuelle et du langage naturel. Les développeurs et data engineers peuvent aussi effectuer une inférence en appelant les modèles intégrés ou affinés via un programme, comme dans les pipelines avec Streams et Tasks ou dans les applications.

Mise à disposition du machine learning via SQL

Les analystes peuvent tirer des informations plus précises des données à mesure que leur volume croît. Plus précisément, les algorithmes ML peuvent accélérer ce processus, mais le manque de connaissances en matière de programmation et les exigences complexes des infrastructures de calcul empêchent souvent les analystes d’adopter le machine learning.

C’est pourquoi nous améliorons notre plateforme unique avec des fonctions de machine learning (en public preview). Grâce aux fonctions de machine learning, les analystes peuvent désormais découvrir des informations et générer des prévisions à l’aide des fonctions ML disponibles via une requête SQL classique. Ainsi, les analystes disposent de capacités auparavant accessibles uniquement aux experts ayant des compétences en machine learning. Les fonctions désormais disponibles en public preview sont les suivantes :

  • Prévisions : générez des prévisions de séries temporelles plus fiables grâce à la gestion automatisée de la saisonnalité, des valeurs manquantes, etc.
  • Détection des anomalies : permet d’identifier les anomalies et de déclencher des alertes pour prendre des mesures.
  • Contribution Explorer : permet d’identifier rapidement les dimensions et leurs valeurs contribuant à la modification d’un indicateur donné entre deux intervalles de temps définis par l’utilisateur.

Il est désormais possible d’adopter le machine learning à plus grande échelle pour améliorer et accélérer les prises de décisions professionnelles au quotidien. Ainsi, les frameworks ML sont simplifiés grâce à des fonctions SQL classiques disponibles directement via Snowflake ou à des intégrations via des outils de BI/d’analyse, comme Sigma Computing.

En savoir plus à la demande

Pour en savoir plus sur ces innovations, visitez la page du Summit 2023.

*Selon les données internes de Snowflake recueillies entre le 25 août 2022 et le 30 avril 2023. Pour calculer l’indice SPI, nous identifions un groupe de charges de travail clients stables et comparables en termes de nombre de requêtes et de données traitées au cours de la période présentée. La réduction de la durée des requêtes résulte d’une combinaison de facteurs (améliorations matérielles et logicielles, optimisations des clients, par exemple).

Partager l'article

Subscribe to our blog newsletter

Get the best, coolest and latest delivered to your inbox each week

Démarrez votre essaigratuit de 30 jours

Essayez Snowflake gratuitement pendant 30 jours et découvrez l'AI Data Cloud qui élimine la complexité, les coûts et les contraintes d’autres solutions.