Qu’est-ce qu’un data warehouse ? Guide complet

Découvrez ce qui rend les data warehouses uniques, les composants qui entrent en jeu dans leur création et comment ils offrent aux entreprises un avantage concurrentiel.

Présentation
Qu’est-ce qu’un data warehouse ?
Architecture de data warehouse
Composants clés d’un data warehouse
Types de data warehouses
Data warehouses traditionnels et data warehouses dans le cloud
Avantages d’un data warehouse moderne
Questions-réponses sur la gestion des data warehouses
Clients utilisant l’AI Data Cloud
Ressources dédiées aux data warehouses

Présentation

Les données sont aussi essentielles à l’économie mondiale que l’électricité. Mais tout comme nous avons besoin de centrales électriques pour garantir l’approvisionnement en courant et faire fonctionner les machines, nous avons besoin de systèmes qui collectent, stockent et organisent les données avant de pouvoir les exploiter.

Les data warehouses rassemblent de grandes quantités de données hétérogènes (profils clients, transactions financières, catalogues de produits, logs d’équipement, tendances du marché, etc.) et permettent de les analyser facilement et de différentes façons. Ainsi, les data warehouses aident les CFO à prévoir le chiffre d’affaires de l’année suivante, les équipes RH à anticiper les besoins en main-d’œuvre, les responsables opérationnels à optimiser leurs installations, et les CEO à prendre des décisions stratégiques concernant l’avenir de leur entreprise. Les data warehouses offrent également un socle pour de nouveaux outils d’intelligence artificielle en fournissant des sources d’informations de haute qualité pour l’entraînement de modèles d’IA.

Dans cet article, nous verrons ce qui rend les data warehouses uniques, les composants qui entrent en jeu dans leur création et comment ils offrent aux entreprises un avantage concurrentiel.

Qu’est-ce qu’un data warehouse ?

Pour faire simple, un data warehouse est un référentiel centralisé qui stocke des données actuelles et historiques provenant de plusieurs sources au sein d’une entreprise, et conçu pour prendre en charge la Business Intelligence (BI) et les analyses. En créant une source unique de vérité pour les données d’entreprise, les data warehouses éliminent les incohérences et les duplications qui surviennent lorsque différents services utilisent leurs propres référentiels de données.

Contrairement aux bases de données opérationnelles, conçues pour gérer les transactions quotidiennes, les data warehouses sont optimisés pour les requêtes complexes, les rapports et les analyses de données, afin de faciliter la prise de décision. Alors qu’une base de données opérationnelle ou relationnelle peut contenir des informations en temps quasi réel sur les performances des différents segments de l’entreprise, les data warehouses offrent une perspective plus historique sur l’ensemble de l’entreprise. Par conséquent, ils utilisent différentes structures et méthodes organisationnelles pour traiter les transactions.

Les data warehouses diffèrent également des data lakes, qui sont utilisés pour stocker des données brutes en vue d’une analyse ultérieure. Un data lake peut être comparé à une unité de stockage où vous conservez ce dont vous pensez avoir besoin un jour, alors que dans un data warehouse, vous savez exactement ce dont vous disposez et comment vous comptez l’utiliser. Un data lake peut servir de source de données brutes destinées à être extraites, transformées et chargées dans un data warehouse.

Quant aux data lakehouses, ils représentent une forme hybride et plus récente de ces deux concepts : ils combinent la capacité d’un data lake à stocker des données structurées et non structurées pour un coût relativement faible avec les capacités analytiques avancées d’un data warehouse.

Architecture de data warehouse

Bien que leurs fonctionnalités exactes puissent varier, les data warehouses reposent généralement sur une architecture à trois niveaux pour traiter les données structurées, non structurées et semi-structurées de manière rapide et efficace.

Niveau inférieur : ingestion

Il s’agit de la couche où les informations provenant de sources de données internes et externes sont ingérées et stockées. Ces données sont extraites de leur source d’origine et transformées ou enrichies en résolvant les incohérences, en corrigeant les erreurs, en convertissant les fichiers dans un format uniforme et en créant des champs qui prennent en charge les calculs. Les données sont ensuite chargées dans un référentiel central, opération connue sous le nom de processus ETL (Extract, Transform, Load, pour extraction, transformation, chargement). Les architectures plus modernes s’appuient sur la puissance de traitement interne du data warehouse pour transformer les données après leur chargement. On parle alors de processus ELT.

Niveau intermédiaire : analyse

Il s’agit du niveau où les données sont analysées. Dans cette couche, le data warehouse capture également des métadonnées techniques et opérationnelles pour suivre la traçabilité des données, s’assurer de leur fiabilité et aider les utilisateurs à comprendre leur signification et comment elles peuvent être utilisées. Un moteur OLAP (Online Analytical Processing) est ensuite déployé pour analyser des milliers de lignes de données en même temps sur plusieurs dimensions. Par exemple, des données sur des ventes retail peuvent être analysées par SKU, montant en dollars de chaque vente, coût des marchandises, date et heure de la transaction, emplacement géographique, identité du magasin, segmentation client, etc.

Niveau supérieur : création de rapports

La dernière couche permet aux utilisateurs d’effectuer des analyses ad hoc des données, par exemple comparer les volumes des ventes en ligne à celles des boutiques physiques, ou encore analyser les performances de différentes segmentations client dans diverses régions. Les utilisateurs peuvent exporter ces résultats vers des outils de Business Intelligence ou des tableaux de bord pour effectuer une analyse plus approfondie.

Ainsi, les données provenant d’un système de gestion de la relation client (CRM) ou d’un système de planification des ressources d’entreprise (ERP) peuvent être extraites dans un data warehouse, nettoyées et standardisées, optimisées pour l’analyse, exportées vers des référentiels plus petits spécifiques à un domaine (data marts), ou importées directement dans des plateformes de BI ou des tableaux de bord afin de les soumettre à des requêtes.

Composants clés d’un data warehouse

Chaque data warehouse est constitué des mêmes composants fondamentaux. Au minimum, un data warehouse inclut les composants suivants :

Sources de données

Outre les systèmes CRM, ERP et autres bases de données d’entreprise, les données peuvent inclure des sources externes, telles que des études de marché et des flux en temps réel provenant d’applications web ou de capteurs de l’Internet of Things (IoT).

Processus ETL/ELT

Outils qui extraient des données de chaque source, les nettoient et les standardisent, puis les chargent dans le data warehouse.

Zone de stockage intermédiaire

Zone tampon où les données brutes sont temporairement stockées, validées et préparées avant d’intégrer le data warehouse principal.

Stockage de données

Lieu où résident physiquement les informations et organisé selon un schéma, c’est-à-dire un framework qui décrit les liens entre les différentes données.

Systèmes de gestion des métadonnées

Systèmes qui gèrent les informations sur la structure des données, les règles stratégiques qui les régissent et l’historique des données à mesure qu’elles sont transformées et utilisées.

Outils de requête et de reporting

Infrastructure technique permettant aux utilisateurs de poser des questions complexes sur les données et de recevoir des réponses très précises.

Gouvernance des données et contrôles de sécurité

Contrôles utilisés pour gérer l’authentification des utilisateurs et les privilèges d’accès, protéger les données sensibles et vérifier la conformité aux politiques de sécurité.

Applications d’analyse et de BI

Outils externes qui permettent aux utilisateurs de réaliser des analyses sophistiquées, de créer des rapports et de visualiser les résultats.

Types de data warehouses

Tous les data warehouses ne se valent pas. Certains sont conçus pour faciliter la planification stratégique à long terme, d’autres pour gérer les opérations tactiques quotidiennes. Il existe également des sous-ensembles de data warehouses créés pour des groupes spécifiques au sein d’une entreprise. Ceux-ci se divisent en trois grandes catégories : data warehouses d’entreprise (EDW), data stores opérationnels (ODS) et data marts.

Data warehouse d’entreprise

Un data warehouse d’entreprise, ou EDW, est un référentiel centralisé qui intègre les données de tous les principaux systèmes de l’entreprise, permettant ainsi d’obtenir une vue complète de l’ensemble de l’entreprise. Il combine les données de plusieurs systèmes dans un format unifié, peut contenir des années de données historiques et est conçu pour faciliter la prise de décision et la planification stratégique pour toutes les fonctions métiers.

Data store opérationnel

Un data store opérationnel, ou ODS, est conçu pour servir d’intermédiaire entre des systèmes transactionnels qui stockent des données en temps réel et des data warehouses utilisés pour les analyses et les stratégies à plus long terme. Il stocke les données dans leur format d’origine, sans avoir besoin de processus ETL ou ELT. Comme il est conçu pour la prise de décision quotidienne et l’analyse en temps réel, un ODS est mis à jour plus fréquemment et contient moins de données historiques qu’un EDW.

Data mart

Un data mart est généralement un sous-ensemble d’un EDW, limité à des domaines professionnels spécifiques, tels que les ventes, le marketing, la finance ou les ressources humaines. Chaque data mart est optimisé pour répondre aux besoins analytiques d’une fonction métier particulière. Il est généralement plus rapide à mettre en œuvre et plus facile à gérer en raison de son champ d’application plus limité.

Data warehouses traditionnels et data warehouses dans le cloud

Comme pour d’autres fonctions IT stratégiques, les entreprises peuvent choisir où et comment déployer un data warehouse. Elles peuvent gérer leur propre data warehouse dans un data center on-premise, l’héberger dans le cloud ou déployer une architecture hybride qui combine les deux approches. Comme le montre le tableau ci-dessous, il existe des différences notables entre un data warehouse on-premise et dans le cloud en termes d’investissement dans l’infrastructure, de performances, d’évolutivité, de maintenance et de rentabilité.

Aspect opérationnel	Data warehouse on-premise	Data warehouse dans le cloud
Infrastructure	Les entreprises achètent, installent et assurent la maintenance de tous les systèmes matériels et logiciels, en gérant l’ensemble du stack informatique.	Les fournisseurs gèrent toute l’infrastructure physique, mais les entreprises peuvent la contrôler via des API et des interfaces web.
Performances	Les performances sont définies par des configurations matérielles spécifiques, que les équipes peuvent optimiser pour leurs charges de travail. La latence du réseau est minime.	Les performances sont élastiques et peuvent être adaptées à la hausse ou à la baisse en fonction des besoins liés aux charges de travail. Des problèmes de latence et la nécessité de partager les ressources avec d’autres locataires du cloud peuvent avoir un impact négatif sur les performances.
Évolutivité	L’augmentation des capacités du data warehouse nécessite une planification et des investissements importants dès le départ, et peut entraîner un surdimensionnement si les exigences des charges de travail diminuent.	Grâce à un modèle de tarification à la consommation, les ressources de calcul et de stockage peuvent évoluer pratiquement sans limite, en fonction des besoins liés aux charges de travail.
Maintenance	Les entreprises sont responsables de toutes les tâches de maintenance, d’application de correctifs et de mise à niveau, ce qui nécessite des investissements importants en personnel.	Les fournisseurs gèrent toute la maintenance de l’infrastructure, tandis que les entreprises sont responsables de la gouvernance des données, de la sécurité et des applications.
Coût	Nécessite un investissement initial important ainsi que des coûts opérationnels continus, mais ces coûts restent relativement fixes et prévisibles, quelle que soit l’utilisation réelle.	Les coûts dépendent directement de l’utilisation, ce qui peut entraîner des dépenses imprévues, ainsi que d’importants frais de sortie des données.

Les entreprises qui optent pour des solutions on-premise disposent généralement d’équipes informatiques efficaces. Elles déploient des charges de travail prévisibles et volumineuses, et nécessitent un contrôle total sur la souveraineté, la gouvernance et l’infrastructure des données. Les entreprises choisissent des fournisseurs cloud lorsqu’elles manquent d’expertise interne, ont besoin d’un déploiement rapide, ont des charges de travail très variables, nécessitent un accès mondial aux données ou souhaitent minimiser leurs investissements initiaux.

De nombreuses entreprises commencent à adopter des approches hybrides qui combinent le contrôle on-premise des données sensibles avec l’évolutivité du cloud pour les charges de travail d’analyse et de développement. Cela leur permet d’optimiser à la fois la sécurité et l’agilité en fonction des exigences spécifiques de leurs cas d’usage.

Avantages d’un data warehouse moderne

Les entreprises peuvent choisir de déployer un data warehouse pour de nombreuses raisons. Voici les plus importantes :

Meilleure prise de décision

En tant que source unique de vérité, les data warehouses permettent à tous les membres d’une entreprise de disposer des informations les plus précises et récentes pour prendre des décisions.

Données historiques et analyse des tendances

La capacité à analyser des années de données historiques permet aux entreprises d’identifier des tendances à long terme et des modèles de comportements opérationnels, ce qui facilite la planification stratégique.

Amélioration de la qualité et de la concordance des données

Grâce à leurs capacités intégrées de validation et de nettoyage, les data warehouses garantissent la fiabilité et l’exhaustivité des données d’entreprise.

Évolutivité pour le Big Data

Les data warehouses dans le cloud peuvent automatiquement adapter les ressources de calcul et de stockage en fonction de la demande, ce qui permet de gérer les pics des charges de travail analytiques sans surdimensionner les capacités.

Prise en charge des analyses avancées et de l’IA

La plupart des data warehouses prennent en charge des fonctionnalités analytiques avancées, telles que l’analyse de régression et les prévisions temporelles. Certains disposent également de fonctionnalités intégrées de machine learning, ce qui offre aux data scientists la possibilité de gérer des modèles directement dans l’environnement du data warehouse.

Questions-réponses sur la gestion des data warehouses

En quoi un data warehouse diffère-t-il d’une base de données classique ?

Les bases de données classiques sont conçues pour gérer les transactions quotidiennes d’une entreprise, tandis que les data warehouses sont prévus pour traiter les requêtes analytiques sur des données historiques ; ils sont donc parfaits pour prendre des décisions plus stratégiques.

Quels types de données sont stockés dans un data warehouse ?

Les data warehouses peuvent stocker plusieurs types de données structurées, non structurées et semi-structurées provenant d’un large éventail de sources : bases de données internes d’une entreprise, études de marché externes, flux de données en temps réel, etc.

Quels problèmes les data warehouses résolvent-ils pour les entreprises ?

En tant que source unique de vérité, un data warehouse peut éliminer les silos de données, assurer la concordance des données entre les services, permettre des analyses historiques, améliorer les performances des requêtes pour les analyses et fournir des capacités de reporting fiables.

Quel niveau de sécurité offrent les data warehouses ?

Les data warehouses modernes offrent une sécurité adaptée aux entreprises, ce qui inclut le chiffrement, des contrôles d’accès, des pistes d’audit et des certifications de conformité. Les fournisseurs cloud offrent souvent des capacités de sécurité qui vont au-delà des mesures de protection que pourraient mettre en œuvre la plupart des entreprises.

Clients utilisant l’AI Data Cloud

Power Digital libère l’IA pour optimiser son impact marketing et renforcer le ROI de ses clients

Plutôt que de se fier à son intuition, Power Digital s’appuie sur nova, une plateforme propriétaire créée sur Snowflake et dotée de fonctionnalités d’IA, pour développer des campagnes marketing inoubliables basées sur des informations en temps réel.

Lire le témoignage

La Ligue canadienne de football marque des points en personnalisant l’expérience des fans grâce à une vision à 360 degrés de ses clients

Grâce à Snowflake et ses partenaires Rudderstack et Braze, cette ligue sportive canadienne transforme l’essai pour séduire davantage de fans et générer plus de revenus.