Data for Breakfast arriva in Italia

Il 19 marzo scopri come fare la differenza con i dati e gli agenti AI.

Cos’è un data warehouse? La guida completa

Scopri cosa rende unici i data warehouse, quali sono i componenti del data warehouse e perché offrono alle organizzazioni un vantaggio competitivo.

  • Presentazione
  • Cos’è un data warehouse?
  • L’architettura del data warehouse
  • Componenti chiave di un data warehouse
  • Tipi di data warehouse
  • Data warehouse tradizionali e cloud data warehouse a confronto
  • I vantaggi di un data warehouse moderno
  • Domande frequenti sulla gestione di un data warehouse
  • Clienti che hanno scelto l’AI Data Cloud
  • Risorse sul data warehouse

Presentazione

I dati sono importanti per l’economia globale tanto quanto l’elettricità. Così come abbiamo bisogno delle centrali elettriche per mantenere le luci accese e i macchinari operativi, abbiamo necessità di sistemi che raccolgano, archivino e organizzino i dati per poterli poi utilizzare.

I data warehouse riuniscono enormi quantità di dati di diverso tipo (profili dei clienti, transazioni finanziarie, cataloghi di prodotti, log delle apparecchiature, tendenze del mercato e così via) e consentono poi di segmentarli e analizzarli in vari modi. I data warehouse aiutano i CFO a prevedere le entrate per l’anno successivo, i responsabili delle Risorse Umane a prevedere le esigenze di forza lavoro, i responsabili delle attività operative a ottimizzare gli impianti di produzione e i CEO a prendere decisioni strategiche sul futuro della loro attività. I data warehouse offrono altresì le basi per nuovi strumenti di intelligenza artificiale fornendo fonti di informazioni di alta qualità per l’addestramento dei modelli AI.

In questo articolo esploreremo cosa rende unici i data warehouse, i componenti che servono per crearli e in che modo offrono alle organizzazioni un vantaggio competitivo.

Cos’è un data warehouse?

Un data warehouse è essenzialmente un repository centralizzato che archivia i dati attuali e storici provenienti da più fonti di un’organizzazione ed è progettato per supportare business intelligence (BI) e analisi dei dati. Creando una SSOT (Single Source of Truth) per i dati aziendali, i data warehouse aiutano a eliminare dati incoerenti e duplicati che si verificano quando dipartimenti diversi utilizzano repository di dati diversi.

A differenza dei database operativi, progettati per gestire le transazioni quotidiane, i data warehouse sono ottimizzati per query complesse, reporting e analisi dei dati per supportare processi decisionali strategici. Se un database operativo o relazionale può contenere informazioni in tempo quasi reale sulle prestazioni dei diversi segmenti aziendali, i data warehouse offrono una prospettiva più storica per l’intera organizzazione. Di conseguenza, utilizzano strutture organizzative e metodi diversi per l’elaborazione delle transazioni.

I data warehouse si differenziano anche dai data lake, che sono utilizzati per memorizzare i dati grezzi per analisi future. Un data lake è simile a un’unità di storage dove puoi conservare quello che potrebbe esserti utile in futuro, mentre in un data warehouse sai esattamente cosa c’è e come intendi utilizzarlo. Un data lake può fungere da fonte di dati grezzi che possono poi essere estratti, trasformati e caricati in un data warehouse.

I data lakehouse sono una versione ibrida più recente di questi due concetti, che combina la capacità di un data lake di archiviare dati strutturati e non strutturati a costi relativamente bassi con le funzionalità di analisi avanzate di un data warehouse.

L’architettura del data warehouse

Anche se il set di funzionalità esatto di ogni data warehouse può variare, in genere si fonda su un’architettura a tre livelli per elaborare dati strutturati, non strutturati e semi-strutturati in modo rapido ed efficiente.

Livello inferiore: ingestion

Questo è il livello in cui vengono caricate e memorizzate le informazioni provenienti da fonti di dati interne ed esterne. Questi dati vengono estratti dalla fonte originale e trasformati o arricchiti risolvendo le incoerenze, correggendo gli errori, convertendo i file in un formato uniforme e creando campi che supportano i calcoli. Vengono quindi caricati in un repository centrale, un processo noto come ETL (Extract, Transform, Load). Le architetture più moderne fanno affidamento sulla potenza di elaborazione interna del warehouse per trasformare i dati dopo il caricamento, un’azione più comunemente nota come ELT.

Livello intermedio: analisi

Il livello intermedio è dove avviene l’analisi dei dati. Qui il warehouse acquisisce anche metadati tecnici e operativi per tenere traccia del data lineage, garantirne l’affidabilità e aiutare gli utenti a comprendere cosa significano i dati e come possono essere utilizzati. Viene quindi distribuito un motore OLAP (Online Analytical Processing), che analizza migliaia di righe di dati contemporaneamente in più dimensioni. Ad esempio, i dati sulle vendite retail possono essere analizzati per SKU, valore monetario di ciascuna vendita, costo dei prodotti, data e ora della transazione, ubicazione geografica, identità del negozio, segmento di clientela e molto altro.

Livello superiore: reporting

L’ultimo livello è dove gli utenti possono condurre analisi ad hoc dei dati, ad esempio confrontando i volumi di vendita online con le vendite nei negozi fisici oppure analizzando le prestazioni dei diversi segmenti di clientela in una varietà di aree geografiche. Gli utenti possono esportare questi risultati in strumenti di business intelligence o dashboard esecutive per ulteriori analisi.

Di conseguenza, i dati originati in un sistema CRM (Customer Relationship Management) o ERP (Enterprise Resource Planning) possono essere inseriti in un data warehouse, puliti e standardizzati, ottimizzati per l’analisi, esportati in repository più piccoli specifici per il dominio, noti come data mart, o importati direttamente in piattaforme di BI o dashboard dove gli utenti possono eseguire query.

Componenti chiave di un data warehouse

Ogni data warehouse include gli stessi componenti fondamentali. Un data warehouse include almeno:

Fonti dei dati

Oltre a CRM, ERP e altri database aziendali, i dati possono includere fonti esterne, come ricerche di mercato e flussi in tempo reale provenienti da web application o sensori IoT (Internet of Things).

ETL/Processi ELT

Strumenti che estraggono dati da ogni fonte, li sottopongono a pulizia e standadizzazione e li caricano nel warehouse.

Area di staging

Una zona di buffer in cui i dati grezzi vengono temporaneamente archiviati, convalidati e preparati prima di entrare nel warehouse principale.

Conservazione dei dati

Dove risiedono fisicamente le informazioni, organizzate secondo uno schema, un framework che descrive le relazioni tra dati diversi.

Sistemi di gestione dei metadati

Sistemi che conservano informazioni sulla struttura dei dati, le regole aziendali che li disciplinano e la storia dei dati durante la loro trasformazione e il loro utilizzo.

Strumenti di query e reporting

Infrastruttura tecnica che consente agli utenti di porre domande complesse sui dati e di ricevere risposte articolate. 

Governance dei dati e controlli di sicurezza

Controlli utilizzati per gestire l’autenticazione degli utenti e i privilegi di accesso, proteggere i dati sensibili e verificare la conformità alle policy di sicurezza.

Applicazioni di BI e analisi

Strumenti esterni che consentono agli utenti di condurre analisi articolate, creare report e visualizzare i risultati.

Tipi di data warehouse

Non tutti i data warehouse sono uguali. Alcuni sono progettati per assistere nella pianificazione strategica a lungo termine, altri per aiutare a gestire le operazioni tattiche quotidiane. Esistono anche sottoinsiemi di warehouse creati per gruppi specifici all’interno di un’organizzazione. Possono essere suddivisi in tre tipi principali: enterprise data warehouse (EDW), data store operativi (ODS) e data mart.

Enterprise data warehouse

Un EDW è un repository centralizzato che integra i dati provenienti da tutti i principali sistemi aziendali e offre una visione d’insieme dell’azienda. Combina dati provenienti da più sistemi in un formato unificato, può contenere anni di dati storici ed è progettato per supportare il processo decisionale e la pianificazione strategica in tutte le funzioni aziendali.

Data store operativo

Un ODS è progettato per colmare il divario tra i sistemi transazionali che memorizzano dati in tempo reale e i data warehouse utilizzati per l’analisi e la strategia a lungo termine. Archivia i dati nel formato originale, senza bisogno di processi ETL o ELT. Poiché è progettato per gestire il processo decisionale quotidiano e l’analisi in tempo reale, un ODS viene aggiornato più frequentemente e contiene meno dati storici di un EDW.

Data mart

Un data mart è in genere un sottoinsieme più piccolo di un EDW, limitato a specifici domini aziendali come vendite, marketing, finanze o Risorse Umane. Ogni data mart è ottimizzato per soddisfare le esigenze analitiche di una specifica funzione aziendale ed è tipicamente più veloce da implementare e più facile da gestire grazie al suo ambito di applicazione più limitato.

Data warehouse tradizionali e cloud data warehouse a confronto

Come per altre funzioni IT mission-critical, le organizzazioni possono scegliere come e dove distribuire un data warehouse. Le aziende possono gestire il proprio data warehouse in un data center on-premise, ospitarlo nel cloud o implementare un’architettura ibrida che combina le due soluzioni. Come illustrato nella tabella seguente, esistono differenze significative tra l’infrastruttura on‐premise e il cloud in termini di investimenti, prestazioni, scalabilità, manutenzione ed efficienza dei costi.

Aspetto operativo


Data warehouse on-premise

Data warehouse basato su cloud

Infrastruttura


Le aziende acquistano, installano e sottopongono a manutenzione tutti i sistemi hardware e software, gestendo l’intero stack IT.

I provider gestiscono tutta l’infrastruttura fisica; le aziende possono controllare l’infrastruttura tramite API e interfacce web. 

Prestazioni


Sono definite da configurazioni hardware specifiche che i team possono ottimizzare per workload specifici. Latenza di rete minima.

Le prestazioni elastiche sono scalabili verticalmente o orizzontalmente sulla base delle esigenze dei workload. I problemi di latenza e la necessità di condividere le risorse con altri cloud tenant possono influire negativamente sulle prestazioni. 

Scalabilità


Accrescere le funzionalità dei warehouse richiede una pianificazione iniziale e un investimento di capitale significativi e può comportare l’overprovisioning se la domanda di workload diminuisce.

Le risorse di elaborazione e storage sono scalabili pressoché all’infinito in base alle esigenze dei workload, utilizzando un modello di prezzo basato sul consumo

Manutenzione


Le aziende sono responsabili di tutte le attività di manutenzione, applicazione delle patch e aggiornamenti, che richiedono notevoli investimenti in termini di personale. 

I provider gestiscono la manutenzione completa dell’infrastruttura, mentre le aziende sono responsabili della governance dei dati, della sicurezza e della manutenzione

 delle applicazioni.

Costi


Richiede un notevole investimento iniziale e costi operativi costanti, che però rimangono relativamente fissi e prevedibili indipendentemente dall’utilizzo effettivo.

I costi aumentano proporzionalmente all’utilizzo, cosa che può comportare spese impreviste, oltre a costi elevati per l’egress dei dati. 

Di solito, le aziende che preferiscono soluzioni on-premise hanno organizzazioni IT robuste, distribuiscono grandi volumi di workload prevedibili e richiedono il controllo completo sulla sovranità, la governance e l’infrastruttura dei dati. Le organizzazioni scelgono i cloud provider quando non possono contare su competenze interne, devono implementare la soluzione scelta rapidamente, hanno workload molto diversificati, richiedono accesso globale ai dati o vogliono ridurre al minimo le spese di capitale iniziali.

Molte organizzazioni stanno iniziando ad adottare approcci ibridi che combinano il controllo on-premise dei dati sensibili con la scalabilità del cloud per workload di sviluppo e analisi dei dati. Questo consente loro di ottimizzare sia la sicurezza sia l’agilità in base ai requisiti specifici dei casi d’uso.

I vantaggi di un data warehouse moderno

Sono molti i motivi che potrebbero spingere le organizzazioni a scegliere di distribuire un data warehouse. Tra i più importanti ricordiamo:

Processo decisionale più efficiente

I data warehouse sono una SSOT(Single Source Of Truth) che garantisce a tutti i dipendenti di un’organizzazione di avere informazioni accurate e aggiornate per prendere decisioni.

Intelligence storica e analisi dei trend

La capacità di analizzare anni di dati storici consente alle organizzazioni di identificare trend a lungo termine e schemi comportamentali operativi, facilitando la pianificazione strategica.

Qualità e coerenza dei dati migliorate

Le funzionalità integrate di convalida e pulizia di un data warehouse garantiscono che i dati aziendali siano affidabili e completi.

Scalabilità per grandi volumi di dati

I data warehouse basati su cloud possono scalare automaticamente le risorse di elaborazione e storage in base alla domanda, gestendo i picchi dei workload analitici senza overprovisioning.

Supporto per l’analisi avanzata dei dati e AI

La maggior parte dei data warehouse supporta funzionalità di analisi avanzate, come l’analisi della regressione e la previsione delle serie temporali; alcuni di essi sono anche dotati di funzionalità di machine learning integrate, che consentono ai data scientist di gestire i modelli direttamente all’interno dell’ambiente warehouse.

Domande frequenti sulla gestione di un data warehouse

Che cosa differenzia un data warehouse da un normale database?

I normali database sono creati per gestire le transazioni quotidiane di un’organizzazione, mentre i data warehouse sono progettati per gestire query analitiche sui dati storici. Per questo sono la soluzione ideale per i processi decisionali più strategici.

Che tipo di dati sono archiviati in un data warehouse?

I data warehouse possono archiviare più tipi di dati strutturati, non strutturati e semi-strutturati provenienti da un’ampia gamma di fonti, come database aziendali interni, report di mercato esterni e feed di dati in tempo reale.

Quali problemi risolvono i data warehouse per le organizzazioni?

Fungendo da unica fonte di riferimento, i data warehouse possono eliminare i silos di dati, garantire la coerenza dei dati tra i diversi reparti, consentire l’analisi storica, migliorare le prestazioni delle query per l’analisi e fornire funzionalità di reporting affidabili.

Quanto sono sicuri i data warehouse?

I warehouse moderni forniscono sicurezza di livello enterprise, tra cui crittografia, controlli degli accessi, audit trail e certificazioni di conformità. I cloud provider spesso offrono funzionalità di sicurezza superiori a quelle che la maggior parte delle organizzazioni potrebbe implementare autonomamente.