Data engineering

Semplificare l’integrazione dei dati aziendali: un’analisi della distribuzione BYOC con Snowflake Openflow

Per ricavare preziosi insight dai dati, che si tratti di analisi, machine learning o ricerca, le aziende devono continuamente trovare modi migliori per gestire le enormi quantità di informazioni in loro possesso. Storicamente, tuttavia, è stato molto più facile a dirsi che a farsi. In pratica, richiede la creazione (e la manutenzione) di pipeline di integrazione che diventano rapidamente complesse, per non parlare dei costi. 

Per molti, un servizio di integrazione dei dati adattabile ed estendibile, ma anche facile da gestire e controllare, sembra un sogno irraggiungibile, eppure è proprio quello che Snowflake Openflow è stato progettato per offrire. Openflow offre due opzioni di distribuzione: Snowflake-hosted e customer-hosted. L’opzione ospitata dal cliente, basata su una distribuzione bring your own cloud (BYOC), è generalmente disponibile in tutte le regioni commerciali AWS. Con queste opzioni di distribuzione, Openflow offre al cliente la flessibilità di eseguire i flussi di dati ovunque risiedano i suoi dati, senza compromettere la privacy o la sicurezza, sempre mantenendo la semplicità operativa.

In questo articolo, il primo di una serie in due parti, approfondiremo il tema del BYOC: che cos’è, perché può essere utile per il tuo team e quando utilizzarlo. In seguito, vedremo sia le opzioni ospitate dal cliente che quelle ospitate da Snowflake. 

Il bello del BYOC

Quando si tratta di trasferimento dati e networking, le aziende in genere devono scegliere tra due tipi di distribuzioni, un’opzione SaaS completamente gestita o un’alternativa self-hosted, ciascuna con i suoi vantaggi e limiti. Un’offerta SaaS gestita è facile da configurare e mantenere, ma spesso manca di flessibilità, mentre il self-hosting consente un maggiore controllo e personalizzazione, ma richiede molto più lavoro, soprattutto all’inizio. 

L’opzione BYOC, tuttavia, sembra rappresentare una soluzione di compromesso che offre i vantaggi di ognuna delle altre: conveniente e scalabile, senza rinunciare a flessibilità e controllo. Con il BYOC, le aziende hanno un servizio gestito direttamente sulla loro infrastruttura cloud. Possono connettere sistemi pubblici e privati in modo sicuro e gestire la pre-elaborazione dei dati sensibili localmente, entro i confini sicuri del loro ambiente cloud interno. Per le aziende più grandi, il BYOC offre anche l’opportunità di approfittare dei prezzi preferenziali potenzialmente previsti dai loro contratti di infrastruttura cloud esistenti, il che aiuta i profitti. Per tutti questi e altri motivi, il modello BYOC sta guadagnando popolarità negli ultimi tempi.

Flussi di dati flessibili

La distribuzione BYOC di Openflow in Snowflake è progettata per soddisfare i clienti là dove risiedono i loro dati. Sblocca sofisticate funzionalità di data engineering preservando la sovranità dei dati e la continuità tra molti sistemi. Con il BYOC, Snowflake si assume l’onere di gestire la distribuzione e i runtime Openflow ospitati sull’infrastruttura del cliente. Semplifichiamo aspetti come l’osservabilità e l’orchestrazione delle pipeline con un’unica dashboard, coniugando facilità d’uso e flessibilità.

Con una distribuzione BYOC, Snowflake aiuta a gestire:

  • Complessità di installazione. Comprendere i dettagli di un determinato ambiente cloud, quindi generare asset infrastructure-as-code che possono essere facilmente condivisi con un team della piattaforma cloud, semplificando notevolmente la distribuzione. 

  • Osservabilità dell’integrazione. Fornisce una guida visiva delle pipeline di integrazione con vista DAG dettagliata e data lineage. 

  • Sicurezza. Fornisce funzionalità di sicurezza avanzate, tra cui autenticazione, autorizzazione granulare, crittografia in transito, gestione dei segreti, AWS PrivateLink e Tri-Secret Secure. 

Ma il più grande vantaggio di una distribuzione BYOC Openflow è la flessibilità offerta da Snowflake. Consente infatti alle aziende di distribuire pipeline in modo sicuro nel modo più adatto all’architettura e alla rete esistenti. Supporta lo spostamento dei dati da qualsiasi origine a qualsiasi destinazione con la libertà di utilizzare un’infrastruttura nuova o consolidata, a seconda delle esigenze dell’azienda. Invece di costringere i dati a scorrere lungo percorsi rigidi e prescritti o di dover progettare complesse e costose soluzioni alternative a ogni curva, Openflow è stato creato per creare pipeline al tempo stesso potenti e flessibili. 

Per i dettagli dei requisiti di una distribuzione BYOC, dal modello di sicurezza e le autorizzazioni richieste, alle opzioni di rete flessibili disponibili nella distribuzione guidata e altro ancora, consulta la documentazione di Openflow.

Openflow ovunque

Noi di Snowflake siamo convinti che le aziende dovranno sempre più eseguire i flussi di dati vicino ai loro sistemi di dati critici, ovunque si trovino. Sia che Openflow venga completamente gestito all’interno di Snowflake (tramite Snowpark Container Services*) o che aiuti le aziende a scrivere su tabelle Apache Iceberg™ gestite esternamente, è l’utente a scegliere. 

Distribuendo capacità di calcolo flessibile, Openflow consente ai data engineer di eseguire il provisioning dei runtime (cluster di calcolo simili ai warehouse) in modalità self-service. Questi runtime sono integrati sia con l’interfaccia utente per l’authorship dei flussi che con la capacità di calcolo necessaria per l’esecuzione dei flussi. Quindi, indipendentemente dal tipo di dati (strutturati o non strutturati, batch o streaming), Openflow fornisce alle organizzazioni tutto ciò di cui hanno bisogno per modernizzare la loro architettura di ingestion di dati. È inoltre la chiave dell’enterprise AI, consentendo processi ETL trasparenti e rivoluzionando completamente lo spostamento dei dati, in Snowflake e non solo.

Per iniziare a implementare Openflow BYOC, consulta la guida introduttiva

Inoltre, guarda on demand Data Engineering Connect: Streamline Data Pipeline Workflows with ZeroOps e scopri come Snowflake consente ai data engineer di automatizzare le pipeline con sicurezza, liberandoli dall’overhead operativo e consentendo loro di concentrarsi su ciò che conta di più.


*Attualmente in private preview per AWS e Azure

Articolo di
Condividi articolo

Subscribe to our blog newsletter

Get the best, coolest and latest delivered to your inbox each week

Where Data Does More

  • prova gratuita di 30 giorni
  • nessuna carta di credito
  • annulli quando vuoi