Strutturare i dati non strutturati con Snowflake Cortex AI Functions
Per anni, l’architettura dati multistrato raw → transformed → curated è stata lo standard di riferimento per trasformare i dati strutturati in risorse pronte per l’analisi, portando disciplina e fiducia nel ciclo di vita dei dati. In questa pipeline consolidata, raw acquisisce i dati grezzi, preservandone lo stato originale; transformed pulisce, arricchisce e integra questi dati in una vista conforme; e curated fornisce dati altamente curati e ottimizzati per il consumo aziendale diretto. Questo approccio aggiunge disciplina, chiarezza e fiducia al ciclo di vita dei dati.
Ma che dire del vasto universo di dati non strutturati che le organizzazioni generano ogni giorno? Informazioni preziose sono racchiuse all’interno di trascrizioni di chiamate, ticket di assistenza e contratti legali, oltre che in immagini e video. Nonostante l’immenso potenziale, questi dati spesso languono in silos frammentati, gestiti da script ad hoc. Questo approccio disarticolato porta a insight incoerenti, processi decisionali più lenti e a una significativa opportunità mancata di sbloccarne il vero valore.
È ora di applicare lo stesso rigore ai dati non strutturati.
Stiamo introducendo un nuovo potente modo di strutturare i dati non strutturati, basato su Snowflake Cortex AI Functions: un flusso di lavoro potente e ripetibile che porta i dati non strutturati direttamente nel tuo data warehouse e li trasforma in insight strutturati e fruibili. Al suo centro c’è una fase transformed ripensata, che utilizza Cortex AI Functions per trasformare i dati non strutturati grezzi in entità estratte, punteggi di sentiment, riassunti e altro ancora, direttamente in SQL. Da qui, questi output arricchiti fluiscono senza problemi nel layer curato, pronti per alimentare dashboard di business intelligence (BI), pipeline di machine learning ed esplorazione in linguaggio naturale con Snowflake Cortex Analyst.
Scopri il nuovo layer transformed per i dati non strutturati
In questo contesto, il layer transformed è l’anello critico tra testo disordinato e non strutturato e analisi strutturate e misurabili. È il punto in cui il testo grezzo diventa qualcosa che l’azienda può analizzare per trend, misurare e su cui può agire.
I principi chiave di questo layer includono:
Approccio nativo: Elabora tutti i dati non strutturati direttamente in Snowflake con Cortex AI Functions. Non è necessario sostenere costi di trasferimento dati per l’elaborazione del linguaggio naturale, il che semplifica l’architettura e migliora la governance.
Allineamento agli obiettivi aziendali: Concentrati sull’estrazione di concetti significativi per l’azienda, come l’identificazione del motivo dell’escalation di una chiamata, dei termini chiave di un contratto o della fase di acquisto di un cliente.
Creazione di risorse riutilizzabili: Crea dati strutturati in grado di alimentare più applicazioni a valle, dalle dashboard BI ai modelli ML e ai sistemi operativi, mantenendo un’unica fonte di riferimento.
Il layer transformed si concentra sulla trasformazione del testo stesso, arricchendolo con un contesto significativo prima ancora che venga interrogato.
Il flusso di lavoro per i dati non strutturati
Il flusso di lavoro segue uno schema familiare, ma con un nuovo layer di intelligenza:
Layer raw: Questo layer iniziale sfrutta Snowflake OpenFlow per connettersi e acquisire dati non strutturati grezzi da qualsiasi fonte. Questo layer contiene il testo completo e non modificato insieme a tutti i metadati, fornendo una base per tracciabilità e audit.
Layer transformed: È qui che viene generato il valore. Cortex AI Functions può trasformare i dati grezzi di testo, audio e immagini in un formato strutturato facilmente utilizzabile.
Layer curated: Questo layer integra i nuovi dati strutturati con altri data set aziendali. Qui crei tabelle curate con indicatori chiave di performance (KPI) e metriche business-critical.
Layer consumption: La destinazione finale dei tuoi insight. I dati sono ora pronti per essere utilizzati da strumenti di BI, pipeline ML e Cortex Analyst per query in linguaggio naturale.
Potenziare il layer transformed con Cortex AI Functions
Le Cortex AI Functions di Snowflake sono il motore del layer transformed per i dati non strutturati, progettate per sbloccare gli insight dal testo direttamente nel tuo data warehouse. Ecco alcuni esempi di funzioni Cortex AI Functions. Per maggiori informazioni, consulta questo articolo sul blog e la documentazione Snowflake.
AI_COMPLETE: Utilizza questa funzione generica per estrarre informazioni chiave o generare un riassunto conciso da un singolo record di testo o immagine.
AI_CLASSIFY: Classifica i contenuti in una tassonomia aziendale predefinita, ad esempio ordinando le chiamate dei clienti in categorie come "billing_issue", "technical_support" o "cancellation".
AI_FILTER: Identifica rapidamente le righe che soddisfano condizioni specifiche definite dal business. È ideale per filtrare i dati non essenziali o segnalare eventi importanti, ad esempio rilevare se un ticket di assistenza è un reclamo.
AI_SIMILARITY: Trova casi o documenti simili, ideale per abbinare nuovi problemi a problemi noti per una risoluzione più rapida.
AI_AGG / AI_SUMMARIZE_AGG: Riepiloga gli insight su un gran numero di record per generare riepiloghi di alto livello per il reporting esecutivo.
AI_EMBED: Genera vector embedding per testo o immagini, consentendo ricerche semantiche avanzate e confronti di similarità.
AI_TRANSCRIBE: Converte la lingua parlata da file audio in testo, rendendo i dati audio ricercabili e analizzabili all’interno di Snowflake.
Queste funzioni consentono di andare oltre le semplici ricerche per parole chiave ed eseguire analisi sofisticate e allineate al business sui dati testuali in modo coerente e governato.
Esempio: analytics per call center
Immagina un’organizzazione di assistenza clienti con migliaia di trascrizioni di chiamate, ma i manager non riescono facilmente a ottenere risposte a domande critiche come:
Perché chiamano i clienti?
Quali sono i casi di escalation?
Come va il sentiment dei clienti?
Quali problemi noti sono ricorrenti?
Con il layer di analisi e Cortex AI Functions, puoi trasformare queste domande in un flusso di lavoro ripetibile. Il primo passo è trasformare le trascrizioni delle singole chiamate in dati strutturati a livello di riga.
Quando il file originale è audio, AI_TRANSCRIBE di Snowflake può essere utilizzato per trascrivere direttamente il testo dal file audio.
Ecco una singola query SQL che dimostra come utilizzare più Cortex AI Functions per trasformare un testo grezzo di trascrizione, dopo essere stato trascritto dall’audio utilizzando AI_TRANSCRIBE, in un record strutturato.
-- This query transforms a raw call transcript into a structured, analytics-ready record. It demonstrates row-level extractions using AI_CLASSIFY, AI_FILTER, AI_SIMILARITY, and AI_COMPLETE.
WITH call_transcripts_raw AS (
SELECT
'I am calling about a recurring charge on my account that I do not recognize. I am very upset and would like to cancel my service.' AS transcript_txt,
'CUST-1234' AS customer_id
)
SELECT
customer_id,
AI_CLASSIFY(transcript_txt,
['billing_issue', 'technical_support', 'cancellation', 'complaint']) AS call_intent,
AI_FILTER(CONCAT(
'Does this call contain any strong signs of customer escalation or complaint?:',transcript_txt)) AS is_escalation_flag,
AI_SIMILARITY(transcript_txt,
'Customer upset about an unknown billing charge on their statement.') AS known_issue_match_score,
AI_COMPLETE('claude-3-5-sonnet',
CONCAT('Extract the main reason for the customer call and their desired outcome in a single sentence.', transcript_txt)) AS call_summary
FROM call_transcripts_raw;Esempio di output:
Utilizzo di AI_AGG per creare executive summary
Mentre funzioni come AI_CLASSIFY e AI_FILTER lavorano riga per riga, AI_AGG è una funzione aggregata che consolida gli insight su molti record. È lo strumento perfetto per il layer curated del framework, in cui creerai riassunti curati di alto livello per un pubblico executive.
Ecco un semplice esempio che mostra come AI_AGG può prendere una serie di trascrizioni di chiamate e riassumere i punti chiave in un’unica dichiarazione coerente.
-- This query demonstrates using AI_AGG to create a summary of key issues
-- from a collection of raw call transcripts. This is a common operation
-- for generating curated insights for the Gold layer.
-- Simulate a raw dataset with multiple call transcripts
WITH call_transcripts_raw AS (
SELECT 'I am having trouble logging into my account after the recent update. The password reset isn''t working.' AS transcript_txt UNION ALL
SELECT 'My credit card was charged twice for my subscription this month. I need a refund immediately.' AS transcript_txt UNION ALL
SELECT 'I would like to cancel my subscription, as I no longer use the service.' AS transcript_txt UNION ALL
SELECT 'The mobile app keeps crashing every time I try to access my profile. This is very frustrating.' AS transcript_txt
)
-- Use AI_AGG to summarize the key topics from all transcripts
SELECT
AI_AGG(transcript_txt, 'Summarize the top three customer issues from these transcripts.') AS weekly_issue_summary
FROM
call_transcripts_raw;
Vantaggi del framework strutturato per i dati non strutturati
Applicando il framework multilivello strutturato ai dati non strutturati, si ottiene:
Governance e data lineage: Gestisci tutte le elaborazioni non strutturate all’interno di Snowflake, mantenendo un audit trail completo e una lineage completa dal testo grezzo agli insight strutturati.
Coerenza e riutilizzo: Crea un’unica pipeline di arricchimento in grado di servire più team aziendali, eliminando silos di dati e definizioni incoerenti.
Scalabilità e fiducia: Estendi il framework a qualsiasi dominio, dalle trascrizioni di supporto ai contratti legali, e riconduci ogni fatto strutturato al testo di origine, aumentando la fiducia nei dati.
Conclusione
In definitiva, questo approccio strutturato ai dati non strutturati, basato su Snowflake Cortex AI Functions, è trasformativo. Consente di trattare finalmente i dati non strutturati — il tuo asset più prezioso e non sfruttato — con lo stesso livello di disciplina, governance e rigore che applichi al resto del tuo ecosistema di dati.
Scopriamo subito come iniziare.
Identifica una fonte non strutturata di alto valore, come ticket di assistenza clienti o chiamate di vendita.
Definisci i valori specifici da estrarre da quel testo.
Implementa il tuo layer transformed per i dati non strutturati in Snowflake con Cortex AI Functions.
Portando i contenuti non strutturati in un framework multilivello strutturato, puoi smettere di trattarli come un difficile ripensamento e iniziare a trasformarli in un driver affidabile per le decisioni strategiche aziendali.

