Estrarre informazioni utili dai documenti più complessi con Snowflake Document AI

unclock actionable insights

Le aziende di oggi utilizzano una quantità e varietà incredibile di documenti, da semplici fatture a complessi contratti legali e manuali tecnici con tabelle dettagliate a più colonne. Elaborare questi documenti manualmente non è solo lento e richiede molte risorse, ma è anche soggetto a errori, con le organizzazioni che perdono fino al 15-25% del tempo dei dipendenti in queste noiose attività.

Negli anni, le imprese hanno tentato di risolvere questi problemi con la robotica dei processi, il riconoscimento ottico dei caratteri e strumenti di gestione dei workflow, ma queste soluzioni sono spesso rigide, complesse da mantenere e scalare, e soprattutto adottate dai singoli team aziendali in modo isolato.

La soluzione risiede nell'automazione potenziata dall'AI, che può ridurre i costi di un fattore dieci. Tuttavia, la complessità e la variabilità di questi documenti rappresentano una grande sfida e quando documenti riccamente strutturati vengono elaborati con strumenti di base che li trattano come testo semplice, il contesto aziendale critico viene perso, compromettendo l'efficacia delle analisi e dell'AI.

Per superare queste sfide, le aziende hanno bisogno di un sistema di elaborazione intelligente dei documenti (IDP) o Document AI che possa fornire una piattaforma centralizzata per estrarre facilmente, automaticamente e con precisione le informazioni rilevanti intrappolate in questi documenti.

document ai

Elaborazione dei documenti intelligente end-to-end in Snowflake con Document AI

Snowflake fornisce una piattaforma completa, end-to-end per la document intelligence, integrata senza soluzione di continuità all'interno dell'AI Data Cloud. Questo consente alle organizzazioni di gestire l'intero ciclo di vita dell'elaborazione dei documenti, dall'ingestion e estrazione alla validazione e applicazione, tutto all'interno di un ambiente unico, sicuro e governato.

Il componente centrale di questo ecosistema è Snowflake Cortex AI, che fornisce i mattoni per costruire applicazioni intelligenti. Le funzionalità includono:

  • Framework componibile: Combina interfacce native di Snowflake, funzioni, LLM e logica Python per flussi di lavoro personalizzati
  • Supporto del ciclo di vita end-to-end: Ingestion, estrazione, validazione e applicazione dei dati dei documenti tutto all'interno di Snowflake
  • Compatibilità multi-formato: Elabora PDF, immagini, scansioni di testi scritti a mano e oltre 10 formati senza conversione
  • Dati strutturati e non strutturati insieme: Allinea i dati dei documenti direttamente con le fonti strutturate in Snowflake
  • Intelligence multimodale: Usa testo, layout, tabelle e immagini insieme per una comprensione completa e accurata
  • Supporto per Human-in-the-Loop: Aggiungi flussi di lavoro di revisione, gestione delle eccezioni e logica di convalida con facilità
  • Addestramento modelli personalizzato: Esegui il fine tuning dei modelli di estrazione o utilizza quelli pre-addestrati con supporto integrato
  • Distribuzione nativa, governance centralizzata: Esegui tutto nella piattaforma con la sicurezza e l'osservabilità integrate di Snowflake
ingest-orchestration-production

Nuove innovazioni

Abbiamo recentemente migliorato le nostre capacità di elaborazione dei documenti per aiutarti a portare la document intelligence aziendale al livello successivo:

  • AI_EXTRACT è una nuova funzione AISQL che offre il metodo più efficiente e scalabile per estrarre qualsiasi informazione dai tuoi documenti, immagini e testi. È alimentato dall’ultimo modello proprietario Snowflake Arctic-Extract e supporta 29 lingue.  
  • La modalità PARSE_DOCUMENT LAYOUT preserva la ricchezza strutturale dei documenti aziendali complessi durante l'estrazione per un miglior RAG aziendale
  • Estrazione tabelle in Document AI ora estrae dati strutturati e colonnari dalle tabelle all'interno dei tuoi documenti, rendendoli pronti per un'analisi immediata

Approfondiamo queste capacità.

 

Costruire ed esegure pipeline di elaborazione dei documenti programmaticamente su larga scala

AI_Extract è la nostra soluzione di inferenza API SQL per trasformare dati diversi e non strutturati in un formato strutturato su scala aziendale. Ti consente di estrarre informazioni strutturate da fonti come testo, immagini e documenti e unificarle in un formato standard per analisi efficienti. 

Questa funzione è alimentata da Arctic-Extract, il modello di comprensione dei documenti di nuova generazione di Snowflake che elabora informazioni su immagini, testi e layout in un singolo passaggio, per tempi di inferenza e addestramento ridotti.

artic-extract
This chart displays a performance comparison of seven Intelligent Document Processing solutions on the DocVQA (Document Visual Question Answering) benchmark.

L'approccio API first di AI_EXTRACT consente una pratica di "infrastruttura come codice", consentendo agli utenti di estrarre dati programmaticamente e definire dinamicamente il prompt di estrazione per un dato documento senza utilizzare un'interfaccia utente. Questo fornisce la flessibilità per gestire documenti con formati diversi, come fatture di vari fornitori. Le capacità aggiuntive includono il supporto per 29 lingue e la normalizzazione intelligente di formati di dati variabili come date e valute.

 

Parsing del layout per documenti multimodali complessi

Quando si analizzano documenti finanziari come i bilanci, comprendere i numeri presenti nelle tabelle o colonne tenendo conto del contesto è fondamentale. Un'elaborazione documentale tradizionale può estrarre correttamente pezzi di dati ma perdere completamente la nota a piè di pagina cruciale per comprendere le condizioni di debito o i tassi di interesse. Questo interrompe il legame essenziale tra una voce della tabella, come Debito a lungo termine, e la spiegazione corrispondente. Problemi come questo limitano le capacità di analisi o dei sistemi AI che utilizzano il valore estratto ai soli dati superficiali.

La modalità PARSE_DOCUMENT LAYOUT è progettata specificamente per risolvere questo tipo di problema. Preservando il layout preciso del documento, comprende il contesto associato alle informazioni richieste, sia che contenga tabelle, immagini o un altro layout complesso. Questo garantisce che l'integrità dei documenti, come le dichiarazioni SEC che contengono tabelle complesse nell'esempio sottostante, sia mantenuta durante l'elaborazione.

parse

Di conseguenza, puoi andare oltre il semplice retrieval dei dati (RAG) e eseguire indagini analitiche approfondite sui documenti. Invece di chiedere solo il valore totale degli attivi, ora puoi porre domande molto più specifiche come:

  • "Quali sono le date di scadenza e i tassi di interesse per gli strumenti di debito elencati nella tabella Passività?"
  • "Sulla base delle note, quali sono stati i principali fattori che hanno contribuito all'aumento dell'avviamento in questo trimestre?"
  • "Riassumi la politica contabile dell'azienda per il riconoscimento dei ricavi come descritto nel testo che precede il conto economico."

 

Estrazione accurata delle tabelle dai documenti 

Adesso per prendere decisioni aziendali informate devi spesso analizzare documenti complessi come contratti, fatture e altri bilanci finanziari. Un classico esempio è il report finanziario annuale, che contiene dati dettagliati sulle performance finanziarie organizzati in tabelle complesse. Questo rende l'estrazione automatizzata una sfida notevole, mentre l'estrazione manuale di questi dati è un processo lento, soggetto a errori e ad alto consumo di risorse.

Snowflake Document AI affronta questa sfida direttamente con la nuova funzione Table Extract. Prendiamo l'esempio dell'aggiornamento World Economic Outlook 2025 dell’FMI che ha più tabelle con strutture quasi identiche.

Come mostrato nell'immagine sottostante, Document AI esegue un'estrazione zero-shot che identifica la tabella corretta dal documento ed estrae tutti i dati in un formato strutturato, anche con intestazioni e righe annidate. Il modello sottostante è abbastanza potente da gestire questi layout complessi senza fine tuning.

world-economic

Oltre all'estrazione zero-shot, puoi anche utilizzare l'estrazione basata su schema definendo uno schema e specificando le colonne desiderate in linguaggio naturale.  Per i documenti che contengono più tabelle con un formato simile, un campo "Locator" può essere utilizzato per identificare e puntare in modo univoco alla tabella corretta. Infine, l'estrazione delle tabelle in Document AI ti consente di annotare ed eseguire il fine tuning del modello per migliorare l'accuratezza dell'estrazione.

 

Inizia a sfruttare la document intelligence in Snowflake

Elaborare documenti complessi non è più un compito manuale lento, soggetto a errori e ad alto consumo di risorse. Le soluzioni automatizzate tradizionali, che sono rigide e privano del contesto aziendale critico, sono un ricordo del passato. Snowflake Cortex AI fornisce una piattaforma completa, end-to-end per la document intelligence, consentendoti di gestire l'intero ciclo di vita dell'elaborazione dei documenti all'interno di un ambiente unico, sicuro e governato.

Fai clic qui per scoprire come puoi utilizzare Cortex AI per costruire un assistente LLM basato sulla Retrieval Augmented Generation (RAG) o inizia subito il tuo trial gratuito di 30 giorni.

Misurare i miglioramenti delle prestazioni con Snowflake Performance Index

Snowflake Performance Index (SPI) misura i miglioramenti delle performance di utilizzo effettive e il rapporto prezzo/prestazioni di Snowflake. Scopri di più qui.

Portare l’AI generativa e i LLM dove si trovano i dati

Scopri la visione e i progressi di Snowflake nel campo dell’AI generativa e dei LLM, tra cui Snowpark Container Services (in private preview) per i LLM.

Potenziare le imprese con la convergenza di 5G e piattaforme AI Data Cloud

Snowflake ed Ericsson stanno cambiando le industrie combinando 5G, AI e data collaboration per trasformare rapidamente dati complessi in insight utili e tempestivi.

Il futuro della gestione dei dati è l’Agentic AI

Scopri come l’Agentic AI e l’alleanza Deloitte‐Snowflake stanno rivoluzionando la gestione dei dati con automazione, insight in tempo reale e intelligence scalabile.

Semplificare l’analisi multimodale dei dati con Snowflake Cortex AI

Combina facilmente dati strutturati e non strutturati con Snowflake Cortex AI. Analizza testo, immagini, audio e video per ottenere insight più approfonditi con SQL.

Capacità di calcolo adattiva Snowflake ancora più facile con un rapporto prezzo/prestazioni migliore

Scopri come Snowflake Adaptive Compute con scalabilità e ottimizzazione intelligenti semplifica l’uso dei warehouse con prezzi/prestazioni migliori.

Snowflake investe in Theom per automatizzare la protezione dei dati

Snowflake investe in Theom per automatizzare la protezione dei dati e semplificare la governance in ambienti complessi utilizzando sicurezza basata sull’AI.

Snowflake offre alle aziende un’AI più intelligente e governata

Snowflake aiuta le aziende a scalare un’AI intelligente e governata con nuove funzionalità come Snowflake Intelligence, sviluppo intuitivo di data agent e MLOps avanzati.

Scalare l’analisi del testo non strutturato con un’efficiente inferenza LLM in batch

Insight da testo non strutturato su scala con un’efficiente inferenza LLM batch con Snowflake Cortex AI, semplifica l’analisi del testo su larga scala con SQL.

Subscribe to our blog newsletter

Get the best, coolest and latest delivered to your inbox each week

Where Data Does More

  • prova gratuita di 30 giorni
  • nessuna carta di credito richiesta
  • annulli quando vuoi