Estrarre informazioni utili dai documenti più complessi con Snowflake Document AI

Le aziende di oggi utilizzano una quantità e varietà incredibile di documenti, da semplici fatture a complessi contratti legali e manuali tecnici con tabelle dettagliate a più colonne. Elaborare questi documenti manualmente non è solo lento e richiede molte risorse, ma è anche soggetto a errori, con le organizzazioni che perdono fino al 15-25% del tempo dei dipendenti in queste noiose attività.
Negli anni, le imprese hanno tentato di risolvere questi problemi con la robotica dei processi, il riconoscimento ottico dei caratteri e strumenti di gestione dei workflow, ma queste soluzioni sono spesso rigide, complesse da mantenere e scalare, e soprattutto adottate dai singoli team aziendali in modo isolato.
La soluzione risiede nell'automazione potenziata dall'AI, che può ridurre i costi di un fattore dieci. Tuttavia, la complessità e la variabilità di questi documenti rappresentano una grande sfida e quando documenti riccamente strutturati vengono elaborati con strumenti di base che li trattano come testo semplice, il contesto aziendale critico viene perso, compromettendo l'efficacia delle analisi e dell'AI.
Per superare queste sfide, le aziende hanno bisogno di un sistema di elaborazione intelligente dei documenti (IDP) o Document AI che possa fornire una piattaforma centralizzata per estrarre facilmente, automaticamente e con precisione le informazioni rilevanti intrappolate in questi documenti.

Elaborazione dei documenti intelligente end-to-end in Snowflake con Document AI
Snowflake fornisce una piattaforma completa, end-to-end per la document intelligence, integrata senza soluzione di continuità all'interno dell'AI Data Cloud. Questo consente alle organizzazioni di gestire l'intero ciclo di vita dell'elaborazione dei documenti, dall'ingestion e estrazione alla validazione e applicazione, tutto all'interno di un ambiente unico, sicuro e governato.
Il componente centrale di questo ecosistema è Snowflake Cortex AI, che fornisce i mattoni per costruire applicazioni intelligenti. Le funzionalità includono:
- Framework componibile: Combina interfacce native di Snowflake, funzioni, LLM e logica Python per flussi di lavoro personalizzati
- Supporto del ciclo di vita end-to-end: Ingestion, estrazione, validazione e applicazione dei dati dei documenti tutto all'interno di Snowflake
- Compatibilità multi-formato: Elabora PDF, immagini, scansioni di testi scritti a mano e oltre 10 formati senza conversione
- Dati strutturati e non strutturati insieme: Allinea i dati dei documenti direttamente con le fonti strutturate in Snowflake
- Intelligence multimodale: Usa testo, layout, tabelle e immagini insieme per una comprensione completa e accurata
- Supporto per Human-in-the-Loop: Aggiungi flussi di lavoro di revisione, gestione delle eccezioni e logica di convalida con facilità
- Addestramento modelli personalizzato: Esegui il fine tuning dei modelli di estrazione o utilizza quelli pre-addestrati con supporto integrato
- Distribuzione nativa, governance centralizzata: Esegui tutto nella piattaforma con la sicurezza e l'osservabilità integrate di Snowflake

Nuove innovazioni
Abbiamo recentemente migliorato le nostre capacità di elaborazione dei documenti per aiutarti a portare la document intelligence aziendale al livello successivo:
- AI_EXTRACT è una nuova funzione AISQL che offre il metodo più efficiente e scalabile per estrarre qualsiasi informazione dai tuoi documenti, immagini e testi. È alimentato dall’ultimo modello proprietario Snowflake Arctic-Extract e supporta 29 lingue.
- La modalità PARSE_DOCUMENT LAYOUT preserva la ricchezza strutturale dei documenti aziendali complessi durante l'estrazione per un miglior RAG aziendale
- Estrazione tabelle in Document AI ora estrae dati strutturati e colonnari dalle tabelle all'interno dei tuoi documenti, rendendoli pronti per un'analisi immediata
Approfondiamo queste capacità.
Costruire ed esegure pipeline di elaborazione dei documenti programmaticamente su larga scala
AI_Extract è la nostra soluzione di inferenza API SQL per trasformare dati diversi e non strutturati in un formato strutturato su scala aziendale. Ti consente di estrarre informazioni strutturate da fonti come testo, immagini e documenti e unificarle in un formato standard per analisi efficienti.
Questa funzione è alimentata da Arctic-Extract, il modello di comprensione dei documenti di nuova generazione di Snowflake che elabora informazioni su immagini, testi e layout in un singolo passaggio, per tempi di inferenza e addestramento ridotti.

L'approccio API first di AI_EXTRACT consente una pratica di "infrastruttura come codice", consentendo agli utenti di estrarre dati programmaticamente e definire dinamicamente il prompt di estrazione per un dato documento senza utilizzare un'interfaccia utente. Questo fornisce la flessibilità per gestire documenti con formati diversi, come fatture di vari fornitori. Le capacità aggiuntive includono il supporto per 29 lingue e la normalizzazione intelligente di formati di dati variabili come date e valute.
Parsing del layout per documenti multimodali complessi
Quando si analizzano documenti finanziari come i bilanci, comprendere i numeri presenti nelle tabelle o colonne tenendo conto del contesto è fondamentale. Un'elaborazione documentale tradizionale può estrarre correttamente pezzi di dati ma perdere completamente la nota a piè di pagina cruciale per comprendere le condizioni di debito o i tassi di interesse. Questo interrompe il legame essenziale tra una voce della tabella, come Debito a lungo termine, e la spiegazione corrispondente. Problemi come questo limitano le capacità di analisi o dei sistemi AI che utilizzano il valore estratto ai soli dati superficiali.
La modalità PARSE_DOCUMENT LAYOUT è progettata specificamente per risolvere questo tipo di problema. Preservando il layout preciso del documento, comprende il contesto associato alle informazioni richieste, sia che contenga tabelle, immagini o un altro layout complesso. Questo garantisce che l'integrità dei documenti, come le dichiarazioni SEC che contengono tabelle complesse nell'esempio sottostante, sia mantenuta durante l'elaborazione.

Di conseguenza, puoi andare oltre il semplice retrieval dei dati (RAG) e eseguire indagini analitiche approfondite sui documenti. Invece di chiedere solo il valore totale degli attivi, ora puoi porre domande molto più specifiche come:
- "Quali sono le date di scadenza e i tassi di interesse per gli strumenti di debito elencati nella tabella Passività?"
- "Sulla base delle note, quali sono stati i principali fattori che hanno contribuito all'aumento dell'avviamento in questo trimestre?"
- "Riassumi la politica contabile dell'azienda per il riconoscimento dei ricavi come descritto nel testo che precede il conto economico."
Estrazione accurata delle tabelle dai documenti
Adesso per prendere decisioni aziendali informate devi spesso analizzare documenti complessi come contratti, fatture e altri bilanci finanziari. Un classico esempio è il report finanziario annuale, che contiene dati dettagliati sulle performance finanziarie organizzati in tabelle complesse. Questo rende l'estrazione automatizzata una sfida notevole, mentre l'estrazione manuale di questi dati è un processo lento, soggetto a errori e ad alto consumo di risorse.
Snowflake Document AI affronta questa sfida direttamente con la nuova funzione Table Extract. Prendiamo l'esempio dell'aggiornamento World Economic Outlook 2025 dell’FMI che ha più tabelle con strutture quasi identiche.
Come mostrato nell'immagine sottostante, Document AI esegue un'estrazione zero-shot che identifica la tabella corretta dal documento ed estrae tutti i dati in un formato strutturato, anche con intestazioni e righe annidate. Il modello sottostante è abbastanza potente da gestire questi layout complessi senza fine tuning.

Oltre all'estrazione zero-shot, puoi anche utilizzare l'estrazione basata su schema definendo uno schema e specificando le colonne desiderate in linguaggio naturale. Per i documenti che contengono più tabelle con un formato simile, un campo "Locator" può essere utilizzato per identificare e puntare in modo univoco alla tabella corretta. Infine, l'estrazione delle tabelle in Document AI ti consente di annotare ed eseguire il fine tuning del modello per migliorare l'accuratezza dell'estrazione.
Inizia a sfruttare la document intelligence in Snowflake
Elaborare documenti complessi non è più un compito manuale lento, soggetto a errori e ad alto consumo di risorse. Le soluzioni automatizzate tradizionali, che sono rigide e privano del contesto aziendale critico, sono un ricordo del passato. Snowflake Cortex AI fornisce una piattaforma completa, end-to-end per la document intelligence, consentendoti di gestire l'intero ciclo di vita dell'elaborazione dei documenti all'interno di un ambiente unico, sicuro e governato.
Fai clic qui per scoprire come puoi utilizzare Cortex AI per costruire un assistente LLM basato sulla Retrieval Augmented Generation (RAG) o inizia subito il tuo trial gratuito di 30 giorni.



