복잡성이 높은 문서에서 실행 가능한 인사이트를 도출하는 Snowflake Document AI

unclock actionable insights

오늘날 여러 기업이 간단한 인보이스부터 복잡한 법적 계약, 세부적인 다중 컬럼 테이블로 구성된 기술 매뉴얼에 이르기까지 방대한 양과 다양한 문서를 다루고 있습니다. 이러한 문서를 수동으로 처리하는 것은 느리고 리소스를 많이 소모할 뿐만 아니라 오류가 발생하기 쉬워, 조직은 이와 같은 지루한 작업에 직원 시간의 15~25%를 낭비하고 있습니다.

수년 동안 많은 기업이 이러한 문제를 해결하기 위해 RPA, OCR 및 여러 워크플로 도구에 의존해 왔지만 이들 솔루션은 유연성이 없고 유지 관리 및 확장이 복잡하며, 개별 비즈니스 팀에서 독립적으로 사용되는 경우가 많습니다.

이에 대한 해결책은 비용을 10배 절감할 수 있는 AI 기반 자동화에 있습니다. 그러나 이러한 문서의 복잡성과 가변성은 중대한 과제로 이어지며, 풍부하게 구조화된 문서가 기본 도구를 통해 평면 텍스트로 처리되면 핵심 비즈니스 컨텍스트가 손실되어 분석 및 AI의 효과를 떨어뜨립니다.

기업이 이와 같은 문제를 극복하려면 문서에 저장된 관련 정보를 손쉽고 정확하게 자동 추출할 수 있는 중앙 집중식 플랫폼을 제공하는 지능형 문서 처리(IDP) 시스템 또는 Document AI가 필요합니다.

document ai

Snowflake에서 Document AI를 활용한 엔드투엔드 지능형 문서 처리 실현

Snowflake는 문서 지능을 위한 포괄적인 엔드투엔드 플랫폼을 제공하며, 이는 AI 데이터 클라우드에 원활하게 통합되어 있습니다. 조직은 이를 통해 수집 및 추출에서 검증 및 애플리케이션에 이르기까지 문서 처리의 전체 수명 주기를 안전하며 거버넌스가 적용된 단일 환경 내에서 관리할 수 있습니다.

이 생태계의 핵심 구성 요소는 Snowflake Cortex AI로, 지능형 애플리케이션을 위한 기본 구성 요소를 제공합니다. 이에는 다음 주요 기능이 포함됩니다.

  • 구성 가능한 프레임워크: Snowflake 네이티브 인터페이스, 함수, LLM 및 Python 로직을 결합하여 맞춤형 워크플로우를 제공합니다.
  • 엔드투엔드 수명 주기 지원: Snowflake 내에서 문서 데이터를 수집, 추출, 검증 및 적용합니다.
  • 다중 형식 호환성: PDF, 이미지, 손글씨 스캔 등 10개 이상의 형식을 변환 없이 처리합니다.
  • 정형 및 비정형 데이터 융합: 문서 데이터를 정형화된 Snowflake 소스와 직접 일치시킵니다.
  • 멀티 모달 지능: 텍스트, 레이아웃, 테이블 및 이미지를 함께 사용하여 완전하고 정확한 이해를 돕습니다.
  • 사람의 검토 및 승인 지원: 검토 워크플로우, 예외 처리 및 검증 로직을 손쉽게 추가할 수 있습니다.
  • 사용자 지정 모델 훈련: 추출 모델을 파인튜닝하거나 통합 지원이 포함된 사전 훈련된 모델을 사용할 수 있습니다.
  • 네이티브 배포, 중앙 관리: Snowflake의 내장형 보안 및 옵저버빌리티로 플랫폼 내에서 모든 것을 실행합니다.
ingest-orchestration-production

주목할 만한 새로운 혁신

Snowflake는 최근 문서 처리 기능을 향상시켜 조직이 문서 지능을 다음 단계로 끌어올릴 수 있도록 지원하고 있습니다.

  • AI_EXTRACT는 새로운 AISQL 함수로, 문서, 이미지 및 텍스트에서 정보를 추출하는 가장 효율적이고 확장 가능한 방법을 제공합니다. 또한, Snowflake의 최신 독점 모델인 Arctic-Extract에 의해 구동되며, 29개 언어를 지원합니다. 자세한 내용은 해당 링크를 참조하세요. 
  • PARSE_DOCUMENT LAYOUT 모드는 추출 중에 복잡한 비즈니스 문서가 가진 풍부한 구조적 특성을 보존하여 엔터프라이즈 RAG를 개선합니다.
  • Document AI의 Table Extraction은 이제 문서 내 테이블에서 정형화된 컬럼 기반 데이터를 추출하여 즉시 분석할 수 있도록 지원합니다.

각 항목에 대해 좀 더 자세히 살펴보겠습니다.

 

문서 처리 파이프라인을 프로그래밍 방식으로 대규모로 구축 및 실행

마침내 공개된 AI_EXTRACT는 다양한 비정형 데이터를 엔터프라이즈 규모의 정형화된 형식으로 변환하는 SQL API 추론 솔루션입니다. 이를 통해 텍스트, 이미지 및 문서와 같은 소스에서 정형화된 정보를 추출하고, 해당 정보를 효율적인 분석을 위해 표준 형식으로 통합할 수 있습니다. 

AI_EXTRACT는 이미지, 텍스트 및 레이아웃 정보를 단일 패스로 처리하여 추론 및 훈련 시간을 단축하는 Snowflake의 차세대 문서 이해 모델인 Arctic-Extract를 기반으로 구동됩니다.

artic-extract
This chart displays a performance comparison of seven Intelligent Document Processing solutions on the DocVQA (Document Visual Question Answering) benchmark.

AI_EXTRACT의 API 우선 접근 방식은 "코드형 인프라(Infrastructure as a Code)"를 가능하게 하여 사용자는 UI 없이도 주어진 문서에 대한 데이터 추출을 프로그래밍 방식으로 수행하고 동적으로 추출 프롬프트를 정의할 수 있습니다. 이를 통해 다양한 공급업체의 인보이스와 같은 서로 다른 형식의 문서를 처리할 수 있는 유연성을 확보할 수 있습니다. 이뿐만 아니라 29개 언어에 대한 지원을 비롯하여, 날짜 및 통화와 같은 변수 데이터 형식의 지능형 정규화 등이 추가 기능으로 제공됩니다.

 

복잡한 멀티 모달 문서에 대한 레이아웃 인식 구문 분석

대차대조표와 같은 재무 문서를 분석할 때, 테이블이나 컬럼에 있는 숫자의 컨텍스트를 이해하는 것이 중요합니다. 기존의 문서 처리의 경우 데이터 요소를 올바르게 추출할 수는 있지만, 부채 조건이나 이자율을 자세히 설명하는 중요한 각주를 완전히 놓칠 수 있습니다. 이로 인해 장기 부채와 같은 항목과 해당 숫자를 정당화하는 설명 간의 필수적인 연결이 끊어집니다. 이러한 문제는 분석이나 추출된 값을 사용하는 AI 시스템의 기능을 표면 수준 데이터로만 제한합니다.

PARSE_DOCUMENT LAYOUT 모드는 이와 같은 과제를 해결하고자 특별히 설계되었습니다. 테이블, 이미지 또는 다른 복잡한 레이아웃이 포함되어 있더라도 문서의 레이아웃을 정확히 유지함으로써 필요한 정보와 관련 컨텍스트를 이해할 수 있습니다. 이는 아래 예시에도 잘 나타나 있습니다. 복잡한 테이블을 포함하는 SEC 문서의 무결성이 처리 중에도 유지되는 것을 알 수 있습니다.

parse

결과적으로 단순한 데이터 검색(RAG)을 넘어 문서에 대한 심층적인 분석 질의를 수행할 수 있습니다. 총 자산의 가치에 대해 묻는 대신, 다음과 같이 훨씬 더 구체적인 질문을 할 수 있습니다.

  • “'부채' 테이블에 나열된 채무 상품의 만기일과 이자율은 무엇인가요?”
  • "주석에 따르면, 이번 분기에 '영업권'이 증가한 주요 원인은 무엇이었나요?”
  • “손익계산서 앞에 있는 본문 내용에 설명된 대로 회사의 수익 인식 회계 정책을 요약하세요.”

 

문서에서 정확한 테이블 추출 

정보에 기반한 비즈니스 결정을 내리려면 계약서, 인보이스 및 기타 재무 제표와 같은 복잡한 문서를 분석해야 합니다. 일반적인 예는 매년 발행되는 10-K 보고서로, 복잡한 테이블에 상세한 재무 성과 데이터를 포함하고 있어 자동 추출은 큰 과제로 여겨집니다. 해당 데이터를 수동으로 추출하는 것은 느리고 오류가 발생하기 쉬운, 리소스 집약적인 프로세스입니다.

Snowflake Document AI는 새로운 Table Extract 기능으로 이 과제를 정면 돌파합니다. 2025 세계 경제 전망 업데이트를 예로 들어 보겠습니다. 이 문서에는 거의 동일한 구조로 구성된 여러 테이블이 있습니다.

아래 이미지에서 볼 수 있듯이, Document AI는 문서에서 올바른 테이블을 식별하고 중첩된 헤더와 행이 있는 경우에도 모든 데이터를 정형화된 형식으로 추출하는 제로샷 추출을 수행합니다. 해당 기본 모델은 이러한 복잡한 레이아웃을 파인튜닝 없이 처리할 수 있을 만큼 강력합니다.

world-economic

제로샷 추출뿐만 아니라, 스키마 기반 추출을 활용하면 스키마를 정의하고 자연어로 원하는 컬럼을 지정할 수 있습니다. 유사한 형식을 가진 여러 테이블이 포함된 문서의 경우, ‘Locator’ 필드를 사용하여 올바른 테이블을 고유하게 식별하고 타겟팅할 수 있습니다. 마지막으로, Document AI의 Table Extract를 통해 모델의 주석 작업 및 파인튜닝을 수행하여 추출 정확도를 향상시킬 수도 있습니다.

 

Snowflake에서 지능형 문서 처리 시작하기

복잡한 문서 처리는 더 이상 느리고 오류가 발생하기 쉬우며 리소스 집약적인 수동 작업이 아닙니다. 비즈니스 컨텍스트를 고려하지 않는 기존의 경직된 자동화 솔루션은 이제 구시대의 유물입니다. Snowflake Cortex AI는 문서 지능을 위한 포괄적인 엔드투엔드 플랫폼을 제공하여 안전하고 거버넌스가 적용된 단일 환경 내에서 전체 문서 처리 수명 주기를 관리할 수 있도록 지원합니다.

Cortex AI를 사용하여 검색 증강 생성(RAG) 기반 LLM 어시스턴트를 구축하는 방법을 배우려면 여기를 클릭하세요. 30일 무료 평가판을 통해 체험하실 수도 있습니다.

Subscribe to our blog newsletter

Get the best, coolest and latest delivered to your inbox each week

30일 무료 평가판시작하기

Snowflake를 30일 동안 무료로 사용해 보세요. 다른 솔루션에 내재된 복잡성, 비용 부담, 제약 조건 등을 해소하는 데 도움이 되는 AI 데이터 클라우드를 경험하실 수 있습니다.