Snowflake Cortex AI Functions를 활용한 비정형 데이터 구조화

수년간 가공 전(raw) → 변환(transformed) → 선별(curated) 단계로 구성된 다층 데이터 아키텍처는, 분석에 활용할 정형 데이터를 전환하는 표준적인 접근 방식으로 자리 잡아 왔으며, 이를 통해 데이터 수명 주기 전반에 규율과 신뢰가 확보되었습니다. 이러한 기존 파이프라인에서는 ‘가공 전’ 계층에서 데이터를 원형 그대로 수집하고, ‘변환’ 계층에서 이를 정제, 보강 및 통합해 공통 규격에 맞게 정리하며, ‘선별’ 계층에서는 비즈니스 활용에 최적화된 고품질 데이터를 제공합니다. 이러한 접근 방식은 데이터 수명 주기 전반에 일관성, 명확성, 신뢰를 제공합니다.

그렇다면 조직이 매일 생성하는 방대한 비정형 데이터는 어떨까요? 중요한 정보는 통화 녹취록, 지원 티켓, 법률 문서뿐 아니라 이미지와 영상 속에도 포함되어 있습니다. 하지만 이러한 데이터는 엄청난 잠재력에도 불구하고, 사일로화된 시스템과 수작업 프로세스에 갇혀 제대로 활용되지 못하는 경우가 많습니다. 이와 같은 단절된 접근 방식은 인사이트의 일관성을 떨어뜨리고, 의사 결정을 지연시키며, 결국 데이터의 진정한 가치를 놓치는 결과로 이어집니다.

이제는 비정형 데이터에도 동일한 수준의 체계적인 접근을 적용할 때입니다.

이에 Snowflake는 Cortex AI Functions를 통해 비정형 데이터를 구조화하는 강력한 새로운 방식을 제시합니다. 이 워크플로우는 반복 가능한 프로세스로, 비정형 데이터를 데이터 웨어하우스로 직접 가져와 구조화된 실행 가능한 인사이트로 전환합니다. 그 중심에는 재구상된 ‘변환’ 단계가 있습니다. 이 단계에서는 Cortex AI Functions를 활용해 가공 전 비정형 데이터를 SQL 내에서 추출된 개체, 감성 점수, 요약 등으로 직접 변환합니다. 이후 이렇게 확장된 결과 데이터는 ‘선별’ 계층으로 자연스럽게 이어져, 비즈니스 인텔리전스(BI) 대시보드와 머신러닝(ML) 파이프라인은 물론 Snowflake Cortex Analyst를 활용한 자연어 탐색까지 지원합니다.

data

비정형 데이터를 위한 새로운 변환 계층 

이 프레임워크에서 ‘변환’ 계층은 가공되지 않은 비정형 텍스트와 구조화된 분석 지표를 잇는 핵심 연결 고리입니다. 이 단계에서 가공 전 텍스트는 기업이 추세를 분석하고, 측정하며, 실행으로 옮길 수 있는 인사이트로 전환됩니다.

이 계층의 핵심 원칙은 다음과 같습니다.

  • 네이티브로 유지: 모든 비정형 데이터를 Cortex AI Functions를 활용해 Snowflake 내에서 직접 처리합니다. 자연어 처리를 위해 데이터를 외부로 전송할 필요가 없으므로, 아키텍처를 단순화하고 거버넌스를 강화할 수 있습니다.

  • 비즈니스 목표와의 연계: 비즈니스에 의미 있는 개념 추출에 초점을 둡니다. 예를 들어, 통화가 에스컬레이션된 이유, 계약의 핵심 조건, 고객의 구매 단계 등을 식별하는 것이 이에 해당합니다.

  • 재사용 가능한 자산 구축: BI 대시보드부터 ML 모델, 운영 시스템에 이르기까지 다양한 다운스트림 애플리케이션에 활용할 수 있는 정형 데이터를 생성하고, 단일 진실 공급원을 유지함으로써 일관된 데이터 활용을 가능하게 합니다.

변환 계층의 핵심은 텍스트 데이터 자체를 변환하고, 쿼리되기 전에 의미 있는 컨텍스트를 더 풍부하게 하는 데 있습니다.

비정형 데이터를 위한 워크플로우

이 워크플로우는 익숙한 패턴을 따르면서도, 새로운 지능 레이어를 추가로 도입합니다.

  • 가공 전 계층: 이 초기 단계에서는 Snowflake OpenFlow를 활용해 어떤 소스에서든 가공 전 비정형 데이터를 연결하고 수집합니다. 또한 이 계층은 수정되지 않은 전체 텍스트와 모든 메타데이터를 함께 보관하여 추적 가능성과 감사(audit)를 위한 기반을 제공합니다.

  • 변환 계층: 이 단계에서 데이터의 진정한 가치가 창출됩니다. Cortex AI Functions는 가공 전 텍스트, 오디오, 이미지 데이터를 손쉽게 활용할 수 있는 정형 데이터로 변환합니다.  

  • 선별 계층: 이 계층에서는 새로운 정형 데이터를 다른 엔터프라이즈 데이터 세트와 통합합니다. 이 단계에서는 주요 성과 지표(KPI)와 핵심 비즈니스 지표가 포함된 선별 테이블을 생성합니다.

  • 활용 계층: 인사이트가 도달하는 최종 지점입니다. 이제 BI 도구와 ML 파이프라인, 그리고 자연어 쿼리를 위한 Cortex Analyst에서 데이터를 바로 활용할 수 있습니다.

Cortex AI Functions로 강화된 변환 계층

Snowflake의 Cortex AI Functions는 비정형 데이터를 위한 ‘변환’ 계층의 핵심으로, 데이터 웨어하우스 내에서 텍스트로부터 인사이트를 직접 도출하도록 설계되었습니다. 다음은 Cortex AI Functions의 몇 가지 예입니다. 자세한 내용은 관련 블로그 게시물과 Snowflake 설명서를 참조하세요. 

  • AI_COMPLETE: 단일 텍스트 또는 이미지 레코드에서 주요 정보를 추출하거나 간결한 요약을 생성하는 범용 함수입니다.

  • AI_CLASSIFY: 고객 통화를 ‘billing_issue’, ‘technical_support’, ‘cancellation’과 같은 카테고리로 분류하는 등, 미리 정의된 비즈니스 분류 체계에 따라 콘텐츠를 정리합니다.

  • AI_FILTER: 비즈니스에서 정의한 특정 조건을 충족하는 행을 신속하게 식별합니다. 이는 비필수 데이터를 걸러내거나, 지원 티켓이 불만 접수인지 여부를 감지하는 등 중요한 이벤트를 식별하는 데 적합합니다.

  • AI_SIMILARITY: 유사한 사례나 문서를 기반으로 새로운 이슈를 기존 문제와 빠르게 연결해, 해결 시간을 단축할 수 있습니다.

  • AI_AGG / AI_SUMMARIZE_AGG: 대규모 데이터에서 핵심 인사이트를 추출하여 경영진 보고를 위한 요약 정보를 제공합니다.

  • AI_EMBED: 텍스트나 이미지의 벡터 임베딩을 생성해, 고급 시맨틱 검색과 유사도 비교를 지원합니다.

  • AI_TRANSCRIBE: 오디오 파일의 음성 언어를 텍스트로 변환하여 Snowflake 내에서 오디오 데이터를 검색하고 분석할 수 있도록 합니다.

이러한 함수를 활용하면 간단한 키워드 검색을 넘어, 일관된 거버넌스 환경에서 텍스트 데이터를 비즈니스에 맞게 정교하게 분석할 수 있습니다.

실제 사례: 콜센터 분석

수천 건의 통화 기록을 보유한 고객 서비스 조직이 있다고 가정해 보세요. 많은 데이터가 있음에도 불구하고 관리자들은 다음과 같은 핵심 질문에 즉각적인 답을 얻기 어렵습니다.

  • 고객들은 어떤 이유로 전화를 걸고 있을까요?

  • 에스컬레이션되는 사례는 어떤 것들인가요?

  • 고객 감성은 어떤 추세를 보이고 있나요?

  • 기존에 파악한 문제 중 어떤 것이 반복되고 있나요?

분석 계층과 Cortex AI Functions를 활용하면, 이러한 질문을 반복 가능한 워크플로우로 구현할 수 있습니다. 첫 번째 단계는 개별 통화 기록을 행 단위의 정형 데이터로 변환하는 것입니다.

원본 파일이 오디오인 경우, Snowflake의 AI_TRANSCRIBE를 사용해 음성을 직접 텍스트로 전사(transcription)할 수 있습니다.

다음은 AI_TRANSCRIBE로 오디오를 전사한 후, 여러 Cortex AI Functions를 활용해 가공 전 텍스트를 구조화된 레코드로 변환하는 방법을 보여주는 단일 SQL 쿼리입니다.

-- This query transforms a raw call transcript into a structured, analytics-ready record. It demonstrates row-level extractions using AI_CLASSIFY, AI_FILTER, AI_SIMILARITY, and AI_COMPLETE.

WITH call_transcripts_raw AS (
  SELECT
    'I am calling about a recurring charge on my account that I do not recognize. I am very upset and would like to cancel my service.' AS transcript_txt,
    'CUST-1234' AS customer_id
)
SELECT
    customer_id,
    AI_CLASSIFY(transcript_txt,
      ['billing_issue', 'technical_support', 'cancellation', 'complaint']) AS call_intent,
    AI_FILTER(CONCAT(
      'Does this call contain any strong signs of customer escalation or complaint?:',transcript_txt)) AS is_escalation_flag,
    AI_SIMILARITY(transcript_txt,
      'Customer upset about an unknown billing charge on their statement.') AS known_issue_match_score,
    AI_COMPLETE('claude-3-5-sonnet', 
      CONCAT('Extract the main reason for the customer call and their desired outcome in a single sentence.', transcript_txt)) AS call_summary
FROM call_transcripts_raw;

출력 예시:

example

AI_AGG를 활용한 경영진 요약 생성

AI_CLASSIFY와 AI_FILTER 같은 함수가 행 단위로 작동하는 반면, AI_AGG는 여러 레코드에 걸친 인사이트를 통합하는 집계 함수입니다. 이는 프레임워크의 ‘선별’ 계층에 적합한 도구로, 경영진이 바로 활용할 수 있는 상위 수준의 요약을 생성하는 데 이상적입니다.

다음은 AI_AGG가 여러 통화 전사 데이터에서 주요 문제를 하나의 일관된 요약으로 생성하는 과정을 보여주는 간단한 예입니다.

-- This query demonstrates using AI_AGG to create a summary of key issues
-- from a collection of raw call transcripts. This is a common operation
-- for generating curated insights for the Gold layer.

-- Simulate a raw dataset with multiple call transcripts
WITH call_transcripts_raw AS (
  SELECT 'I am having trouble logging into my account after the recent update. The password reset isn''t working.' AS transcript_txt UNION ALL
  SELECT 'My credit card was charged twice for my subscription this month. I need a refund immediately.' AS transcript_txt UNION ALL
  SELECT 'I would like to cancel my subscription, as I no longer use the service.' AS transcript_txt UNION ALL
  SELECT 'The mobile app keeps crashing every time I try to access my profile. This is very frustrating.' AS transcript_txt
)

-- Use AI_AGG to summarize the key topics from all transcripts
SELECT
    AI_AGG(transcript_txt, 'Summarize the top three customer issues from these transcripts.') AS weekly_issue_summary
FROM
    call_transcripts_raw;

비정형 데이터를 위한 구조화된 프레임워크의 장점

비정형 데이터에 구조화된 다층 프레임워크를 적용하면 다음과 같은 이점을 얻을 수 있습니다.

  • 거버넌스 및 계보: 모든 비정형 데이터를 Snowflake 내에서 처리함으로써, 가공 전 텍스트부터 구조화된 인사이트까지 전 과정에 대한 감사 추적과 데이터 계보를 유지할 수 있습니다.

  • 일관성 및 재사용성: 여러 비즈니스 팀이 함께 활용할 수 있는 단일 파이프라인을 구축해, 데이터 사일로와 일관되지 않은 정의로 인해 발생하는 문제를 해소합니다.

  • 확장성 및 신뢰: 지원 전사부터 법적 계약에 이르기까지 어떤 도메인으로든 프레임워크를 확장하고, 모든 구조화된 사실을 원본 텍스트까지 역추적함으로써 데이터에 대한 신뢰를 확보할 수 있습니다.

결론

Snowflake Cortex AI Functions를 기반으로 한 비정형 데이터 구조화 접근 방식은, 데이터 활용 방식을 근본적으로 변화시킵니다. 이를 통해 가장 가치 있으면서도 아직 충분히 활용되지 못한 자산인 비정형 데이터를, 기존 데이터 생태계 전반에 적용해 온 것과 동일한 수준의 규율, 거버넌스, 그리고 엄격한 기준으로 다룰 수 있게 됩니다.

시작할 준비가 되셨나요?

  1. 고객 지원 티켓이나 영업 통화와 같은 고부가가치의 비정형 소스를 식별합니다.

  2. 해당 텍스트에서 추출할 특정 값을 정의합니다.

  3. Snowflake에서 Cortex AI Functions를 활용해, 비정형 데이터를 위한 ‘변환’ 계층을 구현합니다.

비정형 콘텐츠를 구조화된 다층 프레임워크로 통합함으로써, 이를 더 이상 사후에나 고려하는 골칫거리로 취급하지 않고, 전략적 비즈니스 의사 결정을 이끄는 신뢰할 수 있는 핵심 동력으로 전환할 수 있습니다.

eBook

생성형 AI의 성공 비결

Bayer 및 Siemens Energy와 같은 선도 기업이 생성형 AI를 사용하여 생산성, 고객 서비스 수준 및 수익 향상을 실현한 방법
기사 공유하기

Snowflake Cortex AI로 실현하는 멀티 모달 데이터 분석 간소화

Snowflake Cortex AI를 사용하면 정형 데이터와 비정형 데이터를 손쉽게 결합할 수 있습니다. 단순한 SQL로 텍스트, 이미지, 오디오, 비디오를 분석하여 보다 심층적인 인사이트를 얻을 수 있습니다.

경쟁에서 앞서 나가기 위한 선택: AI 고객 분석

AI와 Snowflake Cortex AISQL을 이용한 고객 분석으로 고객과의 상호 작용 데이터를 유지율과 수익을 높이는 실행 가능한 인사이트로 전환하는 방법을 알아봅니다.

Snowflake와 AWS: 엔터프라이즈 데이터 및 AI 채택 가속화

AWS와 함께 데이터를 인텔리전스로, 인텔리전스를 행동으로 전환하는 개방적이고 연결된 안전한 기반을 구축하게 되었습니다.

엔터프라이즈 데이터 에이전트의 필요성

Snowflake Cortex Agents는 정형 및 비정형 데이터에서 인사이트를 추출하여 정확하고 확장 가능한 결정을 내릴 수 있도록 지원하는 완전 관리형 오케스트레이션 프레임워크입니다.

복잡성이 높은 문서에서 실행 가능한 인사이트를 도출하는 Snowflake Document AI

Snowflake Document AI는 복잡한 문서에서 인사이트를 도출하여 정확하고 확장 가능하며 자동화된 지능형 문서 처리를 가능하게 합니다.

Snowflake, NVIDIA CUDA-X로 scikit-learn 및 pandas 머신러닝 가속화

Snowflake ML은 이제 NVIDIA cuML과 cuDF를 지원해 scikit-learn과 pandas를 GPU로 가속하며, 코드 변경 없이 최대 200배의 속도 향상을 제공합니다.

비정형 텍스트 분석 규모, 효율적인 배치 LLM 추론으로 확장 실현

Snowflake Cortex AI를 사용하여 효율적인 배치 LLM 추론으로 대규모 비정형 텍스트에서 인사이트를 확보하고 SQL로 대규모 텍스트 분석을 간소화합니다.

차세대 충성도 프로그램은 생태계 | Snowflake 블로그

Amazon과 같은 대기업은 단순한 충성도 프로그램이 아닌 충성도 생태계를 만들었습니다. 어떻게 하면 소규모 회사가 데이터를 사용하여 이를 따라잡을 수 있을까요?

지리학 데이터 입문하기

지리 공간 데이터를 이용해 풍부한 비즈니스 인사이트를 얻는 방법에 대한 당사의 간단한 가이드를 읽어보세요. 기초를 이해하고 Snowflake에서 시작해 보세요.

Subscribe to our blog newsletter

Get the best, coolest and latest delivered to your inbox each week

Where Data Does More

  • 30일 무료 평가판
  • 신용카드 불필요
  • 언제든지 취소 가능