데이터 사이언스

Snowflake Cortex AI의 AI 옵저버빌리티 및 평가 기능 활용을 통한 엔터프라이즈 AI의 신뢰도 제고

대규모 언어 모델(LLM)과 생성형 AI가 핵심 비즈니스 프로세스에 광범위하게 통합되면서 이러한 시스템 및 애플리케이션의 블랙박스 같은 비결정적 특성을 해결하기 위해 강력한 AI 옵저버빌리티의 필요성이 커지고 있습니다. 

Snowflake Cortex AI와 같은 플랫폼의 활용이 가져다 주는 진정한 기회는 생성형 AI 프로토타입을 신뢰할 수 있고, 효율적이며, 즉시 운용 가능한 애플리케이션으로 전환하는 데 있습니다. 

사용 목적에 적합한 LLM을 선택하고, 프롬프트를 개선하기 위해서는 다음과 같은 프로세스가 필요합니다. 

  1. 응답의 정확성을 높이기 위한 지속적인 시험평가

  2. 다양한 장애 모드 및 위험 완화에 관한 체계적인 테스트

  3. 응답 지연 시간 및 토큰 사용량과 같은 중요한 운영 지표에 대한 동시 모니터링 및 최적화 

AI 데이터 환경 내에서 이러한 요소를 지속적으로 평가, 디버그 및 추적할 통합 솔루션이 없다면 효과적이고 효율적인 생성형 AI 솔루션을 자신 있게 배포할 수 없을 것입니다.

 

AI 옵저버빌리티란?

AI 옵저버빌리티는 개발자가 생성형 AI 애플리케이션의 내부 상태, 입력 및 출력을 모니터링, 분석 및 시각화하여 실제 환경에서 정확성, 신뢰, 효율성 및 규정 준수를 높일 수 있도록 지원합니다. AI 옵저버빌리티는 개발, 테스트, 프로덕션을 포함한 모든 애플리케이션 개발 단계에 걸쳐 다음의 세 가지 핵심 요소를 중심으로 이루어집니다.

  1. 추적: 개발자가 애플리케이션을 구축하고 맞춤화할 때 추적 기능을 사용하면 애플리케이션의 입력, 출력 및 중간 상태를 시각화할 수 있습니다. 이 기능은 애플리케이션 내 각 구성 요소에 대한 세분화된 정보를 제공하여 애플리케이션 동작의 디버깅 및 설명 가능성을 개선할 수 있도록 지원합니다.

  2. 평가: 애플리케이션의 초기 버전이 준비되면 개발자는 응답 정확성을 선제적으로 개선하기 위해 체계적인 애플리케이션 성능 평가를 수행합니다. 이를 통해 다양한 모델과 프롬프트를 테스트 및 비교하고, 그 결과를 바탕으로 제품 배포를 위한 구성을 확정할 수 있습니다.

  3. 모니터링: 애플리케이션이 프로덕션 단계에 배포되면 개발자는 운영 안정성을 보장하고 성능 드리프트를 방지하기 위해 애플리케이션의 성능을 지속적으로 모니터링해야 합니다. 이러한 모니터링으로 장애 지점을 제거하고 데이터 드리프트를 관리함으로써 애플리케이션을 파인튜닝할 수 있습니다.

     

Snowflake Cortex의 AI 옵저버빌리티

Snowflake는 개발자가 생성형 AI 앱을 효과적으로 평가하고 모니터링할 수 있도록 지원하는 포괄적인 AI 옵저버빌리티 기능을 지원합니다. AI 옵저버빌리티는 Snowflake 네이티브 생성형 AI 서비스뿐만 아니라 사용자 지정 생성형 AI 앱에도 적용할 수 있습니다.

ai observability 1

사용자 지정 생성형 AI 앱에 대한 AI 옵저버빌리티

사용자 지정 생성형 AI 앱을 위한 AI 옵저버빌리티가 이제 정식 제공(GA)됨에 따라 AI 엔지니어와 개발자는 이를 활용해 손쉽게 생성형 AI 애플리케이션을 평가하고 추적할 수 있습니다. AI 옵저버빌리티는 사용자가 체계적인 평가로 AI 애플리케이션의 성능을 측정하고, 성능 향상을 위해 애플리케이션 구성을 반복 수정할 수 있도록 지원합니다. 또한 애플리케이션 로그 기록 추적 기능을 지원하여 디버깅을 용이하게 해줍니다. 이 기능은 생성형 AI 애플리케이션과 에이전트의 신뢰성과 투명성을 높여 애플리케이션 배포 전에 포괄적인 벤치마킹 및 성능 측정을 수행할 수 있도록 지원합니다.

  • 엔드투엔드 평가: AI 옵저버빌리티는 LLM을 평가자로 활용하는 기법(LLM-as-a-judge) 등을 사용하여 에이전트 및 앱 성능을 평가할 수 있습니다. 고객은 관련성, 근거성, 유해성 등의 지표에 관한 평가 보고를 바탕으로 신속하게 에이전트를 반복 수정 및 파인튜닝하여 성능을 향상시킬 수 있습니다.  

  • 비교: 사용자는 평가 결과를 나란히 비교하여 다양한 LLM 구성에 따른 응답의 품질과 정확도를 평가하고 프로덕션 배포에 가장 적합한 구성을 식별할 수 있습니다.

  • 종합적인 추적: 고객은 OpenTelemetry 추적 기능을 활용하여 입력 프롬프트, 도구 사용, 최종 응답 생성 등 에이전트 실행의 모든 단계에 대해 로깅을 활성화할 수 있습니다. 이를 통해 정확도, 지연 시간 및 비용에 관한 디버깅 및 개선이 용이해집니다. 

 

Cortex AI 서비스 전반에 걸친 AI 옵저버빌리티

ai observability 2

Snowflake Intelligence 및 Cortex Agents

Snowflake Intelligence는 검증 가능한 설명 가능성과 투명성을 바탕으로 사용자가 신뢰할 수 있는 자연어 기반의 AI 생성 인사이트를 제공합니다. 전용 포털을 통해 액세스할 수 있는 이 새로운 에이전틱 경험을 통해 모든 사용자가 데이터를 안전하게 대화하듯 탐색하고, 신뢰할 수 있는 엔터프라이즈 데이터로부터 의미 있는 인사이트를 도출하여 통합된 직관적 인터페이스를 통해 필요한 조치를 취할 수 있습니다. 

네이티브 옵저버빌리티를 통해 Snowflake Intelligence 사용자는 에이전트가 생성한 모든 답변의 근거를 쉽게 확인할 수 있습니다. 데이터의 출처가 검증된 소스나 큐레이팅된 쿼리인지 여부를 계보 추적을 통해 파악할 수 있기 때문입니다. 데이터 관리자는 질문 내용과 답변 간의 관련성 점수를 금방 일목요연하게 파악할 수 있어, 중앙 집중식 제어를 통해 시스템을 지속적으로 개선하고 파인튜닝할 수 있습니다.

또한 Cortex Agent를 사용하여 구축된 에이전트의 경우, 네이티브 옵저버빌리티 기능을 통해 에이전트를 손쉽게 평가, 추적 및 모니터링할 수 있습니다. 

에이전트 옵저버빌리티를 통해 개발자는 에이전트의 상호 작용을 실시간으로 추적하면서 에이전트 계획, 도구 선택, 실행 및 응답 생성 단계를 일목요연하게 파악할 수 있습니다. 개발자는 에이전트의 모든 상호 작용을 기록하고 모니터링하여 체계적으로 에이전트의 성능 개선을 위한 디버깅과 수정을 반복할 수 있습니다.

이러한 네이티브 옵저버빌리티는 개발 주기를 가속화하고, 배포 전 생성형 AI 애플리케이션 및 에이전트의 신뢰성과 투명성을 향상시킵니다. 

 

Cortex Search

AI 에이전트 또는 애플리케이션에서 검색 증강 생성(RAG)을 수행할 때 최종 출력의 품질은 기본적으로 초기 검색의 정확도에 달려 있습니다. 

Cortex Search는 검색 품질 측정 및 지속적 개선을 지원하기 위해 기본 제공되는 평가 및 튜닝 도구 모음을 선보였습니다. 이제 사용자는 Cortex Search 전용 평가 UI에 액세스하여 다음 작업을 수행할 수 있습니다.

  • 고품질 평가 세트 생성 

  • 실험 실행

  • 비즈니스 사용 사례 맞춤형 성능 최적화를 위한 검색파라미터 자동 튜닝

이 UI는 LLM을 활용하여 쿼리 생성 및 관련성 판단을 포함한 검색 평가 프로세스의 속도를 높입니다. 

평가 UI를 사용하면 사람과 LLM이 레이블을 지정한 데이터 세트를 기준으로 검색 품질을 측정하는 실험을 신속하게 실행하고 비교할 수 있으며, 이런 실험을 통해 다운스트림 사용자의 검색 및 채팅 앱이 쿼리와 가장 관련성이 높은 컨텍스트를 수신하도록 보장할 수 있습니다.

 

Cortex Analyst

Cortex Analyst는 자연어 프롬프트를 정확한 SQL 쿼리로 변환하여 사용자가 복잡한 데이터 세트에서 중요한 인사이트를 추출할 수 있도록 지원합니다. 

지속적인 개선과 정확성을 보장하기 위해 관리자와 엔지니어에게는 모든 과거 상호 작용의 로그에 대한 액세스가 제공됩니다. 엔지니어는 이러한 로그를 분석하여 얻은 정보를 바탕으로 기본 시맨틱 모델을 조정함으로써 고도로 정확한 응답을 생성하도록 기능을 향상시킬 수 있습니다.

성능의 정량적 측정을 지원하기 위해 Cortex Analyst는 LLM-as-a-judge를 사용하는 Streamlit 도구를 오픈소스로 공개했습니다. 정량적 성능 측정은 이상적인 요청-응답 쌍으로 구성된 골든 세트를 벤치마크 삼아 모델 응답 정확성의 백분율을 계산하는 방법입니다.

 

Document AI

Document AI의 옵저버빌리티는 설명 가능성을 지원하는 Attention Spans와 신뢰성을 지원하는 Confidence Scores를 통해 달성됩니다. 

Attention Spans는 문서에서 추출한 출력을 직접 검증하는 방법을 제공합니다. 이 기능은 보조 LLM을 사용하여 각 결과를 뒷받침하는 소스 텍스트의 구체적 증거를 제시함으로써 설명 가능성을 향상시킵니다. 이는 추론 및 학습과 같은 사전 프로덕션 단계에서 특히 유용한데, 출력 품질이 기대치를 충족하는지 확인하기 위한 지속적인 검증을 지원하기 때문입니다.

ai observability 3

또한 시스템은 추출한 모든 값에 대하여 내장된 Confidence Scores을 생성합니다. 이 점수는 응답 내 각 워드 토큰의 개별 확률을 집계하는 알고리즘을 통해 계산됩니다. 높은 신뢰도 점수가 올바른 답변임을 보장하지는 않지만 정확도가 높을 가능성을 나타냅니다. 이 도구는 워크플로우를 통해 점수가 낮은 응답을 자동으로 필터링하거나 플래그를 지정할 수 있도록 지원함으로써 신뢰할 만한 AI를 만드는 데 크게 기여할 수 있습니다. 신뢰도 점수를 지속적으로 모니터링하면 시간 경과에 따른 모델 성능 저하를 적시에 탐지하고 해결할 수 있습니다.

 

Snowflake Cortex AI의 옵저버빌리티를 통한 AI 신뢰도 확보

생성형 AI 프로토타입에서 안정적 실사용이 가능한 애플리케이션으로 나아가는 여정은 신뢰와 투명성에 달려 있습니다. Snowflake Cortex AI는 AI 옵저버빌리티 및 평가를 위한 필수 도구 키트를 제공하여 개발자가 AI 시스템의 블랙박스 같은 특성을 극복하고 이러한 전환을 원활하게 이룰 수 있도록 지원합니다.

개발자는 AI 개발 수명 주기에 옵저버빌리티를 통합함으로써 작업을 지속적으로 검증, 디버그 및 개선하여 AI 솔루션이 효과적이고 효율적일 뿐만 아니라 완전한 설명 가능성과 신뢰성을 갖추도록 보장할 수 있습니다. 

Snowflake Cortex AI는 강력하고 투명하며 기업의 신뢰를 받을 만한 생성형 AI 애플리케이션의 구축을 지원하는 강력한 도구입니다.

 


추가 리소스:

기사 공유하기

Subscribe to our blog newsletter

Get the best, coolest and latest delivered to your inbox each week

30일 무료 평가판시작하기

Snowflake를 30일 동안 무료로 사용해 보세요. 다른 솔루션에 내재된 복잡성, 비용 부담, 제약 조건 등을 해소하는 데 도움이 되는 AI 데이터 클라우드를 경험하실 수 있습니다.