AI 지원 데이터, 준비되셨나요?

‘들어간 게 쓰레기면 나오는 것도 쓰레기(garbage in, garbage out)'라는 말이 있습니다. 한편, ‘누군가의 쓰레기가 다른 사람에게는 보물’이란 말도 있는데요. 이 두 가지 말을 AI 지원 데이터와 관련지어 생각해보면 어떨까요? 제가 말하고 싶은 핵심은 특정 이니셔티브에 무엇이 필요한지 파악하는 것만큼 무엇을 이미 가지고 있는지 파악하는 것도 중요하다는 점입니다. 데이터는 상세한 레이블링 및 게시를 포함하여 평가, 관리 및 거버넌스가 이뤄져야 합니다. 레이블링과 게시는 데이터의 재사용, 더 나아가 AI의 효과성과 효율성을 좌우하는 핵심 요소입니다.
요리에 비유하자면, 일반 데이터를 AI 지원 데이터로 만드는 것은 샐러드 만들기만큼 간단하진 않습니다. 요리를 하려면 먼저 조리법에 맞게 재료를 준비해야 합니다. 감자는 만드는 요리에 따라 얇게 또는 깍둑썰기로 썰고, 강판에 갈기도 합니다. 하지만 이 단계 이전에 감자를 구하는 게 먼저이죠. 감자를 구했으면 씻기도 해야 하고요. 감자와 함께 사용할 다른 재료들도 마련해야 합니다. 요리 재료에도 레이블링이 필요합니다. 설탕과 소금을 혼동하거나 훈제 파프리카와 매운 카옌페퍼를 혼동하면 안 되니까요.
AI 지원 데이터는 AI 모델에 넣어 조리하기 위해 준비된 재료와 같습니다. 최근 Snowflake Summit에서는 AI 지원 데이터의 핵심 특성을 다루는 AI 데이터 클라우드의 피처들에 관한 발표가 있었습니다. 여기 일부를 소개합니다.
- 품질: 최고의 셰프가 품질이 확실한 재료를 사용하는 것은 당연한 일입니다. Snowflake에서 고객은 최신성, 중복성, 사용자 지정 측정 등의 항목별 품질 기준을 정의하고, 이를 데이터 지표 함수로 모니터링할 수 있습니다. 실시간 모니터링은 쿼리 성능과 수정된 데이터에 대한 실시간 피드백을 제공하여 연속 데이터 품질 모니터링을 용이하게 합니다. 이제 Snowflake Cortex AI를 데이터 정제 자동화, 이상 징후 탐지, 데이터 세트 표준화, 결측치 제안 등에 활용하여 수작업을 줄이고 일관성을 향상시킬 수 있습니다.
- 다양성: 식료품 저장실은 다양한 재료를 적당히 구비하고 있어야 합니다. 마찬가지로 데이터의 다양성은 우수한 AI 성과를 보장하는 데 도움이 됩니다. Snowflake는 다양한 유형의 데이터에 대하여 저장뿐만 아니라 분석 및 AI 적용까지 지원합니다. 오픈소스 형식이 지원되므로 고객은 Snowflake 환경 외부에 있는 것을 포함한 훨씬 더 광범위한 데이터에 액세스할 수 있습니다. 학습 데이터에 파트너 데이터 또는 외부 공급자로부터 확보한 데이터까지 포함시키면 다양성을 한층 더 증진할 수 있습니다. 또한 합성 데이터 생성을 활용하면 민감 데이터에 더 쉽게 액세스할 수도 있고, 결측치의 파라미터를 아는 경우 대표성의 균형을 맞출 수도 있습니다.
- 신선도(최신성): 재료는 신선할수록 좋습니다. 요리의 핵심 재료가 본연의 맛을 잃었다면 당혹스럽기 그지없을 것입니다. 데이터가 있는 곳에서 바로 데이터 액세스를 제공하는 것은 Snowflake 플랫폼이 줄곧 이어온 강력한 가치 제안이었습니다. 이를 통해 AI 모델은 항상 가장 적합한 최신 정보에 액세스할 수 있습니다. 또한 Snowpipe의 연속 데이터 수집 서비스는 데이터 로드 프로세스를 자동화하여, 데이터가 도착하는 즉시 분석에 사용할 수 있도록 보장함으로써 최신성을 높입니다.
- 거버넌스: 셰프들은 송로버섯처럼 귀한 재료는 자물쇠를 채워 보관하곤 합니다. Snowflake Horizon을 통해 제공되는 Snowflake의 모든 새로운 거버넌스 기능은 액세스 및 사용 권한을 역할 기반 액세스 제어, 데이터 마스킹, 오브젝트 태깅 및 감사(auditing)와 같은 기능으로 세분화하여 엄격하게 적용할 수 있도록 지원합니다. Snowflake의 전략은 민감한 엔터프라이즈 데이터를 외부로 이동시키는 게 아니라 안전한 환경 내에 있는 데이터로 AI 모델을 가져오는 것입니다. 이렇게 하면 외부 AI 도구와 관련된 보안 및 거버넌스 위험이 크게 줄어듭니다. 이는 이웃집에 재료를 싸 들고 가는 대신 자기 부엌에서 요리를 하는 것과 같습니다.
- 탐색: 셰프라면 당연히 재료를 쉽게 찾을 수 있길 바라므로 재료명이 붙은 용기에 보관되어 있으면 좋을 것입니다. 성분과 원산지 같은 세부 정보까지 적혀 있으면 더 좋겠죠. 영양 성분표를 메타데이터라고 생각해 보세요. Snowflake Horizon Catalog 같은 데이터 카탈로그는 메타데이터, 컨텍스트 및 접근성 세부 정보를 포함한 데이터 자산 인벤토리를 제공하여 데이터를 더 쉽게 찾고 이해할 수 있도록 해줍니다. Snowflake의 Snowsight 인터페이스는 자동 완성 및 데이터 프로파일링 그리고 시각화 및 대시보드 기능을 제공하여 신속한 데이터 탐색을 지원합니다. 또한 Snowflake Marketplace는 내부 데이터와 외부 소스를 모두 사용하여 다양한 데이터 세트와 사전 구축 애플리케이션을 쉽게 발견하고 액세스할 수 있도록 지원합니다. 여기에 비길 만한 주방이라면 특급 셰프들도 감탄을 금치 못할 것입니다.
이 대목에서 강조하고 싶은 것이 있습니다. AI 지원 데이터는 그저 있으면 좋은 것이 아닙니다. 효과적이고 효율적인 AI를 원한다면 데이터가 잘 준비되어 있어야 합니다. 관련성이 높고 깨끗한 데이터는 AI 모델의 성능을 향상시킵니다. 데이터 검색과 파악이 쉬우면 데이터 준비에 소요되는 시간이 줄어듭니다. 밀가루, 설탕, 소금과 각종 향신료가 품목명, 사용 기한 등이 기재된 용기에 담겨 잘 정리되어 있고, 신선한 재료로 채워진 냉장고가 있는 주방을 떠올려 보세요. 데이터도 이렇게 잘 정리되어 있다면 AI 이니셔티브의 구축, 실행 및 확장이 훨씬 빨라지고, 여러 프로젝트에 걸친 데이터 재사용도 용이해질 것입니다.
AI 지원 데이터는 기성품이 아닙니다.
AI 지원 데이터는 저절로 만들어지지 않습니다. 바로 사용 가능하도록 미리 패키징이 된 버전은 거의 없습니다. 운이 좋으면 찾을 수도 있겠지요. 하지만 올바른 데이터 관행을 개발하면 조직 내의 각 팀이 저마다 필요로 하는 재료를 쉽게 찾을 수 있는 자체 시장을 만들 수 있습니다.
AI 지원 데이터는 특정 개인이나 부서가 책임질 문제가 아니라 경영진에서 기술 팀, 그리고 데이터 소유자에서 사용자까지 조직 전반의 다양한 이해관계자가 교차 기능 협업으로 해결해야 할 문제입니다. 주방 비유를 다시 쓰자면 수석 셰프에서 프렙 쿡까지 모두의 책임이란 말이지요.
새로운 직책이 아니라 직무에 초점을 맞추어야 합니다. 다시 말해, 어떤 사람을 새로 고용할지가 아니라 어떤 성과를 달성해야 하는지에 집중해야 한다는 말입니다. 아래의 개요를 참고하시기 바랍니다.
- 경영진의 적극적인 지원은 조직 전반으로 확장되는 AI 이니셔티브의 성공에 매우 중요합니다. 경영진은 AI 및 데이터 전략이 맞춰 나가야 할 전반적인 비즈니스 목표를 설정합니다. 이들은 또한 이러한 목표를 달성하는 데 필요한 예산, 인력 및 기술 인프라를 할당하고, 데이터 및 AI의 효과적이고 책임 있는 사용을 장려하는 문화를 주도해야 합니다. 경영진은 분기별 결산 보고이든, 주말에 발생한 데이터 유출 사건이든, 조직 내에서 발생하는 모든 상황에 책임을 집니다. AI 운영 위원회를 통해 경영진이 꾸준히 현황을 파악하며 운영에 관여하는 것이 중요한 이유입니다.
- 데이터 리더(CDO 또는 최선임 데이터 책임자)는 AI 운영 위원으로서 데이터 전략, 정책 및 절차를 정하고 이행하여 데이터 품질, 보안 및 접근성을 보장할 책임이 있습니다. CDO 또는 그에 상응하는 책임자는 다른 사업 부서들과 협력하여 데이터 소유권 및 관리 책임에 대한 명확한 역할과 책임을 설정하고, 수집부터 저장, 처리 및 사용에 이르는 데이터 수명 주기를 관리하기 위한 지침을 마련해야 합니다. CDO라는 직책은 회사별로 다소 차이는 있겠지만, 수석 셰프가 주방 직원을 지휘하듯이, 여러 부서에 분산된 관련 업무를 조율하며 지휘하는 것이 기본적인 역할입니다. CDO는 데이터 위원회를 이끌며 데이터 정책, 요구 사항 및 사용을 조율해야 합니다.
- 데이터 소유권과 관리 책임은 특정 데이터 세트에 가장 정통한 사업 부서에 귀속됩니다. 소유권에는 책임이 수반됩니다. 관리 책임은 보유 데이터의 정확성, 완전성 및 일관성에 대한 책임을 말합니다. 이 임무를 맡은 담당자는 설정된 거버넌스 정책에 따라 데이터가 올바르게 큐레이션(수집, 문서화, 유지 관리)되는지, 그리고 관할 도메인의 데이터가 관련 규정 및 내부 정책을 준수하는지 확인해야 합니다. 주방에서 라인 쿡의 역할에 해당합니다. 소규모 또는 중앙 집중식 조직은 단일 데이터 팀에 데이터 소유권과 관리 책임이 있는 경우가 많은데, 규모가 커지면 중앙 집중식 팀은 병목 현상을 맞게 됩니다. 그렇다고 모든 사업 부서에 태스크를 골고루 분배할 필요는 없습니다. 데이터 전담 팀과 사업 부서들이 소유권과 관리 책임을 나눠 가지는 절충형 방식으로 운영되는 곳도 많습니다.
- 플랫폼 및 데이터 엔지니어링은 데이터 수집, 저장, 처리 및 AI 모델의 액세스 지원을 위한 데이터 인프라, 파이프라인 및 플랫폼을 구축하고 유지 관리하는 일로 대개 IT 부서에서 전담하고 있습니다. 하지만 이러한 역할을 맡은 담당자들은 서로 다른 소스의 데이터를 통합하고, 일관성과 상호운용성을 보장하며, 데이터 보안, 액세스 관리 및 개인정보 보호에 필요한 제어를 구현하기 위해 사업 부서들과 협력합니다. 데이터 엔지니어링 직무 역시 분산될 수 있습니다.
- 법규 준수 및 윤리성 검토는 대개 해당 전문가 팀이 수행합니다. 이들은 데이터 관련 제반 관행, 특히 민감 정보나 개인정보에 관한 관행이 관련 데이터 개인정보 보호 규정(GDPR, CCPA 등) 및 최근에 부각되는 AI 규제(EU 인공지능법 등)를 준수하도록 보장하기 위한 자문 역할을 수행합니다. Salesforce와 같은 일부 기업은 제품 팀과 고객 전반에 걸친 AI 사용을 감독하는 윤리 사무소를 두고 있습니다. 이들은 데이터 및 AI 모델의 편향성을 식별하고 완화하기 위한 프레임워크를 개발하고, 공정성, 투명성 및 책임성을 위해 AI 사용을 모니터링합니다.
- 데이터 사이언티스트와 AI/ML 엔지니어는 단순 작업자가 아니라 중요한 일을 담당하는 전문가로서 대우받아야 합니다. AI 지원 데이터의 주요 소비자로서 이들은 AI 모델에 필요한 세부적 데이터 요구 사항(볼륨, 다양성, 관련성, 레이블링 등 관련)을 명시할 책임이 있습니다. 이들은 데이터의 품질 및 편향성 문제, AI 학습 적합성 등을 분석하고, AI 모델의 성능 개선에 필요한 데이터 품질, 접근성, 누락 등의 문제에 대한 피드백을 데이터 소유자 및 거버넌스 팀에 제공해야 합니다.
새로운 직책이 아니라 직무에 초점을 맞추어야 합니다. 다시 말해, 어떤 사람을 새로 고용할지가 아니라 어떤 성과를 달성해야 하는지에 집중해야 한다는 말입니다.
위에서 다룬 역할과 책임이 모두 중요하지만, 효과적인 AI 프로그램에는 요구 사항을 조율하고 계획과 관행을 공유하는 교차 기능 협업을 위한 실무 그룹이 포함되어야 합니다. 각 참여자는 데이터 수명 주기에서 각자의 역할을 이해해야 하며, 레버리지, 확장 및 효율성 제고에 꼭 필요한 재사용을 촉진할 책임도 있습니다. 역할과 책임의 분배가 무분별한 방임으로 이어지지 않도록 효과적인 AI를 보장하기 위한 조율이 필요합니다. 수석 셰프가 전체 운영을 총괄하며 역할 간 명확한 소통과 팀워크를 통해 각각의 라인 쿡이 정확한 타이밍에 완벽한 요리를 제공할 수 있도록 지휘하는 것과 마찬가지입니다.
마지막으로 유의할 점은 만능 해결책은 없다는 사실입니다. 어떤 부서는 다른 부서보다 더 많은 자율성을 부여받을 수도 있습니다. 직무마다 직책을 새로 만들고 인원을 배정할 필요도 없습니다. 최근 Snowflake 라운드테이블에서 한 고객은 데이터 제품당 세 개의 새로운 직책이 필요하다고 주장했습니다. 모두가 이에 동의하지는 않았는데요. 새로 배정해야 할 업무를 목록화하는 것이 우선입니다. 그 목록에서 일부 업무는 기존 직책들에 할당해도 될 것입니다. 인센티브를 활용하여 새로운 업무를 기꺼이 떠맡도록 유도할 수도 있고, 기존 업무 방식을 더 효율적인 방식으로 대체할 수도 있을 것입니다. 낮은 곳에 매달린 과일이 따기 쉽듯이 작고 쉬운 과제부터 시작해서 새로운 업무 방식을 통해 혁신을 일구어 보세요.