참고: 이 내용은 2022. 1. 4에 게시된 컨텐츠(Why Snowflake Was My Next Strategic Move After Google)에서 번역되었습니다.

저는 모든 이들이 머신 러닝(ML)과 인공 지능(AI)에 더 쉽게 접근할 수 있도록 돕기 위한 여정에 있습니다.

저는 20여 년 전 컴퓨터 과학 학부 과정 수업 몇 개에서 Hex와 Qubic(3D 3목 두기)과 같은 게임을 하기 위해 전략을 구현했는데 이때 AI에 매료되었습니다. 대학원 1학년 때 AI 설계를 시험 삼아 해 봤고 2003년 Google에서 인턴 과정 중 ML을 실제로 접해본 후 ML에 중점을 두었습니다. 그런 다음 2004년 Google에 합류하여 이후 17년 동안 오픈 소스 소프트웨어와 클라우드 제품을 통해 Alphabet 전역 등 전 세계에 도달할 수 있는 ML 기술을 개발했습니다.

Google에서 저는 ML 및 대규모 시스템에 걸쳐 세계 최고의 기술자들과 함께 일할 기회가 있었습니다. 세계적으로 유명한 ML 연구원인 Yoram Singer와 함께 새로운 ML 알고리즘을 연구하고 구현했습니다. 저는 Google 검색에서 순위를 매기는 동안, 도메인 지식을 ML에 끌어넣는 것에 얽힌 과제와 설명 가능한 AI(Explainable AI)를 더 제대로 이해하게 됐습니다. 또한, 분산 시스템의 선도자인 Tushar Chandra와 함께 가장 규모가 크고 가장 포괄적인 엔드 투 엔드 ML 시스템 중 일부를 구축했습니다. 저는 ML 기반 솔루션을 개발하고 배포하는 데 있어 Ads, Search, YouTube, Cloud, Android, Waymo 및 Alphabet의 다른 부분에 속한 리더와 협력했습니다.

그렇긴 하지만 ML은 제게 두 번째 분야이고 제 첫 번째 소명은 체스입니다.

저는 1985년 7세의 나이로 우연한 기회에 체스 게임에 입문했고, 그랜드 마스터가 되어 폴란드 자간에서 열린 1997년 세계 주니어 체스 챔피언십에서 우승하는 등 정점을 이루며 국제적인 경력을 쌓게 되었습니다. 기술 분야에서 경력을 쌓기 이전에 체스에 관한 업적을 쌓았기 때문에 사람들은 종종 체스에 대한 제 과거의 경험을 사용해 엔지니어로서의 제 발전을 설명하는 등, 두 업적 사이의 관계를 찾으려고들 합니다.

그러나 저는 이것이 인과관계와 상관관계를 혼동하는 경우라고 생각합니다. 이는 많은 ML 알고리즘에서도 발생하는 문제입니다. 저는 항상 상황을 장기적으로 개선하고 최적화하기 위한 방안을 깊게 생각하는 사람이 되는 데 집중하기 때문에 좋은 체스 선수가 되었습니다. 저는 시스템을 이해하고, 복잡성을 수용하고, 가치를 극대화하기 위해 어려운 결정에 관해 생각하는 데 많은 시간을 투자하는 것을 좋아합니다. 체스에서 이는 제가 될 수 있는 최고의 선수로 스스로를 발전시키기 위한 부단한 노력 및 자기 성찰과 결합되어 게임 중 어떻게 움직일 것인지 결정하는 것과 관련됩니다. 기술에서 이는 시스템 설계, 다음에 구축할 항목의 우선순위 지정, 실행 및 영향을 극대화하기 위한 프로젝트 및 팀 구성과 관련됩니다.

최근 저의 Google에서 Snowflake로의 이직 역시 전략적이고 합리적인 사고에 따른 결정으로 설명될 수 있습니다. 저는 이 전환을 ML에 대해 깊이 생각하고 결단력 있게 행동하고 모든 이를 위해 ML이 미래에 어떤 모습일지에 영향을 미칠 수 있게 하는 논리적인 다음 단계라고 생각합니다.

Snowflake로 이직한 이유

2015년까지 저는 Google 내부의 문제를 해결하기 위한 ML 기술 개발에 집중했습니다. 그 무렵 Google Cloud의 사람들은 ML 공간에서 무엇을 해야 할지 고민하기 시작했습니다. 저는 현재 Snowflake의 엔지니어링 SVP인 Greg Czajkowski와 Google에서 협력하여 우리가 학습한 내용을 Google Cloud에 적용할 수 있는 방법을 탐색하기 시작했습니다. 저는 특히 더 많은 사람들이 ML에 액세스할 수 있도록 하는 새로운 ML 서비스 및 기능을 설계하는 데 도움을 줄 기회가 주어져서 기뻤습니다.

몇 년 동안 Google Cloud로 작업한 후 저는 역사가 반복되는 것을 보았습니다. 이번에는 클라우드 및 엔터프라이즈 설정에서 그러했습니다. ML이 마법 같은 경험을 만들어낼 수는 있지만 ML 자체가 마법은 아니라는 것을 배우는 데 10년 이상이 걸렸습니다. 클라우드 및 엔터프라이즈 영역에서 일하는 많은 회사는 ML을 블랙박스로 취급하는 데 지나치게 집중하여 모든 경쟁을 뛰어넘는 AI 기술을 만들 수 있는 묘책을 찾고 있었습니다.

현실에서, ML은 사용하기 어렵습니다. 단일 ML 기반 솔루션을 구축하는 데 종종 많은 사람과 여러 팀이 필요합니다. 결과 솔루션은 ML 시스템의 예측할 수 없는 동작으로 인해 일반적으로 취약합니다. ML 시스템이 범하는 실수는 일반적으로 사람이 범하는 실수와 다르게 나타나므로 이러한 오류를 설명하고 디버그하고 개선하기가 어렵습니다. 이 모든 영역에서 진전을 이루긴 했지만, ML을 통해 얻을 수 있는 대부분의 기회는 여전히 우리 앞에 놓여 있다고 생각합니다.

지난 1년 동안 저는 가장 큰 영향을 미치기 위해 제가 무엇을 할 수 있을지 고민했습니다. 10 가지에 가까운 다양한 기회를 면밀히 살펴본 후 Snowflake에서 확인한 잠재력에 가장 흥분했습니다. 이유는 다음과 같습니다.

데이터 중력 및 머신 러닝

Snowflake는 다음과 같은 단순한 한 가지 이유로 ML과 AI를 변환하는 데 매우 유리한 위치에 있습니다. 데이터가 모든 ML 시스템에서 가장 중요한 부분이기 때문입니다. 우리 모두는 더 나은 데이터가 더 나은 모델로 이어진다는 것을 알고 있지만 데이터를 사용하여 모델을 훈련시키는 것은 엔드 투 엔드 ML 시스템에서 데이터가 수행하는 역할의 극히 일부에 불과합니다. 예를 들어 ML 시스템은 지속적인 훈련 및 실시간 추론을 위해 데이터 스트림에 의존합니다. 이들은 복잡한 비즈니스 로직 및 소비자 대면 제품에 참여하는 모델 및 예측과 같은 상호 관련된 여러 버전의 아티팩트를 생성하며, 모두 많은 양의 데이터를 소비하고 생성합니다. 훌륭한 엔드 투 엔드 ML 경험을 제공하려면 이 모든 데이터를 구성하고 처리하기 위한 전체적인 접근 방식이 필요합니다.

‘데이터 중력’ 개념은 많은 양의 데이터를 이동하는 것이 비교적 더 어렵기 때문에, 서비스와 애플리케이션이 데이터를 끌어들이기 보다는 데이터의 양이 점점 더 커지면 서비스와 애플리케이션을 끌어들임을 관찰함으로써 정립됐습니다. 우리 모두 알다시피, 우리는 지금 그 어느 때보다 더 많은 데이터를 생성하고 있습니다. 따라서 데이터는 시간이 지남에 따라 훨씬 더 많은 ‘질량’이 축적되어 더 큰 중력을 유발합니다. 데이터는 모든 ML 시스템에서 가장 중요한 부분이고 데이터 중력이 있음은 서비스와 애플리케이션이 데이터에 더 가깝게 이동함을 의미하므로 Snowflake는 혁신을 통해 앞으로 얼마나 많은 기업이 ML을 활용할 것인지 결정할 놀라운 기회를 갖게 됩니다.

데이터 관리 및 데이터 공유

Snowflake에 합류하기 전에 저는 Google Ads에서 2년 동안 사용자, 광고주 및 Google을 위한 장기적인 가치 최적화에 중점을 둔 여러 ML 시도를 담당했습니다. 이것은 더 많은 데이터가 항상 더 나은 결과로 이어지는 엄청나게 복잡한 공간이었습니다. 가장 단순한 경우는 저희 팀의 한 부분이 팀 내 다른 부분과 데이터를 공유하는 것이었습니다. 더 복잡한 경우는 사용자의 단기적 행동과 장기적 관심을 더 잘 이해하기 위해 Search, YouTube, Ads와 같은 다양한 제품 영역에서 데이터를 공유하는 것이 포함되었습니다. 가장 복잡한 사례 중 몇몇에는 전환을 최적화하고 사용자를 더 잘 이해하기 위해 Google과 다른 회사 전반에 걸쳐 데이터를 공유하는 것이 포함되었습니다. 팀, 조직 및 회사 간에 데이터를 공유함으로써 많은 ML 시스템이 전체 광고 생태계에 훨씬 더 많은 가치를 생성할 수 있었습니다.

그러나 데이터 공유를 쉽게 만들고 해당되는 모든 기업의 정책 및 개인 정보 보호 규정을 준수하는 방식으로 수행하려면 데이터 거버넌스 및 데이터 처리를 위한 정교한 기술이 필요했습니다. Ads의 많은 리소스가 이러한 복잡성을 해결하는 데 사용되었지만 파트너 회사도 자체 솔루션이 필요했기 때문에 문제의 일부만을 해결했습니다. 이전에 저는 데이터 관리 시스템을 당연하게 여겼습니다. 이후, Ads에서의 경험 및 파트너 기업과 함께 일한 경험 덕분에 대규모 데이터 관리 및 공유의 어려움이 ML의 잠재력을 얼마나 차단하고 있는지 이해하게 되었습니다. 2019년 처음 Snowflake에 대해 들었을 때 저는 이를 또 다른 데이터 관리 회사로 마음속에 정리해두었습니다. 2021년에 더 자세히 살펴보면서 Snowflake의 혁신적인 데이터 공유 기술에 대해 읽고 데이터 클라우드가 얼마나 빨리 성장하고 있는지 알게 되면서 저는 모든 것을 종합한 뒤 데이터 클라우드 위에 ML 기능과 서비스를 구축할 거대하고 독자적인 기회가 있다는 것을 깨달았습니다.

기술 우선과 고객 우선 문화

Snowflake의 핵심은 기술 회사입니다. Snowflake 문화는 창립자의 기술 우선 및 고객 우선 태도를 반영합니다. 그들은 정말 어려운 기술 문제를 해결하고 세계에서 가장 확장 가능한 멀티 클라우드 및 크로스 클라우드 데이터 플랫폼으로 이어지는 혁신적인 솔루션을 설계하는 데 많은 시간을 할애했습니다. 이는 누구나 데이터를 공유하고 해당 데이터를 기반으로 서비스를 구축하여 다른 모든 이가 사용할 수 있게 하는 데이터 클라우드가 가능해지는 기반이 되었습니다.

Snowflake에 합류하기 전에 Snowflake의 엔지니어링 문화에 대해 이야기하는 Snowflake의 로켓선 이면의 로켓을 읽었습니다. 지금까지 그 기사에서 읽은 모든 내용이 처음 몇 달 동안 제가 관찰한 내용과 일맥상통합니다. 창립자는 모든 가장 중요한 기술 및 제품 관련 질문에 적극적으로 관여하며 제품 및 엔지니어링의 우수성에 중점을 둡니다. 팀은 신중하므로, 긴박감을 느낄 때 지름길을 찾거나 기술적 부채를 늘리는 대신 건강한 논의를 할 시간을 낸 다음 비로소 최고의 기능 및 솔루션을 구축하기 위해 의견을 수렴하고 일에 전념하며 노력합니다. 사람들은 개방적이고 투명하며 기꺼이 새로운 데이터를 통합하고 의견을 변경하는데, 이것이 제 개인적인 스타일에 잘 맞습니다.

또한, 미션은 강력한 집중의 대상입니다. 이는 더 작은 규모의 회사에서 일반적이나 Snowflake는 급속한 성장에도 불구하고 오늘날에도 여전히 이러한 문화를 보존하고 있습니다. 혁명적인 무언가를 만들고 세상을 변화시키는 우리의 에너지는 손에 만져질 듯 뚜렷합니다. 우리는 거래를 성사시키면 축하하고, 패배했을 때는 앞으로 무엇을 더 잘해야 할지 생각합니다. 저는 때때로, 클라우드의 빠른 성장에 발맞춰 새 기술을 구축하기 위해 다른 많은 기업이 지나치게 서두르는 와중 당사는 가능한 한 빠르게 혁신하기 위해 최선을 다하는 스포츠 팀처럼 운영된다고 느끼기도 합니다.

Snowflake는 ML 분야에서 역사가 길지 않을 수 있지만 저는 0에서 1로 가는 것을 좋아합니다. 저는 Google에서 그것을 경험했고 이번에는 Snowflake에서 완전히 새로운 도전과 기회로 다시 그렇게 하기를 고대하고 있습니다.