아는 것과 모르는 것, 그리고 데이터와 AI 시대에도 여전히 중요한 원칙들

데이터 엔지니어링이 다시 주목받고 있습니다.
어느 순간부터 다시 파이프라인, 계보 그리고 ‘AI 파운데이션’에 관심이 쏟아지고 있는 것입니다. 솔직히 아직은 실감이 나지 않습니다. 불과 몇 년 전까지만 해도 아무도 이야기하고 싶어 하지 않던 주제들이기 때문입니다. 파이프라인, 계보, AI 파운데이션 같은 것들은 데이터 작업에서 가장 눈에 띄지 않는 부분, 다시 말해 대시보드 뒤에 숨겨진 배관 같은 존재였습니다.
그런데 이제 다시 헤드라인을 장식하고 있습니다. 기술의 진보는 언제나 기본으로 되돌아가는 법이고, 그건 좋은 일입니다. 데이터가 제대로 되어 있지 않다면 AI는 그 어떤 것도 제대로 작동할 수 없기 때문입니다.
AI는 수년이 걸리던 기술 성숙의 과정을 불과 몇 개월로 압축했습니다. 우리는 흥미를 느끼는 단계에서 곧바로 모든 곳에 배포하는 단계로 넘어갔고, 무엇이 문제인지, 왜 그런 문제가 생겼는지를 이해할 틈이 없었습니다. 그런데 이제 그 일을 할 때가 온 것입니다. 그리고 그 작업은 모델 아키텍처나 튜닝 알고리즘에서 벌어지고 있는 것이 아니라, 데이터 엔지니어링에서 일어나고 있습니다. 우리가 항상 필요로 했던 펀더멘털 즉, 깨끗한 파이프라인, 견고한 거버넌스, 추적 가능한 계보 및 '우아하게' 실패하는 시스템들이 바로 그것입니다.
AI는 바로 이 발견과 환멸이라는 사이클을 거치고 있는 또 다른 최신 기술일 뿐입니다. 그리고 그것을 실제로 정착시키는 것은 데이터 엔지니어들이 수년 동안 실천해 온 원칙들입니다.
데이터 엔지니어링은 디지털 세계를 위한 인프라입니다. 잘 작동할 때는 아무도 그 공을 인정해주지 않지만, 잘 작동하지 않으면 모든 것이 멈춥니다. 이 일은 단순히 데이터를 A 지점에서 B 지점으로 옮기는 것이 아닙니다. 원시 정보를 의미 있는 것으로 바꾸고, 맥락을 더하고, 구조를 형성하며, 데이터를 지식으로 전환하는 연결 조직을 만들어 내는 일입니다. 최근 발표된 Snowflake MIT Tech Review 보고서 AI 시대의 데이터 엔지니어링 재정의 역시 이를 뒷받침합니다. 설문 조사에 참여한 400명의 기술 리더 중 72%가 데이터 엔지니어를 비즈니스에 필수적인 요소라고 평가했습니다.
하지만 이 작업은 대부분의 시간 동안 눈에 보이지 않습니다. 나중에 문제를 일으킬 지름길을 거절하고, 아무도 못 보는 문제를 찾아내며, 조용한 규율로 시스템을 계속 살아있게 만드는 일, 그것이 바로 이 일의 본질이자 기술입니다.
우리가 모르는 것을 배우는 방법
모든 새로운 기술은 비슷한 패턴을 따릅니다. 기대, 혼란, 실패 그리고 이해의 단계를 거치기 마련입니다. AI도 다르지 않습니다. 다만 그 속도가 훨씬 빠를 뿐입니다.
우리는 아직도 그것이 무엇을 할 수 있는지, 어디서 문제가 생기는지, 그리고 어떻게 신뢰할 수 있게 만드는지를 배우고 있습니다. 그리고 이 학습 곡선은 단지 기술적인 문제가 아닙니다. 문화적인 문제이기도 합니다. 사람들이 지식을 어떻게 공유하는지, 조직이 불확실성을 어떻게 진전으로 바꾸는지에 대한 이야기입니다.
가장 어려운 부분은 이러한 시스템을 구축하는 것이 아닙니다. 우리가 진정으로 알고 있는 것, 알고 있다고 착각하는 것, 그리고 한 번도 의문을 제기해보지 않은 것을 구분하는 일입니다.
필자는 최근 위험 분석에서 자주 쓰이는 간단하지만 통찰력 있는 프레임워크를 다시 주목하게 되었습니다. 그것은 바로 ‘알고 있는 것과 모르는 것(knowns and unknowns)’이라고 불리는 프레임워크입니다. 이는 데이터와 AI를 둘러싼 현재 상황을 이해하는 데도 잘 들어맞습니다. 이 프레임워크는 우리가 아는 것뿐만 아니라 우리가 무엇을 당연시하고 있는지, 무엇을 무시하고 있는지 그리고 어떤 질문을 아예 하지 않고 있는지 명확하게 드러내고, 진짜 위험이 어디에 있는지도 보여줍니다.
현실을 바라보는 2x2 프레임
‘known unknowns’ 모델은 수십 년 전부터 존재해 왔습니다. 2002년 당시 도널드 럼스펠드 미 국방장관이 기자회견에서 사용하면서 유명해졌지만, 그 뿌리는 1950년대 Joseph Luft와 Harrington Ingham이 진행한 심리학 연구로 거슬러 올라갑니다. 당시 두 사람은 우리가 알고 있는 것, 타인이 알고 있는 것, 그리고 여전히 숨겨져 있는 것을 이해하기 위해 Johari Window라는 틀을 고안했습니다.
이 프레임워크는 사람들과 시스템이 실제로 어떻게 학습하는지 보여주기 때문에 데이터와 AI의 영역에도 완벽하게 들어맞습니다.
| 알고 있는 것 | 모르는 것 | |
|---|---|---|
| 알려진 것 | 인지하고 있는 아는 것: 우리가 이해하고 의존하는 것 | 인지하고 있는 모르는 것: 우리가 아직 해결하지 못한 것 |
알려지지 않은 것 |
알려지지 않은 아는 것: 다른 사람은 알지만 우리는 모르는 것 | 알려지지 않은 모르는 것 우리가 알지 못한다는 사실조차 알지 못했던 것 |
이 모델은 간단해 보이지만, 조직이 성공하고, 실수하고, 때로는 완전히 실패하는 이유를 설명해줍니다.
인지하고 있는 아는 것들: 흔들리고 있는 기본
우리는 모두 파이프라인, 거버넌스, 계보, 문서화 같은 기본을 잘 알고 있습니다. 그럼에도 불구하고 새로운 프레임워크가 나타나는 순간 이를 너무나 쉽게 잊어버리는 경향이 있습니다.
AI는 이러한 기본 요소들의 중요성을 변화시키지 않았습니다. 단지 그것들이 결여되었을 때 어떤 일이 벌어지는지를 훨씬 분명하게 드러냈을 뿐입니다. 불안정한 기반 위에 AI를 구축하면 어떤 일이 일어나는지 생각해 보세요.
- 훈련 데이터에 대한 검증이 이루어지지 않으면 모델이 할루시네이션을 일으키고,
- 파이프라인이 조용히 중단되며, 오래된 데이터가 아무런 경고 없이 프로덕션 환경으로 흘러들어가며,
- ‘빠른 프로토타입’은 어느새 비즈니스 크리티컬에 의존하게 됩니다.
시스템을 실제로 지탱하는 것은 눈에 띄지 않는 안전장치들입니다. 깨진 종속성을 잡아내는 데이터 계보 작업, 잘못된 데이터의 확산을 막는 스키마 테스트, 데이터 품질이 떨어질 때 수집을 중단시키는 안전 스위치 등이 대표적입니다.
AI는 이러한 것들을 선택 사항이 아니라 . 협상 불가능한 전제 조건으로 만들었습니다.
강력한 기반은 단순히 장애를 막는 데서 그치는 것이 아니라, 비용도 통제합니다. 테스트되지 않은 작업, 깨진 계보, 오래된 모델 하나하나가 컴퓨팅 자원과 시간을 소모합니다. 최고의 시스템은 가장 빠르게 실행되는 시스템이 아니라, 예측 가능하게 작동하는 시스템입니다. 효율성은 이해에서 시작되고, 이해는 기본을 제대로 하는 데서 나옵니다.
인지하고 있는 모르는 것들: 점점 어려워지는 질문들
모든 조직은 완전히 이해하지 못하는 것들의 목록을 가지고 있습니다. 그리고 AI 영역에서는 그 목록이 계속 길어지고 있습니다.
우리가 감사할 수 없는 결정을 모델이 내린다면 설명 가능성은 어떻게 측정할 것인가?
모델이 스스로 재학습할 때 학습 데이터와 출력 간의 계보는 어떻게 추적할 것인가?
합성 데이터는 어떻게 거버넌스해야 할 것인가?
실패가 몇 시간이 아니라, 밀리초 단위로 발생할 때 드리프트는 어떻게 감지하고 대응할 것인가?
이러한 것들은 바로 ‘인지하고 있는 모르는 것들’입니다. 배치 작업과 예측 가능한 워크플로우에 기반한 기존의 플레이북은 더 이상 통하지 않습니다. 시스템이 이미 돌아가는 와중에 새로운 플레이북을 써야만 하는 상황인 것입니다.
누군가 "프로덕션 AI 시스템에서 사용되는 데이터를 정말로 이해하고 신뢰하고 있는가?"라고 물었을 때 대답을 망설이게 된다면, 그것이야말로 진정한 데이터 엔지니어링입니다. 모르는 것을 알고 있는 것으로 바꾸기 위한 첫 번째 단계는 바로, 모르는 것을 인지하는 데에서 시작됩니다. 우리는 이렇게 솔직한 질문 하나하나를 통해 불확실성을 줄여 나갈 수 있습니다.
알려지지 않은 아는 것들: 눈 앞에 숨어 있는 해답
이 영역은 조용히 프로젝트를 망가뜨립니다. 우리는 모르지만 다른 누군가는 알고 있는 것들이죠.
이것은 다음과 같이 어디에나 존재합니다.
공급업체의 시스템이 ‘최적화’를 거듭하다가 어느 순간 성능히 급격히 떨어졌는데, 공급업체만이 그 내부를 볼 수 있고 사용자는 이유도 모른 채 문제를 해결해야 하는 경우
업스트림 팀이 스키마를 변경했지만 아무에게도 알리지 않은 경우
같은 문제를 이미 1년 전에 해결했지만, 그 경험이 공유되지 앟은 경우
모델이 잘 작동하다가 어느 순간 멈추는데, 왜 그렇게 셜계됐는지 아무도 기억하지 못하는 경우
알려지지 않은 아는 것들은 복잡성이 쌓아 올린 숨은 부채로, 사람과 팀 사이에 지식의 흐름이 멈출 때 나타납니다.
따라서 그 해결책은 더 많은 자동화가 아니라 소통입니다. 질문하고 귀 기울이고 처음부터 사람들을 참여시키는 것이 중요합니다. 때로는 "전에 이걸 본 적이 있는 사람?"이라고 묻는 것이 가장 똑똑한 디버깅 도구가 됩니다.
어떤 작업이든 반드시 여러 직능 부서에 걸쳐 공유되어야 합니다. 엔지니어링 조직은 기술적 위험을 보고 프로덕트 팀은 고객 영향을 봅니다. 보안 팀은 위협을 보고 비즈니스 팀은 규정 준수를 봅니다. 어떤 팀에게는 예측 불가능해 보이는 문제가 다른 팀에게는 너무나 자명한 문제일 수 있습니다.
놀라울 정도로 많은 ‘AI 문제'들은 사실, 알려지지 않은 아는 것들, 즉 누군가의 머릿속에 해답이 들어있는 경우입니다.
알려지지 않은 모르는 것들: 보이지 않는 미래
이것들은 우리가 미처 예상할 수 없는 것들입니다. 결코 미리 알 수 없고, 지나고 나서야 분명해지는 것들이죠.
예를 들어, AI 에이전트가 ‘최적화’를 이유로 가치가 낮다고 판단되는 테이블을 파이프라인에서 제거해버린다거나 인간이 대응하기도 전에 실패해버리는 실시간 추론 시스템이 있다고 생각해 보세요.
사실 이것은 전혀 새로운 일이 아닙니다. 모든 기술의 물결은 이렇게 시작됩니다. 클라우드 마이그레이션 역시 테스트에서는 완벽해 보였던 자동 확장이 프로덕션 비용을 폭발시키며 예기치 않게 실패하곤 했습니다. 그리고 그 과정을 통해 교훈을 얻었고, 가드레일을 만들었습니다.
AI는 같은 사이클을 겪고 있습니다. 다만 그 속도가 훨씬 빠를 뿐입니다. 알려지지 않은 모른 것들을 예측할 수는 없지만, 대비할 수는 있습니다. 그 방법은 다음과 같습니다.
실패를 전제로 설계한다: 실패는 ‘여부’의 문제가 아니라, ‘시기'의 문제입니다. 따라서 롤백, 재시도 및 안전 스위치를 기본으로 설계해야 합니다.
피해 반경을 제한한다: 하나의 잘못된 모델이나 에이전트가 전체 플랫폼을 무너뜨려서는 안 됩니다.
현장의 역량을 강화한다: 이상 징후를 발견한 엔지니어가 불이익을 걱정하지 않고 즉시 조치할 수 있는 환경이어야 합니다.
사고로부터 배움을 얻는다: 좋은 사후 분석은 실제로 무슨 일이 일어났는지, 그리고 왜 일어났는지 이해하는 데 도움이 됩니다.
여기서 목표는 완벽함이 아니라 회복탄력성입니다. 예상치 못한 상황을 흡수하고 적응할 수 있는 시스템과 문화를 만들어가는 것입니다.
장기전
AI는 요원하고 이론적이며 완전히 알려지지 않은 미지의 영역에서 시작되었습니다, 이제는 익숙해졌지만 여전히 이해되지 않는 부분이 많습니다. 우리가 해야 할 일은 AI를 단순화하는 것이 아니라, 설명 가능하고 신뢰할 수 있으며 믿을 수 있는 것으로 만들어 ‘인지하고 있는 아는 것’의 영역으로 옮기는 것입니다.
AI가 실행 작업의 더 많은 부분을 자동화해 나감에 따라, 데이터 엔지니어링의 기술도 변하고 있습니다. 다음 세대는 맥락과 멘토십을 통해 배우게 될 것이며, 어렵게 얻은 교훈을 단순히 물려받는 것이 아니라 가르칠 수 있는 지식으로 바꾸게 될 것입니다.
원칙은 여전히 중요합니다. 원칙은 반응을 회복탄력성으로 바꾸고, 회복탄력성을 지속 가능한 발전으로 바꿉니다.
기술은 계속 바뀌겠지만, 그 기반은 변하지 않을 것입니다. 왜냐하면 진짜 인프라는 플랫폼이 아니라, 기술을 계속해서 구축하고 배우면서 다음 세대로 전하는 사람들이기 때문입니다.
모든 세대는 자신들이 미래를 생각하며 만들어가고 있다고 생각하지만 실제로는 당대의 유산을 이어받을 다음 세대를 위해 만들어가고 있는 것입니다. 따라서 그들에게 줄 수 있는 최고의 선물은 명확성과 계속 배울 수 있게 하는 원칙입니다.
면책 조항: 본 글의 내용은 저자의 개인적인 경험에 기반한 것이며, 현재 또는 과거에 재직했던 회사의 입장을 대변하지 않습니다.
