오늘날 데이터 엔지니어링은 기능과 형태라는 두 가지 측면에서 중대한 변화를 겪고 있습니다. 첫 번째 변화는 분명합니다. AI가 거의 모든 수준에서 데이터 엔지니어의 역할을 근본적으로 재정의하고 있다는 점입니다. AI의 끝없는 데이터 수요는 데이터 엔지니어링 팀에 막대한 요구를 부과하고 있습니다. 이는 성공을 위해 반드시 충족해야 하는 요구이지만, 동시에 지속적으로 감당하기 매우 어렵습니다. 두 번째 변화는 형태의 변화입니다. 데이터 엔지니어가 이러한 새롭고 증가하는 요구를 충족하는 방식 자체가 바뀌고 있습니다. 데이터 엔지니어는 반복적이고 수작업 중심의 업무에서 벗어나 보다 전략적인 실행 역할로 이동해 왔으며, 소프트웨어 개발의 모범 사례를 도입해 업무 수준을 한층 끌어올렸습니다. 이제 데이터 엔지니어는 단순히 데이터를 연결하고 파이프라인을 구축하는 역할에 머물지 않습니다. 데이터 중심 조직의 운영 아키텍트로 자리 잡았습니다. 이제 이 변화는 되돌릴 수 없는 흐름이 되었습니다.
현대 데이터 엔지니어링의 핵심은 더 이상 모든 요소를 일일이 수작업으로 연결하는 데 있지 않습니다. 그런 방식으로는 AI의 요구를 충족할 만큼 확장할 수 없습니다. 기하급수적으로 늘어나는 데이터를 더 빠르게 활용할 수 있게 되면서, 데이터 엔지니어는 그 속도를 따라가기 위해 훨씬 더 효율적으로 일해야 합니다. 바로 이 지점에서 파이프라인 구축에 대한 현대적이고 선언적인 접근 방식이 데이터 엔지니어링의 판도를 바꾸고 있습니다. 각 단계의 세부 구현에 매달리는 대신 원하는 최종 상태에 집중함으로써, 데이터 엔지니어는 생산성을 획기적으로 높이고 과거에는 불가능해 보였던 수준의 성과를 달성할 수 있습니다.
코딩 에이전트를 예로 들어보겠습니다. Cursor, Claude Code, Snowflake의 Cortex Code를 비롯한 이러한 도구들은 불과 몇 개월 만에 소프트웨어 개발에 대한 우리의 생각을 완전히 바꿔놓았으며, 그 영향은 데이터 엔지니어링에도 그대로 이어지고 있습니다. 어떻게 가능했을까요? 데이터 엔지니어링 팀은 수년간 소프트웨어 개발 수명 주기의 모범 사례를 꾸준히 도입해 왔습니다. 인프라를 코드로 관리하고, 데이터 파이프라인을 stateless 소프트웨어 코드와 유사한 구조의 버전 관리 환경에서 운영하고 있습니다. 이러한 AI 코딩 에이전트는 소프트웨어 엔지니어링 문제를 중심으로 학습되었기 때문에, 현대적인 데이터 엔지니어링 방식에도 비교적 쉽게 적응할 수 있습니다.
이처럼 보다 현대적이고 선언적인 사고방식으로의 전환은 AI 도구가 실질적으로 작동할 수 있는 기반을 마련합니다. 하지만 더 중요한 것은 AI가 대규모로 운영될 수 있도록 필요한 안전장치를 제공한다는 점입니다. 과거에는 파이프라인 문제를 해결하려면 프로덕션 환경에서 직접 SQL 명령을 실행해야 했고, 문제가 발생하면 원인을 추적하는 과정이 매우 복잡했습니다. 반면 오늘날의 현대적인 접근 방식에서는 모든 변경 사항이 버전 관리 시스템에 저장되고, 테스트를 거쳐 검증된 상태에서만 배포됩니다. 변경 사항을 쉽게 검증하고 필요할 경우 롤백할 수 있는 환경은 AI가 데이터 워크플로우를 작성하거나 관리하도록 신뢰하기 위한 필수 전제 조건입니다.
물론 AI를 신뢰한다는 것이 맹목적인 믿음을 의미하는 것은 아닙니다. 핵심은 기초 데이터 엔지니어링 프로세스에 대한 신뢰를 구축하는 것입니다. 이미 많은 조직이 수천 개의 데이터 파이프라인을 동시에 운영하고 있으며, 모든 구성 요소를 사람이 직접 감독하는 것이 사실상 불가능한 수준에 이르렀습니다. 머지않아 소프트웨어 에이전트가 파이프라인 구축의 상당 부분을 담당하는 에이전틱 AI 시대로 나아가게 될 것입니다. 이에 따라 데이터 엔지니어의 역할도 다시 한번 고도화될 것입니다. 개별 스크립트를 작성하는 업무에서 벗어나 고급 데이터 모델링과 시스템 요구 사항 정의에 집중하게 될 것입니다. 또한 비즈니스에 더욱 가까운 위치에서 AI, Analytics 및 애플리케이션에 필요한 데이터의 가용성과 품질을 보장하는 역할을 수행하게 될 것입니다.
궁극적으로 데이터 엔지니어링의 미래는 데이터를 이동시키기 위한 더 나은 스크립트를 작성하는 데 있지 않습니다. 데이터를 연결하는 탄력적인 시스템을 구축하는 데 있습니다. 이러한 변화에 대비할 수 있도록 Lead Developer Advocate인 Gilberto Hernandez는 AI를 위한 파이프라인 구축: 더 스마트한 데이터 엔지니어링을 위한 필수 가이드를 집필했습니다. 이 책에서는 데이터 파이프라인을 위한 ITD(Ingestion-Transformation-Delivery) 프레임워크를 설명하고, 각 단계에서 사용되어 온 전통적인 접근 방식의 장점과 한계를 살펴봅니다. 또한 데이터 엔지니어링 팀이 변화하는 환경에 적응하고 미래를 준비할 수 있도록 지원하는 최신 도구와 방법론을 소개합니다.
