Snowflake Connect: AI - 1월 27일 일정 안내

Snowflake의 최신 혁신 기술로 데이터와 AI의 모든 잠재력을 활용하세요.

시계열 분석 및 예측 설명

시계열 분석 방법과 그 예시를 살펴봅니다. 시간 기반 데이터 세트에서 추세, 패턴 및 인사이트를 도출하기 위한 시계열 데이터 분석 방법을 확인할 수 있습니다.

  • 개요
  • 시계열 분석이란?
  • 시계열 데이터의 구성 요소
  • 시계열 데이터의 유형
  • 시계열 데이터 분석을 사용해야 하는 이유
  • 시계열 분석 방법 및 기법
  • 시계열 분석 체크리스트
  • 시계열 분석의 예시 및 사용 사례
  • 비즈니스 성과를 높이는 시계열 분석의 이점
  • 시계열 분석의 과제
  • 결론
  • 시계열 분석 FAQ
  • Analytics를 위한 Snowflake 고객 사례
  • 데이터 분석 리소스

개요

시계열 분석은 일정한 시간 간격으로 변수를 측정해 해당 데이터의 특성을 관찰하고 분석하는 기법으로, 시간의 흐름에 따라 지표를 추적하고 과거 데이터를 분석해 추세를 파악할 수 있어 다양한 사용 사례에서 필수적인 도구로 활용됩니다. 특히 헬스케어, 금융, 기술 및 물류처럼 대규모 데이터를 수집하는 산업 전반에서 폭넓게 사용됩니다. 

과거의 추세와 상관관계를 식별함으로써 분석가는 시계열 분석을 활용해 제품 수요나 컴퓨팅 요구 사항과 같은 요소를 보다 정교하게 예측할 수 있습니다. 경제 전반의 거의 모든 산업에서 데이터 수집, 처리 및 스토리지가 확대되고 머신러닝 및 AI가 도입되면서 시계열 기법의 가치는 더욱 높아졌습니다. 이 글에서는 시계열 분석의 세부 내용과 활용 가치, 그리고 이를 통해 비즈니스 성과를 개선하는 방법을 살펴봅니다.

시계열 분석이란?

시계열 분석은 겉보기에는 단순해 보이지만, 실제로는 높은 유연성과 잠재적인 복잡성을 내포하고 있습니다. 모든 시계열 데이터는 동일한 간격으로 시간에 따라 캡처된 데이터를 순서대로 배열한 형태로 제공됩니다. 예를 들어 1년 동안 매월 기업이 확보한 뉴스레터 가입자 수가 이에 해당합니다. 시계열 분석은 과거 데이터에 적용할 때 그 진가를 발휘합니다. 시계열의 시간 범위를 확장하면 장기적인 추세를 관찰할 수 있고, 예를 들어 경제적 역풍의 변화나 정책 변경 또는 공급망 중단의 영향을 정확히 파악할 수 있습니다. 

이 기법을 정의하는 핵심 요소는 시간이 끊임없이 누적된다는 점입니다. 변수 간의 관계를 분석하는 회귀 분석이나 특정 시점의 다양한 데이터를 살펴보는 횡단면 분석과 대비됩니다.

시계열 데이터의 구성 요소

시계열을 생성하는 데 사용하는 데이터에는 몇 가지 공통적인 특성이 있으며 다음과 같은 요소로 구분할 수 있습니다.
 

추세

추세는 지표가 전반적으로 어떤 방향으로 움직이고 있는지를 보여줍니다. 앞선 예를 기준으로 보면 뉴스레터 가입자 수가 월 단위로 지속 증가하고 있으며, 이는 가입자 성장 추세가 형성되고 있음을 보여줍니다.
 

계절성

계절성은 예측 가능하고 반복적인 이벤트와 연관돼 일정한 주기로 반복되는 데이터 패턴을 의미합니다. 가장 일반적인 예로는 휴가철 전후로 소비자 지출이 증가하는 현상을 들 수 있습니다. 보다 세분화된 예로는, 매월 1일과 15일에 임대 가능한 아파트 물량이 갑자기 늘어나는 늘어나는 경우가 있습니다.
 

주기적 패턴

주기는 특정 시즌이나 이벤트에 국한되지 않은 장기적인 패턴을 의미합니다. 이는 일반적으로 장기간에 걸쳐 나타나는 경제 성장기 및 침체기를 의미하며 단일 사건이나 특정 발생 요인에 직접적으로 연결되지는 않습니다. 예를 들어 경기 침체기에는 엔터프라이즈 소프트웨어 지출이 감소하고, 경제 성장기에는 그 반대 현상이 나타날 수 있습니다.
 

불규칙성 또는 무작위 노이즈

노이즈는 기술적 문제로 인해 정상 범위에서 벗어나거나 일회성 발생 또는 기타 정의되지 않은 사건 등 다른 어떤 요소로도 설명할 수 없는 데이터 포인트를 의미합니다. 기계 장비에서 발생하는 센서 오류나 주식 가격이 분 단위로 소폭 변동하는 현상은 노이즈의 대표적인 예입니다.

시계열 데이터의 유형

시계열 데이터는 변수의 수나 데이터 수집 방식, 또는 시계열과 관련된 기타 통계적 정보에 따라 다양한 유형으로 분류할 수 있습니다. 다음은 시계열 데이터를 분류하는 대표적인 세 가지 방식입니다.
 

단변량 시계열과 다변량 시계열

단변량 시계열은 일정한 간격으로 하나의 지표만 추적합니다. 대표적인 예로 개인의 심박수를 나타내는 표준 지표인 분당 심박수(BPM)가 있습니다. 다변량 시계열은 동일한 시간 간격을 유지하면서 여러 지표를 동시에 추적합니다. 예를 들어 병원에서는 환자의 심박수와 혈중 산소 포화도를 동시에 수집하고 추적할 수 있으며 두 지표를 함께 분석하면 순환계 건강 상태를 보다 종합적으로 파악할 수 있습니다. 
 

정규 시간 간격과 비정규 시간 간격

정규 시간 간격은 일정한 시간 주기에 따라 값을 기록하는 방식으로, 매분 실내 온도를 측정하는 경우가 이에 해당합니다. 비정규 간격 데이터는 이벤트가 발생하는 시점마다 기록하는 방식으로 클라우드 서비스가 요청을 처리할 때마다 이를 추적하는 경우가 이에 해당합니다. 이러한 이벤트는 짧은 시간에 여러 번 발생할 수도 있고 일정 기간 동안 전혀 발생하지 않을 수도 있습니다. 
 

정상 시계열과 비정상 시계열

시계열 예측 모델은 정상 데이터를 기반으로 하며 정상 데이터란 시간이 지나도 데이터 범위가 예측 가능하고 평균이나 분산과 같은 통계적 특성이 변하지 않는 데이터를 의미합니다. 비정상 데이터는 계절성이나 기타 변동성 요인으로 인해 값이 변하는 데이터를 의미합니다. 정상 시계열은 비정상 시계열보다 분석이 쉽고 신뢰성이 높지만 차분과 같은 통계적 기법을 활용하면 비정상 데이터도 예측에 충분할 정도로 안정화할 수 있습니다.

시계열 데이터 분석을 사용해야 하는 이유

시계열 데이터는 리스크 완화와 서비스 가동 시간 확보부터 과거 데이터의 심층 분석을 통한 패턴 발견까지 다양한 용도로 활용됩니다.

보다 기본적인 사용 사례는 활동의 기준선을 설정하는 데 초점을 둡니다. 여기에는 IT 서비스 지연 시간부터 마케팅 활동을 통해 하루 동안 발생하는 참여 수까지 다양한 지표가 포함될 수 있습니다. 시계열을 활용하면 이러한 사례에서 이상 동작을 모니터링할 수 있습니다. 예를 들어 비정상적인 지연 시간 급증은 네트워크 유지 관리가 필요하다는 신호일 수 있으며, 마케팅 참여도가 갑자기 증가했다면 어떤 메시지가 효과적인지에 대한 중요한 인사이트를 제공할 수 있습니다.

또한 시계열을 정보에 입각한 의사 결정을 내리는 데도 활용할 수 있습니다. 대표적인 사례로는 재고 관리가 있습니다. 고객 수요가 과거에 어떻게 증가하고 감소했는지를 분석하면 공급망과 생산 일정을 보다 효과적으로 조정할 수 있습니다. 이를 통해 수요가 늘어날 때는 유연하게 확장하고 수요가 줄어들 때는 비용 절감을 극대화할 수 있습니다.

시계열 분석 방법 및 기법

시계열 분석을 통해 유의미한 인사이트를 도출하는 데는 다양한 방법을 활용할 수 있습니다. 어떤 방법을 선택할지는 시계열의 특성과 과거 데이터의 가용성에 따라 달라집니다. 다음은 가장 널리 사용되는 시계열 분석 방법입니다.
 

이동 평균과 지수 평활법

이 두 방법은 과거 데이터의 평균을 활용해 지표의 변동성을 완화합니다. 노이즈와 기타 이상 변동을 제거함으로써, 이동 평균은 시간에 따른 전반적인 데이터 추세를 파악하는 데 도움이 됩니다. 주가의 이동 평균은 예측하기 어려운 상승이나 하락보다는 일정 기간 동안의 전반적인 가격 흐름을 포착합니다. 지수 평활법은 과거 데이터보다 최근 데이터에 더 큰 가중치를 두는 기법입니다. 이를 통해 최근 변화를 반영한 평균값을 산출하고 현재 데이터 상태에 부합하는 추세를 예측할 수 있습니다. 
 

ARIMA와 SARIMA 모델

자기회귀 누적 이동 평균(ARIMA)은 자기회귀, 차분, 이동 평균라는 세 가지 기법을 결합해 미래 변수를 예측합니다. 이들 기법을 통합함으로써 ARIMA는 비정상 시계열을 사용할 수 있으며 과거 데이터의 이동 평균을 기반으로 변수의 변화 패턴을 추정해 예측을 수행합니다. 계절성 자기회귀 누적 이동 평균(SARIMA)은 데이터의 계절적 변화를 고려해 계절성을 띠는 시계열 데이터를 기반으로 예측을 수행합니다.
 

시계열 예측을 위한 머신러닝

많은 조직은 순환 신경망이나 의사결정 트리 모델과 같은 머신러닝 기법을 분석 과정에 통합합니다. 해당 모델이 더 높은 예측 정확도를 제공하고 대규모 데이터 볼륨을 처리할 수 있기 때문입니다. 이러한 모델은 또한 분석 과정에서 시간과 인력이 많이 소요되는 작업을 자동화해 조직 전반의 효율성을 높일 수 있습니다.

시계열 분석 체크리스트

강력한 머신러닝 도구가 있더라도 시계열 분석을 성공적으로 구현하려면 프로젝트의 목표와 한계를 신중히 고려해야 합니다. 새로운 시계열 분석 프로젝트를 시작할 때 따라야 할 다섯 가지 단계는 다음과 같습니다.
 

1. 목표 정의

분석 목표를 명확히 정의하는 것은 결과의 성공 여부를 평가하는 데 중요할 뿐만 아니라 데이터 세트가 지닌 제약과 한계를 정확히 파악하는 데에도 필수적입니다.
 

2. 데이터 준비 및 정제

목표를 명확히 정의한 다음, 데이터 세트를 확보하고 평활화 기법을 적용해 이상값 및 결측치와 데이터 세트 내의 기타 문제를 해결하여 정제합니다.
 

3. 시각화 및 패턴 탐색

데이터를 그래프 형식으로 표현하면 계절성이나 전반적인 추세 같은 공통 패턴을 쉽게 파악할 수 있습니다. 자기상관 함수(ACF)를 사용하면 데이터 세트가 정상 시계열인지 여부를 판단하는 데 도움이 됩니다.
 

4. 적정 방법 선택

데이터의 특성과 목표에 따라 계절성이 중요한 경우에는 ARIMA 또는 SARIMA를 데이터 세트에 적용할 수 있습니다. 대규모 데이터 세트나 복잡한 분석이 필요한 경우에는 ML 또는 딥러닝 기법을 활용해야 할 수 있습니다.
 

5. 결과 검증 및 해석

여러 기법을 활용해 결과의 정확성을 검증할 수 있으며, 예측 결과를 실제로 발생하는 결과와 비교하는 방식이 주로 사용됩니다. 모델이 미래 결과를 정확하게 예측하고 있음을 검증한 후에는 1단계에서 정의한 목표를 기준으로 예측 결과를 활용해 의사결정을 내릴 수 있습니다. 예를 들어 향후 6개월간 소비자 수요가 어떻게 변화할지를 예측하는 데 사용할 수 있습니다.

시계열 분석의 예시 및 사용 사례

현대 경제의 모든 산업 분야에서는 의사 결정을 지원하기 위해 다양한 형태의 데이터 분석을 활용하고 있습니다. 다음은 시계열 분석이 활용되는 대표적인 산업별 사용 사례입니다.
 

리테일 및 전자상거래

시계열 분석은 리테일 환경에서 고객 관심도와 구매 활동을 추적하고 서비스 가용 시간을 유지하는 데 널리 사용됩니다. 예측 영역에서 많은 조직은 시계열 분석을 공급망 관리 의사결정에 통합합니다. 과거 데이터를 활용해 잠재적인 공급 차질 시나리오를 고려하고 향후 판매 프로모션을 대비한 재고 수준을 계획합니다.
 

헬스케어 및 라이프사이언스

헬스케어 및 웰니스 조직은 심전도(EKG) 장비부터 웨어러블 기술에 이르기까지 다양한 영역에 적용할 수 있기 때문에 시계열 분석을 폭넓게 활용합니다. 시계열 분석은 과학 연구에서도 활용되며 연구자들은 특정 지역이나 고정된 인구 집단에서 수집한 대규모 데이터 세트를 분석하는 데 이를 사용할 수 있습니다. 예를 들어 하수 검사를 통해 특정 바이러스의 증식 여부를 분석하는 경우가 이에 해당합니다.
 

마케팅 및 고객 분석

시계열 분석은 다양한 마케팅 캠페인의 성과를 추적하는 데에도 중요한 역할을 합니다. 이를 통해 매주 신규 고객이 얼마나 유입되는지에 대한 기준선을 설정할 수 있으며 이 기준선을 바탕으로 새로운 메시지, 광고 또는 기타 마케팅 활동의 영향을 측정할 수 있습니다.

비즈니스 성과를 높이는 시계열 분석의 이점

시계열 분석은 조직이 과거 데이터를 기반으로 과거를 더 잘 이해하고 미래를 계획하며 변화하는 시장 상황에 적응하고 제품 성능을 개선할 수 있도록 지원해 다양한 산업 분야에서 널리 활용되고 있습니다. 다음은 주요 이점을 좀 더 자세히 살펴본 내용입니다.
 

1. 예측 정확도 향상

시계열 분석 기법의 구조는 광범위한 데이터 정제와 안정성 검증을 전제로 하며 이러한 과정이 예측에 유용한 모델로 만드는 핵심 요인 중 하나입니다. 노이즈, 결측 변수 및 기타 잠재적 이상치를 고려하고 예측 결과를 표본 외 관측값과 비교해 검증함으로써 예측 역량을 구축하고 지속적으로 개선할 수 있습니다.
 

2. 리소스 계획 최적화

소비자 수요, 공급망 비용 및 비효율성, 또는 IT 시스템의 컴퓨팅 수요 변화에 대한 정확한 예측을 제공함으로써 시계열 분석은 제품 성능과 가동 시간을 저해하지 않으면서 낭비를 최소화하는 데 도움을 줍니다.
 

3. 실시간 성능 모니터링

강력한 예측 기능 외에도 시계열 분석은 실시간 환경에서도 활용돼 지연 시간 급증, 수요 급증 또는 기타 변화를 신속하게 감지할 수 있습니다.

시계열 분석의 과제

시계열 분석은 데이터 분석 도구 중 하나이며, 모든 사용 사례에 항상 최적의 해법이 되는 것은 아닙니다. 또한 시계열 분석의 유용성은 신뢰성 검증이 가능한 수준의 고품질 데이터 확보에 달려 있으며 이러한 데이터가 항상 가용한 것은 아니라는 점도 고려해야 합니다. 시계열 분석 분야에서 가장 빈번하게 나타나는 주요 과제는 다음과 같습니다.
 

데이터 품질 및 결측값

접근 방식이 아무리 잘 설계되었더라도 데이터가 일관되지 않거나 결측값이 많다면 시계열 모델의 정확성과 활용도는 크게 떨어질 수 있습니다.
 

비정상성과 복잡한 패턴

차분과 같은 기법으로 데이터를 정상화할 수는 있지만, 이로 인해 노이즈와 같은 새로운 이슈가 발생할 수 있습니다. 시간대, 요일, 월별로 여러 계절성 패턴이 동시에 나타나는 지표처럼 복잡한 데이터의 경우 시계열 모델이 성능 저하를 보일 수 있습니다. 이러한 복잡성은 데이터를 정상화하고 정확한 예측을 생성하는 데 어려움을 가져올 수 있습니다.
 

확장성 및 실시간 처리의 한계

시계열 예측은 과거 데이터에 의존하기 때문에 대규모 데이터 세트를 대상으로 모델을 학습, 테스트 및 실행하는 과정이 복잡할 수 있습니다. 그 결과 데이터 규모가 커질수록 아키텍처 한계에 도달하거나 운영 비용이 증가할 수 있습니다.

결론

시계열 분석은 기업이 활용할 수 있는 가장 가치 있는 분석 기법 중 하나로, 정확한 예측을 기반으로 합리적인 의사결정을 내리고 구조적 효율성과 개선 기회를 식별할 수 있도록 지원합니다. ML 및 AI 도구의 발전으로 이 기법은 효율성과 접근성이 높아졌고 비기술 조직에서도 성과 측정과 예측 개선을 위한 모델을 구축할 수 있게 됐습니다. 이러한 이유로 시계열 분석은 현대 분석 플랫폼에서 여전히 주요한 분석 방법으로 자리 잡고 있습니다.

시계열 분석 FAQ

시계열 분석에 대해 자주 묻는 질문 몇 가지를 소개합니다.

시계열 분석은 현재 및 과거 데이터를 분석해 새로운 인사이트를 도출하는 것을 의미하며, 클릭률이나 적격 리드 같은 지표를 기준으로 현재 마케팅 캠페인의 성과를 과거 캠페인과 비교하는 것이 한 예입니다. 시계열 예측은 과거 데이터를 활용해 시계열의 미래 값을 예측하는 모델을 의미하며, 예를 들어 과거 성과를 바탕으로 잠재적인 신규 마케팅 캠페인의 영향 예측을 제공할 수 있습니다. 시계열 예측은 시계열 분석의 하위 개념으로 간주됩니다.

예측 모델은 시계열 데이터 세트의 미래 값을 정확하고 합리적으로 예측하기 위해 사용하는 기법입니다. 올바른 모델을 선택하는 것은 성공적인 시계열 예측의 핵심 요소입니다. 분석가는 최적의 모델을 선택하기 위해 데이터 세트의 정상성, 복잡성, 그리고 전반적인 목표와 같은 요소를 고려합니다.

시계열 분석은 강력한 도구이지만 모든 상황에 이상적인 해법은 아닐 수 있습니다. 많은 시계열 기법은 정확한 분석을 위해 방대한 과거 데이터를 필요로 하며, ARIMA와 SARIMA 같은 모델은 정확한 예측을 위해 상당한 수준의 튜닝이 필요합니다. 많은 모델은 다중 계절성 추세와 같은 복잡한 데이터 구조를 처리하는 데에도 어려움을 겪습니다. ML 또는 AI 도구로 일부 문제를 해결할 수 있지만, 그 과정에서 데이터 전처리 부담이 커져 과적합이나 기타 오류가 발생할 수 있습니다.