본문 바로가기
엑셈 경쟁력/AI 모델링부터 LLM까지의 여정

AI에서 데이터 분석의 중요성

by EXEM 2024. 8. 29.

 

1. AI와 데이터 분석의 관계

지난 수십 년간 우리는 이전에 상상할 수 없었던 속도로 데이터를 생산해 왔습니다. 현재 인류가 생성한 데이터의 총량은 약 90 제타바이트(ZB)에 달하며, 이는 인류 역사상 축적된 데이터의 수천 배에 이르는 양입니다. 이러한 데이터 폭발은 AI 기술 발전의 주요 촉매제가 되었으며, 데이터는 AI 모델의 학습과 예측, 의사결정 과정에서 필수적인 자원이 되었습니다.

 

AI 모델은 데이터를 통해 세상을 이해하고, 예측하며, 복잡한 문제를 해결합니다. Andrew Ng은 AI를 '코드와 데이터'의 결합으로 설명하면서, 데이터가 없이는 AI가 그 능력을 제대로 발휘할 수 없다고 강조했습니다. 데이터는 AI 모델이 학습할 수 있도록 하는 연료와도 같기 때문에, 양질의 데이터를 어떻게 가공하고 활용하는지가 AI 성능에 직접적인 영향을 미칩니다.

 

또한, 단순히 많은 데이터를 수집하는 것만으로는 충분하지 않습니다. 데이터를 AI가 학습하기에 적합한 형태로 변환하고, 피처 엔지니어링과 같은 과정을 통해 데이터를 최적화하는 것이 중요합니다. 예를 들어, 텍스트 데이터의 경우 자연어 처리 기술을 통해 텍스트를 수치화하고, 시간 데이터를 통해 특정 패턴을 추출하는 것이 AI 모델 성능 향상의 핵심이 됩니다. 이는 AI 개발에서 데이터를 단순히 입력값으로 간주하는 것을 넘어, 데이터를 전략적으로 가공하고 활용하는 것이 필수적이라는 점을 시사합니다.

 

DATA CENTRIC AI Vs MODEL CENTRIC AI

 

이와 같은 관점에서, AI 기술의 발전은 데이터의 수집뿐만 아니라, 데이터의 가공과 전처리, 그리고 이를 통한 모델 성능 최적화에 달려 있다고 할 수 있습니다. 이는 AI가 다양한 분야에서 실제로 사용될 때 더 나은 결과를 얻기 위한 중요한 전략 중 하나입니다. 특히, 저희 비즈니스 모델의 핵심인 시계열 시스템 데이터 이상탐지 분야에서는 데이터의 품질과 전처리가 AI 모델의 성공에 결정적인 영향을 미칩니다. 시계열 데이터는 시스템 상태를 지속적으로 모니터링하고, 잠재적인 문제를 사전에 탐지하기 위해 중요한 역할을 하기 때문에, 이를 효과적으로 분석하고 활용하는 방법에 대해 논의할 필요가 있습니다.

 

 

2. 데이터와 AI 성능의 관계 

AI 기반 이상탐지 모델의 성능은 데이터를 얼마나 효과적으로 활용하느냐에 크게 좌우됩니다. 특히 시스템에서 수집되는 시계열 데이터는 분석과 모델링을 위해 테이블 데이터로 변환되며, 이 과정에서 데이터의 품질이 중요합니다. 일관성 있게 수집되고, 노이즈가 최소화된 데이터일수록 AI 모델은 더욱 정확하게 이상 패턴을 감지할 수 있습니다. 그러나 많은 AI 프로젝트에서는 시계열 데이터의 중요성과 그 품질이 간과되곤 합니다.

 

시스템에서 수집되는 시계열 데이터를 테이블 데이터로 변환하는 과정은 데이터의 가공과 전처리 단계에서 매우 중요합니다. 시계열 데이터를 테이블 형식으로 변환할 때, 각 시간 간격의 데이터를 행으로, 해당 시간에 기록된 다양한 측정값을 열로 배치합니다. 이 과정에서 시간적 일관성과 데이터의 정확성이 보장되어야 하며, 결측값 처리, 이상치 제거 등 데이터의 전처리가 철저하게 이루어져야 합니다.

Temporal data being aggregated into a feature table

 

예를 들어, 제조업에서 센서 데이터를 시계열 데이터로 수집한 후 이를 테이블 데이터로 변환하여 AI 모델에 입력한다고 가정해봅시다. 만약 데이터가 부정확하거나 노이즈가 많다면, AI 모델은 잘못된 경고를 발생시키거나 중요한 이상 신호를 놓칠 수 있습니다. 이러한 오류는 시스템 운영에 큰 영향을 미치며, 심각한 경우 생산 라인의 비효율성이나 장비 손상을 초래할 수 있습니다. 따라서 AI 모델이 단순히 많은 데이터를 필요로 하는 것이 아니라, 양질의 시계열 데이터를 적절히 테이블 형식으로 변환하여 사용하는 것이 필수적입니다.

 

특히, 제조업, 금융, 에너지 관리 시스템 등과 같이 데이터의 품질이 시스템의 정확성과 직결되는 산업에서는, 데이터의 일관성과 품질 관리가 더욱 중요합니다. 이러한 환경에서 데이터를 체계적으로 관리하고, 데이터 전처리와 피처 엔지니어링을 통해 데이터를 최적화하는 것이 AI 성능을 극대화하는 핵심입니다.

 

결론적으로, 시계열 데이터를 테이블 데이터로 변환하는 과정에서는 데이터의 품질을 높이는 것뿐만 아니라, 데이터의 특성을 이해하는 것이 중요합니다. 단순히 최신 모델을 사용하는 것보다, 시계열 데이터의 고유한 패턴과 특성을 잘 파악하여 이를 테이블 형식으로 적절하게 변환하고, 이 특성을 활용해 모델의 성능을 높이는 것이 더욱 효과적일 수 있습니다. 데이터를 잘 이해하고 그에 맞는 처리 전략을 세우는 것이 AI 모델의 성공에 중요한 역할을 합니다.

 

 

3. AI 모델 성능 향상을 위한 데이터 분석의 전략

데이터 전처리 및 피처 엔지니어링

AI 모델의 성능을 극대화하기 위해서는 데이터 전처리 과정에서의 철저한 분석이 필수적입니다. 데이터 전처리는 모델에 입력되는 원시 데이터를 AI가 학습하기에 적합한 형태로 변환하는 과정입니다. 이 과정에서 피처 엔지니어링과 데이터 변환은 특히 중요한 역할을 합니다. 예를 들어, 시계열 데이터에서는 시간에 따른 패턴을 파악하고, 데이터를 평탄화하거나 정상성을 확보하기 위해 필요한 변환을 수행하는 것이 필수적입니다. 시계열 데이터의 특성을 이해하고 이를 기반으로 피처를 생성하거나 데이터를 변환하는 것은 모델 성능 향상에 직접적으로 기여합니다​. 적절한 피처 엔지니어링을 통해 모델이 학습할 수 있는 중요한 패턴을 추출하고, 불필요한 노이즈를 제거함으로써 AI 모델의 예측력과 정확도를 크게 높일 수 있습니다.

 

시계열 테이터에서 이상치

 

모델링 과정에서의 피드백 루프

 

AI 모델링 과정에서 지속적인 피드백 루프를 적용하는 것도 성능을 개선하는 데 중요한 전략입니다. 피드백 루프란, 모델이 학습과 예측을 수행하는 중간 중간에 데이터 분석을 통해 모델의 성능을 평가하고, 필요한 경우 모델을 조정하거나 데이터를 재분석하는 과정을 말합니다. 이 과정에서 얻어진 인사이트는 모델의 하이퍼파라미터 조정, 데이터의 추가 전처리, 혹은 피처 엔지니어링 개선 등에 활용될 수 있습니다. 예를 들어, 다변량 시계열 데이터에서 AI 모델이 특정 지표 간의 상관관계를 잘 학습하고 있는지 지속적으로 평가하는 피드백 루프를 적용할 수 있습니다. 저희가 사용하는 이상탐지 모델의 경우, 이러한 피드백 루프를 통해 지표 간 상관관계를 더욱 정밀하게 분석하고, 이를 바탕으로 모델을 개선함으로써 높은 성능을 달성할 수 있습니다​.

machine learning life cycle

 

결국, AI 모델링에서 데이터 분석은 단발적인 작업이 아니라, 모델 개발 과정 전반에 걸쳐 지속적으로 수행되어야 하는 필수적인 요소입니다. 이와 같은 전략적 접근을 통해 AI 모델은 보다 정확하고 신뢰할 수 있는 예측을 제공할 수 있습니다. 

 

 

4. 시계열 데이터에서의 데이터 분석의 역할

시계열 데이터는 저희 비즈니스 모델의 핵심 요소로 특히, 시스템 상태를 모니터링하고 이상을 탐지하기 위해 시계열 데이터를 효과적으로 분석하는 것이 필수적입니다. 시계열 데이터의 특성과 이를 분석하는 주요 기법을 살펴보면서, 이러한 분석이 AI 모델링에서 어떻게 활용될 수 있는지에 대해 설명하겠습니다. 시계열 데이터는 시간에 따라 수집된 데이터로, 다양한 산업에서 예측과 이상 탐지에 중요한 역할을 합니다. 이 데이터의 분석은 AI 모델이 정확하게 예측하고 이상을 탐지하는 데 필수적입니다. 시계열 데이터의 특성과 이를 분석하는 주요 기법에 대해 알아보고, AI 모델링에 어떻게 활용될 수 있는지 설명하겠습니다.

 

시계열 데이터의 특성

시계열 데이터는 시간 종속성(time dependency)과 계절성(seasonality)을 주요 특징으로 합니다. 시간 종속성은 현재 데이터가 과거 데이터에 영향을 받는다는 것을 의미하며, 이는 미래 예측에 중요한 요소로 작용합니다. 예를 들어, 시계열 데이터 간의 상관관계를 고려하지 않고 개별적으로 분석하면 잘못된 결론에 이를 수 있습니다. 계절성은 특정 주기에 따라 데이터가 변동하는 패턴을 말하며, 이 패턴을 정확히 이해하고 분석하는 것이 AI 모델의 성능을 높이는 데 매우 중요합니다.

 

시계열 데이터 분석 기법

시계열 데이터를 분석하는 데 사용되는 주요 기법으로는 이동 평균(Moving Average), ARIMA 모델, 그리고 딥러닝 기반의 모델이 있습니다.

 

  • 이동 평균(Moving Average): 이는 데이터의 노이즈를 줄이고 전반적인 트렌드를 파악하는 데 유용합니다. 일정 기간의 평균을 계산하여 데이터의 변동성을 평탄화합니다.
  • ARIMA 모델: 자기회귀 통합 이동 평균(AutoRegressive Integrated Moving Average) 모델은 시계열 데이터를 기반으로 한 예측에 널리 사용됩니다. 이 모델은 데이터의 자기 상관성을 활용하여 미래 값을 예측합니다. 
  • 딥러닝 모델: 최근에는 LSTM(Long Short-Term Memory)과 같은 딥러닝 모델이 시계열 데이터 분석에 널리 사용되고 있습니다. 이 모델들은 시간에 따른 데이터의 복잡한 패턴을 학습하는 데 강점을 가지고 있으며, 특히 다변량 시계열 데이터에서 높은 성능을 발휘합니다. 
  • 지표 간 관계성 분석: 시계열 데이터 분석에서 중요한 또 다른 기법은 지표 간 상관관계를 분석하는 것입니다. 시계열 데이터는 단일 지표만을 분석하는 것보다, 여러 지표 간의 관계를 분석하는 것이 훨씬 더 많은 정보를 제공할 수 있습니다. 상관관계 분석은 이러한 지표 간의 상호작용을 이해하고, 데이터가 함께 변화하는 패턴을 파악하는 데 유용합니다.

 

AI 모델 적용을 위한 시계열 데이터 분석

시계열 데이터의 분석 결과는 AI 모델링에 직접적으로 활용됩니다. 예를 들어, 시계열 데이터의 트렌드와 계절성을 파악한 후 이를 예측 모델에 반영하면, 모델의 예측 정확도가 크게 향상될 수 있습니다. 또한, 데이터의 특성을 잘 이해하고 이를 모델링에 반영함으로써, 이상 탐지의 정확도도 크게 개선될 수 있습니다. 이러한 분석은 특히 다변량 시계열 데이터를 다룰 때 그 중요성이 더욱 부각됩니다.

 

예를 들어, **Cross-Correlation Function (CCF)**과 같은 기법을 사용하여 두 시계열 간의 상관관계를 계산할 수 있습니다. CCF는 시간 지연에 따른 두 시계열 간의 상관 관계를 측정하여, 특정 시점에서의 지표 간 영향력을 분석하는 데 도움을 줍니다. 이러한 상관관계 분석은 다변량 시계열 데이터에서 AI 모델의 성능을 극대화하는 데 중요한 역할을 합니다.

 

실제로, 저희가 사용하고 있는 collective 이상탐지 모델에서는 이러한 상관관계 분석을 효과적으로 활용하여 높은 성능을 발휘하였습니다. 이를 통해, 데이터 간의 복잡한 관계성을 이해하고 이를 AI 모델링에 반영하는 것이 얼마나 중요한지 입증되었습니다. 이러한 접근은 특히 복잡한 시스템에서의 이상 탐지에서 큰 차이를 만들어 냅니다.

 

system(was) 시계열 Data Cross-Correlation

 

 

5. 우리 솔루션에서 올바른 데이터 분석 적용사례

AI 모델의 성능에 있어 데이터 분석은 매우 중요한 역할을 합니다. 특히, 시스템 시계열 데이터에서 각 지표 간의 관계성을 분석하는 것은 이상탐지의 정확성을 크게 향상시킬 수 있습니다. 우리가 수행한 실험에서는 Graph-based Network 모델과 전통적인 통계적 방법을 비교하여 시스템 시계열 데이터의 관계성을 확인했습니다. 그 결과, Graph-based Network 모델이 지표 간의 복잡한 상관관계를 효과적으로 반영하여 더 높은 성능을 발휘한다는 것을 실험적으로 입증했습니다.

 

이는 데이터 간의 상호작용을 이해하고 이를 모델링에 반영하는 것이 단순한 통계적 분석보다 AI 모델의 성능을 극대화할 수 있음을 보여줍니다. 이러한 접근법은 단순히 이상탐지에 그치지 않고, 시스템의 전체적인 상태를 평가하고 운영 효율성을 높이는 데 중요한 역할을 합니다. 결국, 모델이 데이터 간의 관계성을 학습하고, 이를 통해 좋은 성능을 얻을 수 있었던 것은 데이터의 특성이 얼마나 중요한지를 다시 한번 입증합니다. AI 모델의 성공은 단순히 고급 알고리즘에만 의존하는 것이 아니라, 데이터의 특성과 관계를 깊이 이해하고 이를 효과적으로 분석하는 데 달려 있습니다.

 

통계적 방법과 데이터 분석 기반 Graph-based Network의 비교

전통적인 통계적 방법은 주로 개별 지표의 이상 여부를 평가하는 데 초점을 맞추고, 지표 간의 관계성을 충분히 반영하지 못합니다. 이러한 접근법은 오탐(False Positive)을 증가시키고, 실제로 중요한 이상 상황을 놓치는 결과를 초래할 수 있습니다. 우리의 실험에서도, 통계적 방법은 각 지표를 독립적으로 평가하기 때문에, 지표 간의 상호작용을 고려하지 못해 모델의 성능이 저하되었습니다.

 

반면,  Graph-based Network 모델을 사용한 분석에서는 시스템 시계열 데이터의 각 지표 간 관계성을 명확히 파악할 수 있었습니다.  Graph-based Network은 지표 간의 상호작용을 분석하여, 단순한 이상탐지를 넘어 시스템의 전체적인 상태를 평가할 수 있었습니다. 이러한 접근은 데이터 분석의 깊이를 더해주었고, 모델이 실제로 중요한 이상 상황을 더욱 정확하게 탐지할 수 있도록 해주었습니다.

 

아래는 각 지표별로 통계적 방법을 통해 각 시간대에 정상 범위(DBSLN band)를 설정하고, 특정 지표가 이 범위를 벗어났을 때 이상 시점으로 판단한 결과를 시각화한 도표입니다. 그러나 이러한 접근법은 정상 상태와 장애 발생 시점을 정확히 추론하지 못하며, 실제로 큰 이상이 발생하지 않았음에도 불구하고 오탐(False Positive)을 유발하는 결과를 초래하였습니다. 이러한 한계는 추론 시스템의 안정성과 신뢰성을 저해할 수 있습니다.

 

. . .(생략)

 

반면, 아래 도표는 Graph-based Network 관계성 모델을 활용하여 모든 지표 값의 변화와 지표 간 관계성을 종합적으로 고려한 결과를 시각화한 것입니다. 이 모델은 개별 지표의 이상 여부를 판단하는 대신, 전체적인 시스템 상태를 분석하여 이상 유무를 판단합니다. 정상 상태와 장애 상황 다소 극단적인 데이터를 사용하였으나, 이 모델은 명확하고 정확하게 이상을 감지해내는 능력을 보여주었습니다. 이는 관계성 기반 접근법이 복잡한 시스템 환경에서 효과적으로 작동함을 입증하는 사례라 할 수 있습니다.

 

이와 같은 접근을 채택한 이유는, 시스템 데이터가 지표 간의 관계성을 가진다는 사실을 데이터 분석을 통해 유효하게 파악했기 때문입니다. 이러한 분석 결과를 바탕으로, 관계성 모델을 선택하여 데이터를 보다 정교하게 해석할 수 있었으며, 이를 통해 모델이 시스템의 전체적인 상태를 추론하고 관계성 데이터를 효과적으로 분석할 수 있도록 하였습니다.

 

 

이상탐지 시스템에서의 활용 효과

Graph-based Network 모델과 통계적 방법을 실험적으로 비교한 결과,  Graph-based Network 모델이 시스템 시계열 데이터에서 지표 간의 관계성을 효과적으로 반영한다는 것을 확인했습니다. 이러한 관계성을 활용한  Graph-based Network 모델은 실제 시스템에 적용했을 때도 탁월한 성능을 보여주었습니다. 이를 통해, AI 모델링에서 단순한 데이터 수집과 분석만으로는 충분하지 않으며, 데이터 간의 복잡한 상호작용을 이해하고 이를 시스템에 적용하는 것이 성능 향상에 필수적임을 실험적으로 확인할 수 있었습니다.

 

결론적으로,  Graph-based Network을 활용한 시스템 시계열 데이터 분석은 관계성을 고려한 접근이 AI 모델의 성능을 높일 수 있음을 보여주었으며, 이는 시스템 운영에 있어서도 효과적인 결과를 가져왔습니다. 데이터 분석의 중요성은 단순한 이상탐지뿐만 아니라, 시스템의 전체적인 신뢰성을 높이는 데 중요한 역할을 합니다.

 

실제 시스템 이상탐지 활용화면

 

제한된 특징을 활용한 모델링의 한계

위 예시에서 보았듯이, 데이터 분석을 기반으로 지표 간의 관계성을 고려한 접근은 우수한 데이터 분석 및 적용 사례로 평가될 수 있습니다. 이는 복잡한 시스템에서 숨겨진 상호작용을 밝혀내고, AI 모델이 더 정교한 예측을 할 수 있도록 돕는 중요한 전략입니다. 그러나, 모든 지표가 서로 관계성을 가지는 것은 아닙니다. 일부 지표는 다른 지표의 변화를 반영할 수 있지만, 그렇지 않은 지표들도 존재합니다.

 

그리고 관계성이 없는 지표라 할지라도, 그 중요성을 간과할 수 없습니다. 때로는 이런 지표들이 특정 상황에서 결정적인 역할을 할 수 있기 때문입니다. 예를 들어, 하찮아 보이는 지표가 어느 날 중요한 단서로 작용할 수 있는 것처럼 말이죠. 이는 마치 바둑판 위에서 작은 돌 하나가 전체 판을 뒤흔드는 묘수처럼, 때로는 작고 눈에 띄지 않는 요소가 중요한 변곡점이 될 수 있는 상황과도 비슷합니다.

 

이와 같은 이유로, 지표 간 관계성을 무시할 수 없는 것은 물론, 관계성이 부족한 지표들에 대해서도 신중한 접근이 필요합니다. 현재 이를 보완하기 위한 다양한 연구가 지속적으로 진행되고 있으며, 앞으로의 챕터에서 이러한 연구들을 다룰 예정입니다. 

 

 

6. AI 성공을 위한 데이터 분석의 중요성

#요약

데이터 분석은 AI 모델의 성능을 결정짓는 핵심 요소입니다. AI 모델이 아무리 정교한 알고리즘을 사용하더라도, 분석된 데이터의 품질과 이해도가 낮다면 모델의 예측력은 현저히 떨어질 수밖에 없습니다. 우리가 수행한 연구에서는 시계열 데이터를 분석하고, 특히 각 지표 간의 관계성을 고려하는 것이 AI 모델의 성능에 얼마나 중요한 영향을 미치는지 확인할 수 있었습니다. 예를 들어, Graph-based Network 모델은 지표 간의 복잡한 상관관계를 효과적으로 반영하여, 전통적인 통계적 방법기반 point-wise한 방식보다 훨씬 높은 정확성을 보여주었습니다​. 이러한 결과는 데이터 간의 관계성을 이해하고 이를 모델링에 반영하는 것이 단순한 통계적 분석보다 AI 모델의 성능을 극대화할 수 있음을 보여줍니다. 이는 AI 모델이 단순히 입력 데이터를 처리하는 것을 넘어, 데이터를 심층적으로 이해하고 분석하는 능력이 성공의 열쇠임을 시사합니다.

 

#앞으로

앞으로 데이터 분석과 피처 엔지니어링은 AI 개발에서 더욱 중요한 역할을 할 것입니다. 데이터의 양이 지속적으로 증가함에 따라, 데이터를 어떻게 분석하고 그 특성을 깊이 이해하며, 이를 AI 모델이 활용할 수 있는 형태로 변환하는지가 AI 모델의 성공에 결정적인 영향을 미칠 것입니다. 복잡한 시스템에서는 데이터를 파악하는 능력과 함께, 피처 엔지니어링을 통해 유의미한 데이터를 생성하는 것이 더욱 중요해질 것입니다. AI의 발전과 함께 데이터 분석 방법론도 지속적으로 발전하고 있으며, 이러한 발전은 AI 모델의 성능 향상에 기여할 것입니다. 

 

결국, AI의 성공은 단순히 고급 알고리즘에만 의존하는 것이 아니라, 데이터를 얼마나 잘 분석하고 이해하여 통찰력을 가지고 이를 적절하게 가공 및 활용하는지에 달려 있습니다. 데이터 분석과 피처 엔지니어링은 AI의 현재와 미래를 결정짓는 필수 요소로, 앞으로도 그 중요성은 더욱 커질 것입니다.

 

 

 

 

[이미지 출처]

https://aclanthology.org/2020.emnlp-main.560.pdfhttps://www.researchhub.com/post/2007/data-centric-ai-vs-model-centric-ai-which-approach-to-go-after-in-machine-learninghttps://mostly.ai/blog/machine-learning-life-cycle-with-synthetic-data

https://mostly.ai/blog/machine-learning-life-cycle-with-synthetic-data 

https://dotdata.com/blog/feature-engineering-for-temporal-data-part-2-types-of-temporal-data/

 

 

 

 

 

글 | AI기술연구팀 나현석

 

 

댓글