본문 바로가기
엑셈 기업문화

엑셈 뉴스룸 | EXEM AIOps

by EXEM 2019. 4. 10.



딥러닝 기반 AIOps가 국.내.최.초로 출시되었습니다!

기존 엑셈의 주 고객이었던 금융업 뿐만 아니라, 제조업 등 다양한 분야까지 확대 적용이 가능한!

국내 최초 AIOps 솔루션 EXEM AIOps를 오늘 꼼꼼히 살펴보겠습니다 :)

 

 AIOps란?

AI기술을 IT 운영(Operation)에 접목한 것으로, “IT운영을 위한 인공지능(Artificial Intelligence for IT Operations)”을 뜻합니다. (Algorithmic IT Operations 라고도 합니다.) IT운영에 AI를 도입함으로써 그 운영을 좀 더 지능화, 효율화 하는 것이죠.

※ AIOps에 대한 내용은, 여기를 눌러 한번 읽어보고 오시면 좋습니다.

 

IT 인프라 운영자는 장애 없이 시스템을 안정적으로 운영하기 위해 365일, 24시간 철저한 모니터링과 점검을 수행하고 있습니다.

그러나 점검해야 할 시스템은 많고, 기타 업무로 인해 점검 시기를 놓치거나 모니터링을 하지 못하는 경우도 종종 발생합니다.

아무래도 사람이 하는 일이다 보니, 매일 대기모드로 있어야 하는 운영자들은 정말 피곤하겠지요.

그래서 숙련된 운영자처럼 시스템의 이상패턴을 미리 감지하고, 알려주는 AIOps 솔루션이 꼭 필요합니다.

 
 

 EXEM AIOps  - IT 자원에 대하여 최적화된 똑똑한 IT 서비스 운영관리 솔루션

<EXEM AIOps, Real Time Monitoring 대시보드>


EXEM AIOps는 기업의 다양한 IT 인프라와 애플리케이션 데이터를 실시간으로 수집하여

부하 특성과 패턴을 학습하고, 상태를 예측하여 장애를 조기에 발견합니다.

또한 이상징후와 장애발생 시 신속하게 조치할 수 있도록 하여 IT 운영자의 선제적 대응을 지원합니다.

 


그리고 지금까지의 통계 분석 방법이나 룰 기반의 분석 대응이 아닌 인공지능(AI)을 활용하며,

실시간 모니터링 대상 데이터의 성격과 분석 목적에 맞는 학습 모델을 선택 적합니다.

 

 

딥러닝/머신러닝을 이용하여 데이터로부터 부하의 인과관계 및 트렌드를 학습하여 미래의 부하 수치를 추정합니다.

Moving Average, Exponential Smoothing 방식으로 각 지표에 대한 베이스라인을 산출하여 이상 탐지 및 예측 기준으로 사용합니다.

K-Means Clustering 알고리즘 방식을 통해 이상 패턴을 보이는 트랜잭션을 감지합니다.

Causality Analysis 기법으로서 서로 다른 데이터 간의 상관관계를 분석하고 특정 문제에 대해 인과관계가 높은 요인을 도출합니다.

 

또한 EXEM AIOps는 진화된 모니터링과 관리 체계를 지원하여 IT운영 업무의 안정성 향상에 기여합니다.

 

 

특히 장애 발생 후 수분 내에 근본 원인을 도출함으로써 똑똑한 IT 운영관리가 가능해집니다.

 

 

구축효과 & 주요기능

EXEM AIOps를 사용하면 AI 기반 지능형 모니터링이 가능하고, 미래 상황을 미리 예측함으로써 선제적으로 장애 대응이 가능합니다.

결국 IT 인프라 관리/운영의 부담을 최소화 하고, 시간과 비용이 절감되므로 IT 운영의 효율성이 향상됩니다.

 

 

이제 본격적으로 EXEM AIOps의 주요기능에 대하여 알아볼까요?

#실시간 기능

1. 부하 예측(Load Forecast) : 과거의 수집 데이터를 인공지능이 학습하여 래의 상황을 예측


과거 3개월간 System Metric 데이터로 인공지능 학습

지난 1시간 동안의 System Metric 데이터로 앞으로 1분, 30분, 1시간 뒤의 부하량 예측

이미 알고 있는 부하 패턴 또는 Dynamic Baseline을 통해서 그려진 부하 패턴과 미래의 부하 예측치가 유사하게 흘러가는지 확인

부하의 이상 징후가 어느정도 영향도를 가질지 예측이 가능하며, 이를 바탕으로 사전 대응 여부 판단

AI가 지속적으로 부하를 예측하고 이상 징후를 감시하므로 모니터링에 대한 사용자의 개입을 최소화

 
2. 장애 예측(Failure Forecast) : 수집된 데이터의 트랜드를 예측하여 미래 특정 시점에 장애가 발생할 지를 미리 알려줌

과거 데이터와 추이를 학습하여 미래 값을 예측하고 임계치에 따라 필요한 액션(알람 등) 수행

• 실 데이터를 학습하여 적용하므로 기존 머신러닝 방식 대비 예측 정확도 향상 예) Tablespace full, Disk full, CPU 과사용 등


3. 이상 탐지(Anomaly Detection) : 과거 데이터를 기반으로 신뢰 궤적을 그려 관측치가 그 범위를 벗어나는 경우 이상으로 간주

익숙하지 않은 이상 그래프 파형 감지 시

시스템이 정상적으로 운영되는 경우 시스템 주요 지표 값이 급격하게 변하는 경우는 거의 없으나,
  장애 상황에서는 특정 지표의 값이 갑자기 증
가하거나 갑자기 떨어지는 등 급격하게 변하는 경우가 빈번

 DB time, Active Session Count 등의 시스템의 주요 지표에 대한 급작스런 증가와 감소를 탐지하여 실시간으로 시스템 관리자에게
    이상 징후를 알려줌으로써 장애에 대한 빠른 대응 가능

 

#장애/부하 분석

1. 부하 패턴 분석(Load Pattern Clustering) : 부하 패턴을 몇개 유형으로 범주화하여 학습, 상황별로 임계값을 다르게 설정 (잘못된 알람 최소)

시스템이 매일 겪고있는 부하 패턴에 대해 직관적으로 시각화 -> 관리/운영의 편의성 제공

부하에 대한 군집(Clustering)화를 통하여 부하 패턴 분석

부하 패턴만 보더라도 어떤 상황인지 쉽게 인지 가능

 

2. 인과 관계 분석(Causality Analysis) : 이상 발생 후, 인공지능에서 해당 문제에 대한 연관 지표 학습을 통하여 증상/징후를 찾아줌

반복적으로 발생하는 패턴에 대한 인공지능 학습

이상탐지/알람 발생 시 연관성 있는 지표 자동 추출/분석

특정 지표의 문제가 다른 지표와 관련이 있는지 확인

▶ 문제에 대한 증상/징후 확인 후 관리자의 신속한 대응 가능

 

3. 근본 원인 분석(Root-Cause Analysis) : 장애 발생 시, 인공지능 Rule Engine에서 장애의 근본 원인을 찾아줌

 사전에 분석 전문가가 장애의 원인에 대해 분석하는 방법을 Rule로 시스템에 등록
 지연 구간 상세 분석 및 개별 시스템과의 연관 분석을 통한 근본 원인 분석 기능
  - 지연구간 분석: E2E Call-tree 분석을 통한 지연 유발 시스템 분석
  - 연관 분석: 지연 구간에 따른 개별 시스템의 지표 분석
  - 근본 원인 분석: 문제 시스템의 상세 원인 분석
 
 
#지능형 알람 설정(Smart Alert)
과거의 수집 데이터 학습을 통한 Automatic Alert Threshold 설정

 역동적인 부하에 맞게 적절한 임계치가 자동으로 설정되어 적절한 알람이 발생되는 기능(=Smart alert)

 기본 baseline만 설정하면 그 범위 이상의 경우 알람 발생

실시간 WAS, DB, 트랜잭션, 업무 별 AI 기반 사전 알람 발생 시 연계 분석 기능

 “이상 트랜잭션 탐지” 상세 분석 화면 연계,  트랜잭션 응답 시간 지연 시 해당 TID의 상세 분석 뷰로 연계,
    그 외 기본 알람은 “알람 발생 내역”으로 연계

 

적용사례

지난 해부터 엑셈은 여러 기업에서 PoC를 진행하였는데요, 몇가지 사례를 보여드리겠습니다.

1. A

기존 InterMax를 사용하던 기업이었는데요. 이상탐지 기능을 통해 정확한 알람을 수신하게 되어 운영의 안정성을 높였다는 평가를 받았고, 

장애발생 시 근본 원인 분석을 통해 해결책을 수립하게 되었습니다. 또한 부하 예측 기능을 통해 장애를 미연에 방지하게 되었습니다.

 

 

<A사 적용 화면>

2. B사

운영자에 의존하여 IT 자산을 모니터링하고 장애 발생 시 문제의 원인을 분석했던 대응 절차를 자동화하여, 장애를 인지하는 시점을 앞당기고 

장애 원인 분석에 걸리는 시간을 단축하여 한 단계 진화된 IT 운영 관리 체계 구축이 가능하다는 것을 입증하였습니다.

 

 


<적용 화면 – 근본 원인 분석>

 

 

 

국내최초 AIOps 솔루션 EXEM AIOps가 금융권, 제조업 등 다양한 업계에서 발휘할 활약들을 기대하면서!

많은 관심과 응원 부탁드립니다 :)

 

 

EXEM AIOps에 대하여 궁금하신가요? 여기를 눌러 문의해보세요!







기획 및 글 | 사업기획팀 박예영


댓글