태터데스크 관리자

도움말
닫기
적용하기   첫페이지 만들기

태터데스크 메시지

저장하였습니다.

엑셈 뉴스룸 | EXEM AIOps

엑셈 뉴스룸 2019. 4. 10. 14:53



딥러닝 기반 AIOps가 국.내.최.초로 출시되었습니다!

기존 엑셈의 주 고객이었던 금융업 뿐만 아니라, 제조업 등 다양한 분야까지 확대 적용이 가능한!

국내 최초 AIOps 솔루션 EXEM AIOps를 오늘 꼼꼼히 살펴보겠습니다 :)

 

 AIOps란?

AI기술을 IT 운영(Operation)에 접목한 것으로, “IT운영을 위한 인공지능(Artificial Intelligence for IT Operations)”을 뜻합니다. (Algorithmic IT Operations 라고도 합니다.) IT운영에 AI를 도입함으로써 그 운영을 좀 더 지능화, 효율화 하는 것이죠.

※ AIOps에 대한 내용은, 여기를 눌러 한번 읽어보고 오시면 좋습니다.

 

IT 인프라 운영자는 장애 없이 시스템을 안정적으로 운영하기 위해 365일, 24시간 철저한 모니터링과 점검을 수행하고 있습니다.

그러나 점검해야 할 시스템은 많고, 기타 업무로 인해 점검 시기를 놓치거나 모니터링을 하지 못하는 경우도 종종 발생합니다.

아무래도 사람이 하는 일이다 보니, 매일 대기모드로 있어야 하는 운영자들은 정말 피곤하겠지요.

그래서 숙련된 운영자처럼 시스템의 이상패턴을 미리 감지하고, 알려주는 AIOps 솔루션이 꼭 필요합니다.

 
 

 EXEM AIOps  - IT 자원에 대하여 최적화된 똑똑한 IT 서비스 운영관리 솔루션

<EXEM AIOps, Real Time Monitoring 대시보드>


EXEM AIOps는 기업의 다양한 IT 인프라와 애플리케이션 데이터를 실시간으로 수집하여

부하 특성과 패턴을 학습하고, 상태를 예측하여 장애를 조기에 발견합니다.

또한 이상징후와 장애발생 시 신속하게 조치할 수 있도록 하여 IT 운영자의 선제적 대응을 지원합니다.

 


그리고 지금까지의 통계 분석 방법이나 룰 기반의 분석 대응이 아닌 인공지능(AI)을 활용하며,

실시간 모니터링 대상 데이터의 성격과 분석 목적에 맞는 학습 모델을 선택 적합니다.

 

 

딥러닝/머신러닝을 이용하여 데이터로부터 부하의 인과관계 및 트렌드를 학습하여 미래의 부하 수치를 추정합니다.

Moving Average, Exponential Smoothing 방식으로 각 지표에 대한 베이스라인을 산출하여 이상 탐지 및 예측 기준으로 사용합니다.

K-Means Clustering 알고리즘 방식을 통해 이상 패턴을 보이는 트랜잭션을 감지합니다.

Causality Analysis 기법으로서 서로 다른 데이터 간의 상관관계를 분석하고 특정 문제에 대해 인과관계가 높은 요인을 도출합니다.

 

또한 EXEM AIOps는 진화된 모니터링과 관리 체계를 지원하여 IT운영 업무의 안정성 향상에 기여합니다.

 

 

특히 장애 발생 후 수분 내에 근본 원인을 도출함으로써 똑똑한 IT 운영관리가 가능해집니다.

 

 

구축효과 & 주요기능

EXEM AIOps를 사용하면 AI 기반 지능형 모니터링이 가능하고, 미래 상황을 미리 예측함으로써 선제적으로 장애 대응이 가능합니다.

결국 IT 인프라 관리/운영의 부담을 최소화 하고, 시간과 비용이 절감되므로 IT 운영의 효율성이 향상됩니다.

 

 

이제 본격적으로 EXEM AIOps의 주요기능에 대하여 알아볼까요?

#실시간 기능

1. 부하 예측(Load Forecast) : 과거의 수집 데이터를 인공지능이 학습하여 래의 상황을 예측


과거 3개월간 System Metric 데이터로 인공지능 학습

지난 1시간 동안의 System Metric 데이터로 앞으로 1분, 30분, 1시간 뒤의 부하량 예측

이미 알고 있는 부하 패턴 또는 Dynamic Baseline을 통해서 그려진 부하 패턴과 미래의 부하 예측치가 유사하게 흘러가는지 확인

부하의 이상 징후가 어느정도 영향도를 가질지 예측이 가능하며, 이를 바탕으로 사전 대응 여부 판단

AI가 지속적으로 부하를 예측하고 이상 징후를 감시하므로 모니터링에 대한 사용자의 개입을 최소화

 
2. 장애 예측(Failure Forecast) : 수집된 데이터의 트랜드를 예측하여 미래 특정 시점에 장애가 발생할 지를 미리 알려줌

과거 데이터와 추이를 학습하여 미래 값을 예측하고 임계치에 따라 필요한 액션(알람 등) 수행

• 실 데이터를 학습하여 적용하므로 기존 머신러닝 방식 대비 예측 정확도 향상 예) Tablespace full, Disk full, CPU 과사용 등


3. 이상 탐지(Anomaly Detection) : 과거 데이터를 기반으로 신뢰 궤적을 그려 관측치가 그 범위를 벗어나는 경우 이상으로 간주

익숙하지 않은 이상 그래프 파형 감지 시

시스템이 정상적으로 운영되는 경우 시스템 주요 지표 값이 급격하게 변하는 경우는 거의 없으나,
  장애 상황에서는 특정 지표의 값이 갑자기 증
가하거나 갑자기 떨어지는 등 급격하게 변하는 경우가 빈번

 DB time, Active Session Count 등의 시스템의 주요 지표에 대한 급작스런 증가와 감소를 탐지하여 실시간으로 시스템 관리자에게
    이상 징후를 알려줌으로써 장애에 대한 빠른 대응 가능

 

#장애/부하 분석

1. 부하 패턴 분석(Load Pattern Clustering) : 부하 패턴을 몇개 유형으로 범주화하여 학습, 상황별로 임계값을 다르게 설정 (잘못된 알람 최소)

시스템이 매일 겪고있는 부하 패턴에 대해 직관적으로 시각화 -> 관리/운영의 편의성 제공

부하에 대한 군집(Clustering)화를 통하여 부하 패턴 분석

부하 패턴만 보더라도 어떤 상황인지 쉽게 인지 가능

 

2. 인과 관계 분석(Causality Analysis) : 이상 발생 후, 인공지능에서 해당 문제에 대한 연관 지표 학습을 통하여 증상/징후를 찾아줌

반복적으로 발생하는 패턴에 대한 인공지능 학습

이상탐지/알람 발생 시 연관성 있는 지표 자동 추출/분석

특정 지표의 문제가 다른 지표와 관련이 있는지 확인

▶ 문제에 대한 증상/징후 확인 후 관리자의 신속한 대응 가능

 

3. 근본 원인 분석(Root-Cause Analysis) : 장애 발생 시, 인공지능 Rule Engine에서 장애의 근본 원인을 찾아줌

 사전에 분석 전문가가 장애의 원인에 대해 분석하는 방법을 Rule로 시스템에 등록
 지연 구간 상세 분석 및 개별 시스템과의 연관 분석을 통한 근본 원인 분석 기능
  - 지연구간 분석: E2E Call-tree 분석을 통한 지연 유발 시스템 분석
  - 연관 분석: 지연 구간에 따른 개별 시스템의 지표 분석
  - 근본 원인 분석: 문제 시스템의 상세 원인 분석
 
 
#지능형 알람 설정(Smart Alert)
과거의 수집 데이터 학습을 통한 Automatic Alert Threshold 설정

 역동적인 부하에 맞게 적절한 임계치가 자동으로 설정되어 적절한 알람이 발생되는 기능(=Smart alert)

 기본 baseline만 설정하면 그 범위 이상의 경우 알람 발생

실시간 WAS, DB, 트랜잭션, 업무 별 AI 기반 사전 알람 발생 시 연계 분석 기능

 “이상 트랜잭션 탐지” 상세 분석 화면 연계,  트랜잭션 응답 시간 지연 시 해당 TID의 상세 분석 뷰로 연계,
    그 외 기본 알람은 “알람 발생 내역”으로 연계

 

적용사례

지난 해부터 엑셈은 여러 기업에서 PoC를 진행하였는데요, 몇가지 사례를 보여드리겠습니다.

1. A

기존 InterMax를 사용하던 기업이었는데요. 이상탐지 기능을 통해 정확한 알람을 수신하게 되어 운영의 안정성을 높였다는 평가를 받았고, 

장애발생 시 근본 원인 분석을 통해 해결책을 수립하게 되었습니다. 또한 부하 예측 기능을 통해 장애를 미연에 방지하게 되었습니다.

 

 

<A사 적용 화면>

2. B사

운영자에 의존하여 IT 자산을 모니터링하고 장애 발생 시 문제의 원인을 분석했던 대응 절차를 자동화하여, 장애를 인지하는 시점을 앞당기고 

장애 원인 분석에 걸리는 시간을 단축하여 한 단계 진화된 IT 운영 관리 체계 구축이 가능하다는 것을 입증하였습니다.

 

 


<적용 화면 – 근본 원인 분석>

 

 

 

국내최초 AIOps 솔루션 EXEM AIOps가 금융권, 제조업 등 다양한 업계에서 발휘할 활약들을 기대하면서!

많은 관심과 응원 부탁드립니다 :)

 

 

EXEM AIOps에 대하여 궁금하신가요? 여기를 눌러 문의해보세요!







기획 및 글 | 사업기획팀 박예영


월간기술동향 | Oops! 아니고 AIOps!



최근 급 부상하고 있는 AIOps에 대해 알고 계신가요?

가트너는 지난 2017년에 "2019년까지 세계 기업의 25%가 2~3가지 중요 IT업무를 지원하는 AIOps 플랫폼을 구현할 것"이라고 예측하였는데요, 

이번 시간에는 AIOps에 대하여 살펴보겠습니다.



 AIOps란? 

AIOps <출처: Gartner, 2017>

AIOps는 AI 기술을 IT 운영(Operation)에 접목한 것으로, “IT운영을 위한 인공지능(Artificial Intelligence for IT Operations)”을 뜻합니다. 

(또는 Algorithmic IT Operations 라고도 합니다.) 

AIOps는 빅데이터 분석과 머신러닝, 그리고 기타 AI 기술을 활용해 IT인프라의 문제를 파악하고 해결책을 제시하는 과정을 자동화 합니다. 

사람이 직접 개입하는 대신 AI를 통해 실수를 줄이고, 보다 더 효율적으로 IT 인프라를 운영하는 것이죠. 

날로 복잡해지는 여러 자산을 관리함에 있어서 인공지능을 통해 운영자의 시간과 노력을 줄여줄 수 있습니다. 




 AIOps의 구성요소 

<출처: DZone>


AIOps를 이루는 두 가지 핵심 요소는 빅데이터와 머신러닝인데요

IT운영 과정에서 생산되는 분산된 각종 데이터들을 분석하여 머신러닝을 통해 지속적으로 적용함으로써 IT운영의 자동화를 이루게 됩니다. 


The technologies that make up an AIOps platform <출처: bmc>


조금 더 자세히 말하면, 우선 검증된 데이터가 필수적입니다. 

실제 기업 환경에 적용되어 신뢰할 수 있는 데이터가 양적으로도 질적으로도 충분해야 합니다. 

그리고 수집한 데이터들을 분석한 후에 인공지능이 이 데이터들을 효과적으로 학습해야 하죠. 

이 역시 꽤 긴 시간이 필요한 과정입니다. 

이렇게 구현된 인공지능은 실제 IT 서비스로 구체화되어야 비로소 완성되는 것입니다.




 AIOps의 활용 


AIOps Platform Enabling Continuous Insights Across IT Operations Management <출처: Gartner, 2018>


가트너는 위 그림과 같이 AIOps가 IT운영 전반에 걸쳐 지속적인 통찰을 가능하게 한다고 설명했습니다. 

AIOps에서 Logs, Text, Wire, Metrics, API등의 데이터 유형들을 처리하여 다음과 같이 활용할 수 있습니다.


▶ Causal Analysis (인과관계 분석)

▶ Anomaly detection (이상 탐지)

▶ Performance analysis (성과 분석)

▶ Prediction(예측)

▶ Correlation and contextualization (상관관계와 맥락화)

▶ Intelligent Remediation(지능적 개선)




 AIOps의 도입 효과 



그렇다면 AIOps 도입 후 얻을 수 있는 효과는 무엇일까요?


1. 업무의 효율성 증가 

AIOps는 일상적이고 반복적인 업무를 자동화하여 업무의 효율성을 증가시킵니다. 

이 덕분에 운영자는 반복적인 업무 수행 대신 좀 더 운영을 효율화 할 수 있는 업무에 집중할 수 있게 됩니다.

2. 운영 비용 감소 & 안정적이고 예측 가능한 인프라 제공

AIOps는 분석과 예측을 통해 최적화된 자원을 사용함으로써 운영 비용을 최소화할 수 있습니다. 

또한 보다 더 안정적이고 예측 가능한 운영이 가능해집니다.

3. 기타 부서와의 협업 최대화

AIOps는 각 팀에게 관련 데이터를 제공합니다. 

그래서 IT팀이 비즈니스 부서와 데이터 사일로 없이 원활한 의사소통이 가능해지고, 협업을 효율적으로 할 수 있게 되죠.

데이터를 기반으로 한 의사결정이 가능함으로써 기업은 새로운 트렌드에 민감하게 반응할 수 있게 됩니다. 


 ※ 데이터 사일로(silo): 데이터가 전체적으로 통합되지 않고 개별 부서나 사업 부문별로 고립적으로 활용되는 것




본문 외 reference

Gartner, Market Guide for AIOps Platforms

IDG, IT 인프라 운영의 새로운 기준

TechTarget, AIOps






기획 및 글 | 사업기획팀 박예영