본문 바로가기
엑셈 기업문화

엑셈 뉴스룸 | InterMax AI Edition 파헤치기

by EXEM 2018. 9. 5.


Deep Learning 기반 인공지능 APM 국내 최초 출시 예정

외산 성능관리 솔루션의 경우, 기존 제품에 Smart한 기능을 넣어서 근본원인분석(root-cause analysis), 영향도 분석(impact analysis), 지능형 알람(intelligent alert) 등의 기능을 제품에 포함시켜서 제공하고 있었으나, 아직 국내에서는 지능형 성능관리 제품이 출시된 적은 없었습니다.


또한, 외산 성능관리 솔루션에서 제공하는 지능형 알람도 인공지능이라는 용어를 사용하기는 하지만, 최신 인공지능 기술인 Deep Learning 기술을 기반으로 하지 않고 간단한 통계 기반의 학습을 사용하기 때문에, 인공지능 성능관리 기능이 스펙 상으로 존재하지만 성능 문제를 정확하게 제시하기에는 어려움이 있었습니다.


엑셈에서 국내 최초로 Deep Learning 기반 인공지능을 탑재한 애플리케이션 성능관리 솔루션인 InterMax AI Edition을 출시할 예정입니다.


이젠 애플리케이션 성능관리에도 인공지능이 필요한 시대

시스템 운영자, 애플리케이션 운영자는 장애 없이 시스템을 안정적으로 운영하기 위해 철저한 모니터링과 일상적인 점검을 수행하고 있습니다.  


* 거래가 갑자기 많아 졌는가? 

* 거래가 갑자기 줄어 들었는가?

* 트랜잭션 수행시간이 정상인가?

* CPU, 메모리, 네트워크, 디스크사용량 등 시스템 리소스가 과부하가 걸리지 않았는가? 

* 예외 거래가 발생하지는 않았는가?

* 평소와 다르게 시스템에 특이 사항은 없는가?


해당 시스템을 처음 관리하기 시작한 운영자라면 시스템의 정상적인 부하량과 리소스 사용량을 추정하기 어렵지만, 노련한 운영자는 시스템의 과거의 부하 패턴과 운영 상황을 인지하고 있기 때문에 평소와 다른 패턴이 보이면 이상 현상인 것을 즉시 감지하게 되고, 신속히 대처하게 됩니다.


그러나 점검해야 할 항목은 많고, 또, 점검해야 할 시스템도 많으며, 이러한 점검이 매시간, 매일, 24 x 365로 점검을 해야 하는 상황에 놓여 있습니다. 급히 처리해야 할 다른 바쁜 업무가 있다면 부주의로 점검을 놓치거나 모니터링을 못하는 경우도 자주 발생하게 됩니다. 따라서, 숙련된 운영 담당자가 하듯이 시스템의 이상패턴을 미리 감지하고, 알려주는 인공지능 성능관리 솔루션이 필요합니다. 


InterMax AI Edition은 시스템 운영자, 어플리케이션 운영자, 데이터베이스 운영자가 꿈꾸던 지능형(Intelligent) 성능관리 솔루션을 통해 시스템의 안정성을 보다 높일 수 있습니다.


- 이상패턴을 감지하고, 

- 장애 및 부하상황을 예측하여 제시할 뿐 아니라, 

- Deep Learning과 Machine Learning으로 무장한 InterMax 인공지능이 성능이슈 발생 시에 인과관계 분석을 통해 성능이슈의 발생 원인인 Root Cause 원인분석을 제시하여 


노련한 운영자가 과거 패턴을 학습하여 이상을 탐지하고, 전문 성능 컨설턴트가 성능 진단과 원인 분석을 수행하는 것과 같은 기능을 제공합니다.

그러면, InterMax AI Edtion이 제공하는 주요 기능과 활용 방안, 차별점, 구축사례를 차례로 소개해드리겠습니다.


InterMax AI Edition 주요 기능 및 활용 방안 

 

비정상 탐지(Anomaly Detection)

기존 알람(Alert) 발생 방식은 CPU 80%이상, JVM Free Memory 10%이하 같은 특정 임계치(Threshold) 기반으로 설정을 해야 했습니다. 

결산 같은 특정일의 부하가 전체적으로 커지거나 월요일에만 부하가 몰리는 등 요일 별 부하 패턴이 다른 경우에는 적절한 임계치 설정을 하기 어렵습니다. 부하 시점 기준으로 임계치를 설정하게 되면 평소가 부하가 없는 시점에 이상 현상을 감지할 수 없게 되며, 평시 기준으로 임계치를 설정하게 되면 부하 시점에는 지속적인 알람이 발생하여 알람에 대한 신뢰도를 떨어트리게 됩니다.

운영자가 원하는 알람은 불필요한 알람을 발생시키지 않으면서, 이상 현상이 발생할 때 놓치지 않고 알람을 발생하여 시스템의 이슈 상황을 확실하게 감지하기를 원합니다. 


InterMax AI Edition에 포함된 비정상 탐지는 과거 패턴을 학습하여 신뢰구간(Dynamic Baseline)을 설정하고, 해당 신뢰구간 범위를 벗어나는 이상 패턴이 감지되면 알람이 발생되도록 하여, 불필요한 알람 발생을 줄이고, 이상현상 발생시 정확한 알람이 발송되도록 구현하였습니다.

<Dynamic Baseline 이용한 비정상 탐지>


비정상 탐지 기능을 이용해서 다음과 같은 이상패턴 탐지를 지원합니다.

* 갑작스런 TPS의 증가, 또는 감소 또는 거래 응답시간의 갑작스런 증가 같은 트랜잭션에 대한 이상 부하 탐지

* CPU, JVM Heap Memory, 커넥션풀 등 시스템 리소스의 갑작스런 증가 또는 감소로 인한 이상 부하 탐지

<비정상 탐지: Anomaly Detection>


비정상 트랜잭션 분석(Anomaly Transaction Analysis)

트랜잭션의 예외상황이 발생하거나 병목현상이 발생하여 분석이 필요한 경우, 해당 트랜잭션의 Call Tree 정보를 통해 상세 원인 분석을 수행하게 되는데, 해당 Call Tree 정보가 문제가 있는지에 대해서는 해당 프로그램을 개발한 개발자이거나, 전문 성능진단 컨설턴트가 아니면 쉽게 문제를 찾아내기가 어려웠습니다.

InterMax AI Edition이 제공하는 ‘이상 트랜잭션 분석’ 기능은 어떤 트랜잭션이 평소와 다른 이상 패턴을 보이는지를 분석하여 이상 트랜잭션을 자동으로 추출하고, 해당 트랜잭션의 Call Tree를 정상적인 패턴의 Call Tree와 비교하여 이상 정도를 함께 표시하기 때문에 전문 성능진단 컨설턴트가 아니라도 트랜잭션의 이상 처리 내역을 즉각 인지하여 원인 분석이 가능합니다.

<비정상 트랜잭션 분석: Anomaly Transacton Analysis>


부하 예측(Workload Forecast)

시스템의 안정적인 운영을 위해서는 현재 데이터가 과거 부하 패턴과 다르다는 것을 감지하는 것뿐만 아니라, 미래의 어느 시점에 시스템에 장애나 이슈가 발생될 가능성이 있는 경우에 사전에 이를 감지하여 알려주는 것이 필요합니다. 즉, 현재 이상현상 탐지뿐만이 아니라 1분 이후, 15분 이후, 30분 이후의 예상되는 부하(지표)가 장애를 유발할 가능성이 있다면, 사전에 정보를 제공하여 운영자가 이에 대한 사전 대응을 통해 시스템을 장애 없이 안정적으로 운영할 수 있도록 할 수 있습니다.


InterMax AI Edition의 ‘부하 예측’ 기능은 과거 데이터를 Deep Learning방식으로 학습하고, 최근 연관 데이터 정보를 활용하여 최근 30분 이내의 부하(상태) 예측 정보를 제공합니다.


제공하는 예측 정보는 다음과 같습니다.


* InterMax에서 모니터링하는 개별 WAS/TP 지표에 대한 부하 예측

* InterMax에서 모니터링하는 개별 DB(Oracle) 지표에 대한 부하 예측

* InterMax에서 모니터링하는 개별 트랜잭션(TXN)에 대한 부하 예측

* InterMax에서 모니터링하는 비즈니스 업무(서비스)에 대한 부하 예측


<부하 예측: Workload Forecast>


예측을 통한 사전 이상 징후 탐지 기능(Anomaly Forecast)

또한, 미래의 사전 예측된 부하 예측 정보의 범위가 과거 학습된 부하 패턴에 따른 신뢰구간을 벗어날 가능성이 있는 경우, 30분전에 이상 징후를 탐지하여 사전 이상 징후 탐지 알람을 제공합니다.

<Deep Learning을 이용한 비정상 사전 예측>


부하 패턴 클러스터링(Workload Pattern Clustering)

시간에 따른 부하의 변화는 부하의 많고 적음뿐만 아니라, 부하의 성격도 온라인 거래가 많이 발생하는 시간이 있고, 배치 거래가 많이 발생하는 시간이 있는 등 부하의 패턴이 변화되는 경우가 있습니다. 

InterMax AI Edition의 ‘부하 패턴 클러스터링’ 기능은 발생되는 부하 패턴을 자동으로 분류하여 어느 때에 어떤 부하 패턴이 발생하였는지 직관적인 부하 패턴 정보를 제공하여 장애(이슈) 발생 시점의 부하 패턴에 대한 분석 정보를 제공합니다.


<부하패턴클러스터링: Workload Pattern Clustering>


기존과의 차별점?

End to End 애플리케이션 성능관리 솔루션 InterMax는 많은 분석 정보를 제공하는 것에서 더 나아가서 인공지능을 두뇌를 장착하게 되면서 ‘비정상 탐지’, ‘부하 예측’, ‘부하패턴 분석’을 통해 신속하게 해당 문제점을 족집게처럼 집어내는 새로운 성능관리 기능을 제공합니다. 


이는 지금까지의 통계적인 분석 방법이나 룰기반의 분석 대응과는 차원이 다른 인공지능(AI)의 Deep Learning이나 Machine Learning 기술을 통한 좀 더 심층적이고 고도화된 분석 방법으로 기존 대비 정확도를 획기적으로 높인 기술입니다.



적용 사례

[L사]

L사는 InterMax를 통해 전체 시스템을 모니터링하고 있으며, 성능 이슈 발생 시 InterMax를 통해 알람정보를 통해 시스템을 운영하고 있으며, OOM 등 장애 발생 시 원인 분석으로 InterMax를 효과적으로 활용하고 있습니다.


기존 InterMax 기능 중에 임계치에 의한 알람 설정 시에 임계치 보다 지표가 높게 올라가는 경우, 지속적으로 SMS를 수신하는 등 운영자 입장에서는 필요한 시점에 적시에 1번만 알람 정보를 받고자 InterMax AI Edition을 구축하게 되었으며, L사에 적용된 AI 기능은 부하예측, 비정상탐지, 비정상 트랜잭션 분석 및 Intelligent Alert 기능을 적용하였습니다.


AI기반 비정상탐지 기능을 통해서 정확한 알람을 수신하게 되어, 급작스런 이슈 발생 시 이상상황을 감지하여 정확한 상황판단을 제공받고 있으며, 운영의 안정성을 높였다고 평가하고 있습니다. 


또한, 비정상 트랜잭션 분석 시 성능진단 컨설턴트의 도움 없이 이상 트랜잭션을 추출하고, Call Tree 분석이 용이해 짐에 따라 운영관리 역량을 향상하였으며, 장애 발생 시 Root Cause 정보를 자동 분석하여 원인과 해결점을 수립하게 되었습니다.


그리고, 부하 예측 기능을 통해 사전 예측 정보를 활용하여 OOM 등 장애에 대한 사전 예측 정보를 제공 받아서 장애를 미연에 방지하게 되었습니다.


[S사]

10월부터 2차로 금융권에도 InterMax AI 구축/적용 작업이 진행될 예정이라고 합니다.

 





기고 | APM본부 오명훈

편집 | 사업기획팀 박예영




댓글