본문 바로가기
엑셈 경쟁력/엑.기.스

엑기스 | XAIOps 톺아보기 2 - 엑셈의 기술력이 집대성된 솔루션

by EXEM 2020. 8. 10.




지난 ‘XAIOps 톺아보기 1’에 이어, 이번 시간에는 본격적으로 XAIOps(싸이옵스)에 대해서 알아보겠습니다. 




XAIOps


AI기반 IT 운영 지능화 솔루션 XAIOps(싸이옵스)는 시스템 부하와 장애의 빠르고 정확한 예측, 부하의 패턴 분석과 비정상 탐지를 통한 종합적인 근본 원인 분석, 지능적 미래 장애 예측을 통한 선제적 대응, 예측된 비정상 및 장애에 대한 지능적인 스마트 알람 등으로 신속하고 능동적인 문제 해결을 가능하게 한다. 그 뿐만 아니라 XAIOps는 실시간 매트릭 데이터를 기반으로 분석하기 때문에 ‘장애 발생 후 수 분 이내 근본 원인 도출’이 가능한 강력한 성능을 보유하고 있다. 


<XAIOps(싸이옵스)의 실시간 모니터링 뷰>


운영에 문제가 되는 장애들을 해결하는 데 통상 짧으면 수십 분, 치명적인 경우 2~3시간이 소요되는 현실에 비추어 볼 때, XAIOps(싸이옵스)는 실무자들의 부담을 크게 덜어줄 것으로 예상된다. 또한 해외 시장 조사 업체에 따르면 글로벌 AIOps 시장은 연간 27% 이상 고속 성장이 예상되며, 이에 따라 국내 AIOps 시장 수요 또한 제1금융권을 중심으로 급속히 성장하고 있어 XAIOps의 성장세가 기대된다. 특히 코로나19 이후 엄격한 비대면(untact) 트렌드와 재택근무 등 기업 운영 방식의 변화와 더불어 하루가 다르게 거대하고 복잡해지는 IT 비즈니스 환경에서 IT 운영에서의 AI 자동화 요구가 전례 없는 속도로 증가하고 있다. 




딥러닝 기반 "부하 예측(Load Forecast)"

 

<XAIOps(싸이옵스)의 부하 예측 기술>


주요 지표들에 대한 미래 부하를 사전에 예측하는 기술로, 딥러닝(Deep Neural Network) 기술 중에 하나인 DNN Regression 모델을 사용하여 여러 input 지표들에 대해 다차원 hidden layer간의 연관 분석을 통해 결과 지표를 도출하는 예측 모델과 별도의 잔차(residual) 예측 모델을 추가(ICP: Inductive Conformal Production)하여 신뢰도(default:95%) 기준의 범위로 최종 예측 결과를 도출하는 방식을 도입하였다.


XAIOps는 이러한 딥러닝 모델을 최적화하여 다양한 영역의 WAS, DB, Systerm 등의 지표들에 대한 30분이내 단기 부하 예측을 통해 장애 발생 가능성을 사전에 예측/제시하여 선제적인 장애 대응을 할 수 있는 중요한 기준을 제시할 수 있게 되었다.

이는 일반적인 머신러닝 기술을 적용한 경쟁 솔루션 대비 약 15%이상의 예측 정확도를 보장할 만큼 고도화·정교화 되었다고 본다.




지표별 최적의 “이상 탐지(Anomaly Detection)” 모델 제시


IT운영에서 발생되는 시계열 성능 데이터는 데이터 발생 유형과 성격에 따라 특정한 모델 하나로 학습할 경우 이상 탐지 여부의 정확도에서 신뢰도가 떨어진다. 따라서 XAIOps는 각 지표별로 최적의 성능을 제시할 수 있는 최적의 3가지 알고리즘 모델을 제시하여 최적의 이상 탐지를 찾아낼 수 있도록 고도화하였다. 


1) Baseline 기준 이상 탐지 모델


2) Autoencoder 모델


3) Robost Autoencoder 모델



이상 트랜잭션 탐지


<이상 트랜잭션 탐지 모델>


WAS 모니터링을 하다보면 응답시간이 지연되는 트랜잭션에 대해 method level trace 분석을 필요시 진행하는 경우가 있다. 이를 장애시 마다 매번 찾아서 분석하는 작업을 머신러닝 기술인 K-Means Clustering 알고리즘을 적용하여 트랜잭션별 call trace를 학습시킴으로서 평상시와는 다른 패턴으로 실행된 이상 트랜잭션/거래를 자동 추출할 수 있게 되었다. 이렇게 추출된 데이터를 기반으로 시각적으로 빠르게 판단하고 분석할 수 있도록 하는 이상 트랜잭션 탐지 모델은 XAIOps 만의 고유 기술이다.




근본 원인 분석(Root Cause Analysis)

<XAIOps의 장애 근본 원인 제시 뷰>


시간 부하 예측, 이상 탐지 및 상관관계/인과관계 분석 기능 등을 통해 장애 발생시 근본 원인에 대한 추론을 최대한 빠르게 제시하는 부분이 가장 핵심 기술 중 하나이다. 장애에 대한 빠른 탐지(MTTD: Mean Time To Discovery)와 발생된 장애를 최대한 빠르게 분석하여 복구할 수 있도록 제시(MTTR: Mean Time To Recovery(Repair))할 수 있는 부분이 엑셈만이 제시할 수 있는 IT 운영의 노하우의 집대성이라 할 수 있다. 장애 인지와 동시에 장애 근본 원인을 요약 제공하는 “Summary Information” 부분과 하단에 각 영역별(Transaction, WAS, DB, OS 등) 해당 시점의 문제 포인트를 함께 상세하게 제공하여 빠른 장애 판단이 가능하도록 한다.



AI(인공지능) 특허 취득


엑셈은 지난 7월, AI(인공지능)를 활용한 이상 탐지 관련 특허 2건을 취득했다. 2건의 특허는 머신러닝 기술을 적용하여 정상 데이터와 비정상 데이터를 분류하기 위한 정상 데이터 범위를 생성하고, 이에 대한 정확도를 높이기 위해 정상 데이터들의 임곗값을 조정하여, 정상 데이터 판단의 정확도와 이상 탐지의 정확도를 향상하기 위한 기술이다. XAIOps에는 본 특허 기술과 유사한 메커니즘과 더욱 최적화한 머신러닝 상세 알고리즘이 적용되었다. 




현재 XAIOps는 국내 다수의 제1금융권, 공공기관, 대형 유통사 등에서 PoC를 성공적으로 수행하며 가시적인 성과를 앞두고 있습니다. 엑셈의 No.1 모니터링 기술력과 IT 운영 관리 경험에 AI 기술이 더해진 XAIOps. 엑셈의 독보적인 AI 기반 IT 인프라 운영 관리 기술과 서비스를 기대해주세요!









기고 | 신기술본부 류길현

편집 | 사업기획팀 박예영










댓글