태터데스크 관리자

도움말
닫기
적용하기   첫페이지 만들기

태터데스크 메시지

저장하였습니다.

엑셈 뉴스룸 | 엑셈이 매력적인 5가지 이유

엑셈 뉴스룸 2019.07.10 13:45

 

 

 

IT 분야 구직자들의 눈길을 끌고 있는 기업이 있습니다. ‘취업하고 싶은 기업’, ‘대한민국 일하기 좋은 100대 기업’등에 선정되기도 했죠. 탄탄한 IT 성능 관리 프로그램을 기반으로 최근 인공지능(AI), 빅데이터, 클라우드 등을 활용해 신제품을 출시하며 사업 분야를 무섭게 확장하고 있는 기업, 바로 엑셈입니다. 이번 호에서는 우리 엑셈이 어떤 기업인지 자랑 좀 해보려고 합니다!

 

 

 

데이터베이스(DB) 성능 관리 소프트웨어 부동의 '1위'

<DB 성능 관리 솔루션 맥스게이지(MaxGauge)>

 

 엑셈은 국내에서 전무했던 데이터베이스(DB) 성능 관리를 위한 표준 방법론과 인터페이스를 정의하여 DB 성능관리 솔루션 `맥스게이지(MaxGauge)`를 시장에 선보이며 국내 시장 1위 솔루션으로 성장시켰습니다. ‘맥스게이지(MaxGauge)’는 국내 450개 대형 고객사를 보유하고 있으며, 금융권 시장은 90% 이상 점유하고 있습니다. 

관련 기사) DB 모니터링 시장 점유율 1위 ‘엑셈’

 

 

 

동종 업계 최초 코스닥 상장 기업

 

<2015년, 엑셈 코스닥 상장 기념식>

 

 엑셈은 2001년 설립 이래 기업의 데이터를 효율적으로 관리하고 분석함으로써 국내 데이터 산업을 선도해 온 기업입니다. 국내 시장 1위 솔루션 ‘맥스게이지(MaxGauge)’ 뿐만 아니라, 기업의 효과적인 IT 성능 관리 구현을 위해 E2E(End-to-End) 시스템 성능 관리 연구를 끊임없이 진행해왔으며, 2015년 동종 업계 최초로 코스닥에 상장하는 성과를 거두었습니다.

관련 기사) 엑셈-에스엔텍-코아스템 코스닥 상장 기념식

               EXEM 코스닥 상장 

               EXEM 상장기념식(영상)

 

 

 

기술자의 길, 엔지니어가 전문적으로 성장할 수 있는 기업

 

 <엑셈 본사 입구에 걸려있는 기술자의 길>

 

 엑셈 본사에 오시면 가장 먼저 확인할 수 있는 글귀입니다. ‘기술자의 길’은 기술자를 개혁자, 개척자, 선구자, 철학자, 과학자, 예술가로 확대하고 앞으로 나아갈 길을 제시하고 있습니다. 이렇게 엑셈의 기술자들은 ‘세상의 중심에서 세상을 선도하고 세상을 변화시키는 세상의 주역’입니다.

관련 기사) 엑셈 “인재가 가장 중요.. 직원에게 확신 주는 CEO 될 것”

              “직원의 지적 욕망을 자극하라” DPM 한국 1위 업체의 지식기업화전략

              [SW@CEO] 조종암 엑셈, “책 쓰는 개발자들이 모인 회사”

              [IT기업 탐방] 현직 대학생을 연구원으로 채용하는 기업 ‘엑셈’

 

 

 

복지 하나는 인정! 임직원을 위한 최고의 복지

 

 

 엑셈 복지는 두말하면 잔소리! 하나하나 나열하기엔 너무 많아서, 위 그림으로 정리해보았는데요. 여기에 한 가지 더! 최근 건물 8층에 엑세머를 위한 휴계 공간이 오픈되었습니다 :) 팀원들과 다양한 활동을 함께하며 더욱 친목을 쌓을 수 있겠네요~ 이 정도면 일할 맛 나겠죠?

 

 

관련 기사) ‘샐러던트의 시대’… 엑셈·엠즈씨드·휴럼, “자기계발비 아껴주는 슈퍼기업”

 
 
자타공인 일하기 좋은 회사, 엑셈
 

 

 중소기업기술혁신협회(INNOBIZ)가 주관하고 중소기업청에서 후원하는 ‘2012 취업하고 싶은 기업’은 기술력을 바탕으로 우수한 일자리 경쟁력을 갖춘 중소기업을 발굴해 적극 지원하는 프로젝트입니다. 특히 매출 규모, 고용 규모 등 기존 우수기업 선정 기준인 정량적 평가 외에도 기업 비전, 성장 잠재력, 대외 이미지, 근로 조건, 직원 만족도 등 구직자에게 신뢰를 주는 실질적 항목을 기준으로 평가합니다.

 

 

‘대한민국 일하기 좋은 100대 기업’ 선정

 

 

GWP(Great Work Place)는 신뢰경영을 실천함으로써 일하기 좋은 기업문화를 쌓아가고 있는 회사를 선정하는 제도로, FORTUNE US 100대 기업을 비롯, 유럽연합, 중남미, 인도, 일본 등 전 세계 40개국 국가에서 동일한 방법으로 진행됩니다. 직원 만족도 설문 및 기업 문화와 복지제도를 조사하여 일하기 좋은 기업을 선정하고 있습니다.

관련 내용) 엑셈이 GWP 기업인 이유

 

 

 

엑세머 인터뷰

 

Q. 엑셈의 경영이념은 무엇인가요?

 엑셈은 ‘지식경영전략’을 통해 직원들의 성장을 우선시하고 있습니다. 이를 위해 웨비나, 오프라인 세미나를 비롯해 전문성을 키울 수 있는 프로그램으로 직원들의 발전을 도모합니다. 또한 책 출판을 권장하는 등 IT 지식에 대한 배경을 넓히는데 힘쓰고 있습니다. 이렇게 직원의 성장이 곧 회사의 성장이라는 ‘전개일여’ 원칙에 기반한 경영은 직원으로 하여금 열심히 일할 수 있게 하는 원동력이 됩니다.

Q. 엑셈만의 강점은 무엇인가요?

 입사 후, 전문가가 될 수 있다는 점이 가장 큰 강점입니다. 대부분의 인력이 기술자로 구성된 만큼 전문적인 기술을 다루고 있고, 모두 높은 수준을 가지고 있기 때문에 입사 후에는 자신의 역량을 최대한 끌어 올릴 수 있는 계기가 됩니다. 전문가가 될 수 밖에 없는 회사의 지원과 환경 속에서 최고의 전문가가 되는 일은 식은 죽 먹기지요.

Q. 예비 엑세머를 위한 조언

 엑셈 전개일여 경영시스템의 3P원칙을 잘 지키며, 직무에 대한 이해도가 높은 사람을 선호합니다. 3P원칙이란 투명한 업무 처리, 서로를 성장 시킬 수 있는 관계 형성, 진정성 있는 커뮤니케이션을 하는 원칙입니다. 아래 현재 진행 중인 채용공고가 있으니 한번씩 확인해보세요.

 * [컨설팅본부] DB 성능 모니터링 솔루션 유지보수/DB 장애분석/DB 튜닝 신입/경력 사원 채용

 * [개발본부] Java 신입/경력 개발자 채용

 

[참고] 엑셈 채용과 관련한 가장 최신 내용을 가져왔습니다용

2019 중소기업탐방 프로그램

2019 공채 신입사원 & 인사담당자 인터뷰

 

 

 

맥스게이지(MaxGauge)로 DB 성능관리의 문을 연 엑셈은 E2E 솔루션 인터맥스(InterMax), Hadoop EcoSystem 성능관리 플랫폼 플라밍고(Flamingo)와 더불어 최근에는 국내 최초 딥러닝 기반 IT 운영 지능화 솔루션 엑셈 에이아이옵스(EXEM AIOps)와 클라우드 네이티브 아키텍처 통합 관제 솔루션 인터맥스 클라우드(InterMax Cloud)를 출시하며 고도화된 인공지능(AI), 클라우드 기술을 적용하고 있습니다. 이렇게 기존 전문 기술과 새로운 핵심 기술을 융합시키는 ‘엑셈 4.0’전략을 통해 고객에게 더욱 차별화된 경험을 제공하고 있는데요. 엑셈은 상시 채용으로 문을 활짝 열어두고 있습니다. 엑셈과 뜻을 함께한다면, 언제든 엑셈의 문을 두드려주세요!

 

#신뢰 #기술 #전문성 #주인의식 #전개일여 #소통 #엑셈








기획 및 글 | 사업기획팀 박예영






  [Semtong 138회] 

  EXEM in AI EXPO KOREA 2019

  다른 이야기도 궁금하시다면?

 


  · 엑셈 뉴스룸 | AI EXPO KOREA 2019 참가기


  · 엑셈 뉴스룸 | 엑셈이 매력적인 5가지 이유


  · 엑셈 Brand X | Core Value. #Individual


  · 엑기스 | 신제품 발표 다시보기


  · 엑셈 동호회 | 볼링 동호회


  · 아이참 | AI TECH 2019


  · 월간기술동향 | 똑똑한 쇼핑, 리테일테크


  · 원더풀 과학 | 우리는 어디서 와서 어디로 가는가?


  · Tech in Cinema | 라이온 킹


  · 신입이도 직딩구실 | 물음표 살인마 [납량특집]


 








이벤트 | 추석맞이 낱말퀴즈

이벤트/이벤트 2018.09.05 13:30


당첨자를 발표합니다:)

오정화/안성민/정현동/강태호/한송희/권성원/임수현/윤자운/이지원/김세동/강상원/이영우/유나은/정성훈/김영철/김지우/하지수/박가영/류승민/한홍근

10월 뉴스레터 이벤트도 많은 기대 해주세요~~


기획 및 글 | 사업기획팀 박예영

이미지 디자인 | 디자인기획팀 김보명



  • 이전 댓글 더보기
  • 2018.09.21 13:17 ADDR 수정/삭제 답글

    비밀댓글입니다

  • 2018.09.21 13:19 ADDR 수정/삭제 답글

    비밀댓글입니다

  • 김도룡 2018.09.21 13:28 ADDR 수정/삭제 답글

    정답 :
    1. 우림블루나인
    2. 인터맥스
    3. 맥스게이지

    핸드폰번호 : 010-2584-1143
    추석 잘 보내세요. ^^

    • Favicon of https://blog.ex-em.com EXEM 2018.09.21 13:36 신고 수정/삭제

      비밀댓글로 참여부탁드려요~

  • 2018.09.21 15:38 ADDR 수정/삭제 답글

    비밀댓글입니다

  • 2018.09.21 15:59 ADDR 수정/삭제 답글

    비밀댓글입니다

  • 2018.09.21 23:33 ADDR 수정/삭제 답글

    비밀댓글입니다

  • 2018.09.22 00:30 ADDR 수정/삭제 답글

    비밀댓글입니다

  • 2018.09.22 14:58 ADDR 수정/삭제 답글

    비밀댓글입니다

  • 2018.09.22 22:37 ADDR 수정/삭제 답글

    비밀댓글입니다

  • 2018.09.23 02:20 ADDR 수정/삭제 답글

    비밀댓글입니다

  • 2018.09.24 14:53 ADDR 수정/삭제 답글

    비밀댓글입니다

  • 2018.09.24 14:54 ADDR 수정/삭제 답글

    비밀댓글입니다

  • 2018.09.24 14:55 ADDR 수정/삭제 답글

    비밀댓글입니다

  • 2018.09.27 09:14 ADDR 수정/삭제 답글

    비밀댓글입니다

  • 2018.09.27 09:26 ADDR 수정/삭제 답글

    비밀댓글입니다

  • 김하니 2018.09.27 16:39 ADDR 수정/삭제 답글

    1. 우림블루나인
    2. 인터맥스
    3. 맥스게이지

    010-9217-8238
    뉴스레터 항상 재밋게 보고있습니당~! ^_^

    • Favicon of https://blog.ex-em.com EXEM 2018.09.27 17:55 신고 수정/삭제

      비밀댓글로 참여 부탁드려요~

  • 2018.09.27 16:42 ADDR 수정/삭제 답글

    비밀댓글입니다

  • 2018.09.27 16:45 ADDR 수정/삭제 답글

    비밀댓글입니다

  • 2018.09.28 01:11 ADDR 수정/삭제 답글

    비밀댓글입니다

  • Favicon of https://blog.ex-em.com EXEM 2018.09.28 09:16 신고 ADDR 수정/삭제 답글

    이벤트 마감 하겠습니다. 참여해주셔서 감사드립니다. ^-^

엑세머의 서재 | 일의 미래, 능동적으로 준비하자


2025년, 기업은 어떤 도전에 직면할 것인가?


1. 고객과 인재들은 혁신적인 제품 및 서비스를 찾아다닌다.

그로 인해 개방적인 혁신의 중요성은 더욱 커지며 직원과 고객의 아이디어가 중요해진다. 


2. 기술과 세계화의 압력으로 직장 내 전통적인 위계 구조가 훨씬 유기적인 구조로 바뀐다.
협업 생태계 및 자기 사업하는 유능한 인재들을 통해 이들의 기술을 활용한다.


3. 유능한 인재는 일할 장소와 업무 내용을 스스로 결정한다.
높은 수준의 개인화와 유연성은 기술 플랫폼 때문에 가능하다.


4. 직원들의 동기부여 수단에서 금전적 보상이 맡은 역할이 미묘하게 바뀐다.

앞으로의 세대들은 의미 있고 발전적인 업무를 더 중시한다.


5. 경쟁이 아닌 협력이 중요해진다.

리더가 이끄는 팀이 아닌 다른 이들과 협력하여 만들어낸 역할 모델이 중요하다. 




서평 | 경영기획본부 고평석 상무

작성 | 사업기획팀 박예영




월간 기술동향 | 가장 가까운 머신러닝, 추천 서비스

 

 

 

추천 시스템(Recommendation System)이란?

대상자가 좋아할 만한 무언가를 추천하는 시스템을 말합니다. 

아마 대부분의 사람들은 최소한 한 번쯤 이미 추천시스템을 경험했을 것 같은데요, 

쇼핑을 하기 위해 사이트를 방문하여 특정 상품의 정보를 얻기 위해 클릭을 하면, 

화면 어딘가에 추천아이템, 인기아이템, 당신이 좋아할 만한 아이템 등 다양한 이름으로 상품을 추천하는 것을 쉽게 발견할 수 있습니다. 

또한 시스템의 문제에 대한 해결 방법 추천과 건강에 대한 치료 방법 추천과 같은 다양한 범위에서 추천 시스템이 활용될 수 있습니다.


추천시스템은 아마도 일반인들이 가장 빈번하게 접하는 머신러닝 서비스라고 얘기해도 과언은 아닐 것 같은데요. 

그만큼 추천시스템은 IT 서비스에서는 매우 중요한 핵심적인 기술이라고 할 수 있고, 

전자상거래 관련 회사들은 추천시스템을 준비하거나 운영하고 있습니다.

 

 

 

추천 시스템의 주요 기술

 추천 시스템의 주요 기술은 2가지가 있고, 이 둘을 혼합하여 사용 가능합니다.

<그림1 | 사용자 기반 추천(좌)과 아이템 기반 추천(우)>


1. 아이템 기반 추천 : 사용자가 구매한 물건과 유사한 물건이나 연관성이 높은 물건을 추천하는 방식

2. 사용자 기반 추천 : 사용자를 유사한 사용자별로 그룹핑하고 해당 사용자 그룹내의 사용자가 구매한 물품을 그룹의 다른 사용자에게 추천하는 방식

3. 혼합형 추천 : 사용자를 그룹핑하고, 해당 그룹의 사용자가 구매한 물품들을 아이템 기반으로 연관성을 분석하여 연관성이 높은 물품을 해당 사용자 그룹에 추천하는 방식


 주요 기술의 장점 및 단점은 아래 표와 같으며, 대표적인 추천 알고리즘으로 Collaboration Filtering(CF, 협업 필터링)을 적용하고 있습니다.


<표1 | 추천 서비스 주요 기술의 장단점>



 그리고 최근에는 딥러닝 기술과 결합된 추천 방법을 개발하고 있거나 연구하고 있습니다.

 

 

 


성능평가

Collaboration Filtering을 이용해 추천시스템을 개발했다면 해당 시스템의 성능을 평가해야 합니다. 

성능평가는 주로 A/B 테스트를 적용합니다.

※ A/B테스트: 기존의 제품 또는 알고리즘과 신규로 적용한 알고리즘을 비교 평가하는 방식


 

 

추천 시스템의 활용 사례

 마지막으로 추천 시스템(Recommendation System)의 활용 사례를 보시죠. 사례를 보면 더 이해하기 쉬울 것입니다.


1. YouTube

유튜브는 비디오 메타데이터(장르, 태그정보, 상영시간 등), 사용자 접속정보(로그인, 미로그인), 

사용자 정보(로그인), 비디오 클릭 수, 비디오 플레이타임 정보 등의 정보들을 이용해 추천시스템을 운영하고 있습니다. 

또한, 로그인 상태에 따라 다른 추천 방식을 적용하는데요. 

미로그인 시(기본)에는 아이템기반으로 Collaborative Filtering 모델을 적용하여 추천하고, 

로그인 후에는 사용자기반으로 Deep Collaborative Filtering 모델을 적용 중입니다.


2. 아마존

아마존은 평점(Rating),구매행위(Buying Behavior) 그리고 검색행위(Browsing Behavior) 정보들을 이용해 추천시스템을 운영하고 있습니다. 

또한 자체적으로 기존 데이터를 기준으로 추천하는 Item-to-Item Collaborative Filtering 알고리즘을 개발하였죠.


<그림2 | 아마존이 특허 출원 시 제출한 추천 시스템 요약도>



이 외에도 넷플릭스, 페이스북 등 다양한 기업에서 추천시스템을 활용하고 있습니다.




Reference

https://www.oss.kr/info_techtip/show/5419f4f9-12a1-4866-a713-6c07fd36e647 

https://medium.com/@cfpinela/recommender-systems-user-based-and-item-based-collaborative-filtering-5d5f375a127f 







기획 및 글 | 사업기획팀 박예영

기술 협조 | 사업기획팀 윤효근 박사


엑기스 | 쉽게 이해하는 시계열데이터 비정상탐지

기술이야기/엑.기.스 2018.09.05 13:29


"엑기스"라는 단어, 어떤 느낌이신가요?

무언가 알차게 꽉- 농축되어 있는 그 느낌!

지금부터 엑셈의 기술 스토리, 엑기스를 알차게 전해드립니다!

엑기스 첫 번째 스토리, 지금 시작합니다.


불과 1개월 전만해도 111년만에 한국 사상 최고의 더위가 찾아왔었다.

Figure 1. 정말 너무 더웠다...

<출처 | YTN NEWS(http://www.ytn.co.kr/)>


현재 낮기온은 1개월 전보다 섭씨 10도씨 이상 낮아지고 일교차는 크게는 15도정도 난다.

이런 비정상'스러운' 날씨를 어떻게 발견할 수 있을까? 미리 예측은 할 수 있을까?

웹 어플리케이션을 운영하는데 디도스(DDOS) 공격이 온 것을 빠르게 알아낼 수 있을까?


시계열 데이터


위에 언급한 문제들을 풀기 위한 답은 '데이터'에 있다. 날씨의 경우에는 우리나라의 역사적으로 기록된 기온과 주변 국가, 지구의 기온 변화 등이 모두 데이터로 사용될 수 있다.

또한 DDOS 공격으로부터의 빠른 탐지는 '기존 데이터'를 잘 분석한다면 비정상 움직임을 캐치할 수 있을 것이다. 이처럼 매력적인 시계열 데이터에 대해서 조금 더 알아보자.


시계열 데이터를 다루는 사람들의 관심 있는 주제는 보통 크게 2가지이다.


1.데이터 예측

2.비정상데이터 탐지


오늘 이 글에서 얘기하고자 하는 것은 1번 예측이 아닌 2번 비정상데이터 탐지이다.


비정상데이터


Figure 2 비정상회담과 비정상탐지는 아무 관련이 없고 이 글은 상사가 시킨 글쓰기가 아니다.

<출처 | JTBC 비정상회담 화면 캡쳐(http://tv.jtbc.joins.com/nonsummit)>


시계열 데이터에서 비정상이라고 하면 뭘까? 일반적인 비정상에 대해서 사전을 통해 알아보도록 하자. 

네이x 사전에 의하면 비정상의 사전적 의미는 '정상이 아님'이라고 정의한다.

그렇다면 정상 또 정상이 뭔지 찾아보도록 하자.

Figure 3 정상의 정의

<출처 | 네이버 국어사전(https://ko.dict.naver.com/search.nhn?query=%EC%A0%95%EC%83%81&kind=all)>


그렇다. 우리가 직관적으로 예상할 수 있는 대로 탈 없는 상태이다. 

결국 비정상 데이터라고 하면 '탈이 있는 데이터'이고 우리는 이를 잘 탐지하기만 하면 된다.


흔히 비정상 데이터를 다음의 3가지 경우로 분류한다.


1.평소보다 데이터가 심하게 크거나 작을 경우

2.일시적인 데이터의 패턴 변경

3.데이터의 크기 변경


대부분의 비정상 데이터들은 위의 3가지 분류에 속하게 된다.


어떤 데이터로


데이터분석은 같은 데이터의 모양이라고 하더라도 도메인에 따라서 접근법이 많이 다를 수 있다. 

결국 고객이 무엇을 원하는지 요구사항을 잘 파악하여야 문제를 잘 정의하고 이에 따른 분석방법, 해결책이 나올 수 있다.


필자의 의견인데 좋은 알고리즘과 모델을 찾는 것보다 요구사항을 분석하고 문제를 정의하는 과정이 제일 중요하다고 생각한다.

온천수가 나오는 땅을 찾기 위해 삽질을 해야하는데 이를 은삽으로 팔지, 금삽으로 팔지, 모종삽으로 팔지, 혹은 포크레인 기사를 불러서 땅을 파야할 지 고민하기 전에 우리 집 마당인지 뒷 산인지, 이 땅의 성분 요소는 무엇인지 잘 아는 것이 더 중요하다. 아무리 좋은 삽을 고르더라도 남의 땅을 파면 안되는 것 아닌가?


이 글에서는 서버 위에 가상 쇼핑몰을 만들고 부하를 만들어서 얻어낸 데이터베이스의 Active session data를 가지고 여러가지 시도를 해보도록 하겠다.


가장 쉬운 접근 방법


STL decomposition

STL Decomposition은 시계열 데이터를 Seasonal, Trend and residual로 분해하여 분석하는 알고리즘이다.

Figure 4 Y(t) = S(t) + T(t) + R(t)


STL은 트렌드를 찾아내는 곳에서도 사용될 수 있지만 Residual Graph를 잘 보면 비정상포인트를 찾을 수 있다. 

python에 STL library들이 많기 때문에 구현이 쉽고 데이터의 특성을 확인하기 편하다.


장점

장기적 데이터에서 뚜렷한 주기, 트렌드를 구분 짓고 구현이 쉽다.

단점

데이터가 많이 출렁이거나 등락이 강할 경우에 트렌드함을 가지지 못해 분석 결과를 결론 짓기 애매한 경우가 많다.


Classification and Regression Trees

필자도 학습자이기에 Anomaly detection in time series 이런 식으로 구글링을 해보면, 자주 나오는 것이 CART(Classification and Regression Trees)이다.

정상과 비정상데이터가 레이블링(Labeling)이 되어있는 데이터를 가지고 있을 때 사용할 수 있다. 

최근 캐글(Kaggle)을 통해서 핫해진 xgboost의 경우도 CART의 진보된 버전이다.

Figure 5 CART의 시작


장점

Supervised learning이므로 다른 알고리즘보다 한단계 더 직관적 결과를 얻을 수 있다.

단점

Labeling data가 없으면 분석이 불가능하다.


Moving Average

Moving Average(a.k.a 이동평균선)은 데이터의 추세를 볼 수 있는 가장 고전적이고 쉬운 방법이다. 

간단하게 앞선 특정 기간의 데이터값의 평균값을 데이터로 하여 전 구간의 평균값을 구하는 것이다.

이동평균선을 구하고 각 지점에서의 표준편차값을 이용해 신뢰구간을 그린 다음에 실제 데이터들이 이 신뢰구간을 벗어났다면 비정상이라고 판단할 수 있다.


(빨간 동그라미) 이동평균선을 통해 비정상탐지를 할 때 가장 중요한 점은 '어느 기간의 이동평균'을 잡느냐가 중요하다. 

데이터의 성격에 따라 달라지니 반복된 수행을 통해 최적의 윈도우 사이즈를 찾아야한다.

Figure 6 이동평균선을 이용한 비정상탐지 - 빨간 원


장점

계산이 빠르고 직관적이고 어느 데이터에서든 사용이 가능하다.

단점

많은 테스트가 필요하고 사용자의 경험치가 중요하다. (윈도우 사이즈 결정 시) 추가적으로 비정상 케이스 1번의 경우에만 잘 맞는 경향이 있다.


Prophet

페이스북에서 만든 비정상탐지 알고리즘이다. 이 알고리즘의 가장 큰 장점은 사용하기 쉽다는 점이다. 그 이상은 없는 것 같다.

아주 예쁜 데이터의 경우 잘 들어 맞지만 예측 커브를 아주 예쁘게 그리는 바람에 진폭이 큰 데이터의 경우 정확도가 떨어지는 경향이 많다.


아래 그림에서 보면 회색 밴드를 벗어난 붉은 원으로 표시된 곳이 비정상으로 벗어난 곳이라고 할 수 있다.

Figure 7 Prophet library를 이용한 비정상탐지

장점

구현이 쉽고 Daily, Weekly, Montly 등 장기적 데이터에 적합하다.

단점

Library에 종속되어서 데이터에 따른 디테일한 변경이 쉽지 않다.


조금 더 심도있게


Clustering

K-means Clustering을 이용하여 비정상탐지를 할 수도 있다. 

이 때 주요 개념으로 rolling(혹은 moving) window를 이용하여 클러스터링을 위한 데이터셋을 만들고 이를 K-means를 이용하여 모델을 학습한다.


그리고 새로운 데이터(혹은 기존 데이터)를 분석하여 기존에 가지고 있던 클러스터(군집)에 분류시켜 이상치를 벗어난 데이터들을 발견해낸다.

Figure 8 Clustering을 이용한 비정상탐지


장점

데이터의 크기와 패턴을 고려해 비정상탐지를 하여 비정상 포인트를 포함한 구간을 찾는데 유용하다.

단점

메모리 사용량이 꽤 많고 정확한 지점을 찾기 힘들다.


Neural Networks - LSTM

좋은 연구 과제이다. 정확도 높은 네트워크를 찾는다면 이보다 좋은 모델은 없을 것이다. 

LSTM은 특히 NN에서 time을 고려한 모델인만큼 데이터의 성격에 따라 효과가 클 것이라고 생각한다.


하지만 이 분야는 계속 연구 중이고 데이터 의존성이 크기 때문에 많은 시도와 모델 튜닝이 필요하다.

Figure 9 여러분의 과거 데이터를 봤을 때 새벽 1시에 치킨을 먹는 것은 정상입니다. ???


그래서 뭐가 좋은지?


그래서 어떤 알고리즘을 써야 하는지 알고 싶으면? 정답은 데바데(데이터 바이 데이터, Data by Data). 


그럼 어떤 데이터의 경우 가장 맞는 알고리즘인지 알려면? 

가장 쉬운 알고리즘부터 하나씩 적용해보면서 좋은 결과가 나오는 알고리즘을 택하는 것이다. 


글의 서두에 말한 데이터베이스의 active session 수를 파악하는 데에는 단기적으로는 Moving average가, 장기적으로는 Prophet이 적용가능한 범주에 있었고 결과 또한 좋았던 것 같다.

이래나 저래나 비정상이라고 탐지한 것들이 정확성을 체크하기 위해서는 그 역으로 판단을 해봐야한다. 

메모리 사용에 제한이 없는 report 하기 위한 데이터분석 과정이라면 여러 알고리즘을 사용해서 중복된 포인트들을 찾는 것도 나름의 방법이다.




(급)마무리


시계열 데이터로 미래 예측, 비정상탐지, 인과관계 분석 등을 팀에서 연구하고 있다. 비정상탐지의 경우에는 Moving average를 기반으로 단기적 변화에 대해서 탐지하고 있고 Prophet library에서 아이디어를 발전 시켜서 장기적 비정상을 탐지하고 있다.

우리가 잘 해결한 부분도 있고 부족한 부분도 있지만 문제 해결을 함께 해 나감에 있어 도메인 지식이 있는 동료들과 분석에 함께 아이디어를 내주는 동료들의 도움이 큰 것 같다.

추가로, 비정상탐지 후에 다음 단계가 인과관계 분석, 근본원인 분석인데 서비스 개발이 완료된 후에 공유하도록 하겠다.






기고 | 강남연구소 김정우

편집 | 사업기획팀 박예영