본문 바로가기
엑셈 경쟁력

데이터브릭 | 데이터 전처리 솔루션 TRIFACTA

by EXEM 2018. 11. 5.

 

지난 10월, 엑셈은 데이터브릭과 인공지능/빅데이터 부문 사업 제휴를 맺었습니다. 관련 기사 보기

사업 제휴를 통해 엑셈의 빅데이터 역량과 인공지능 기술력에 데이터브릭의 데이터 전처리 전문성을 더함으로써 데이터 산업 분야에서 폭넓은 사업 기회를 창출할 수 있는 계기가 될 것으로 기대하였는데요, 그래서 이번 시간에는 데이터브릭이 가지고 있는 데이터 전처리 솔루션 “TRIFACTA”에 대해서 알아보겠습니다 :)


지난 11월 08일 개최된 2018 Claudera day in Seoul에서 데이터브릭의 세션 발표가 있었습니다. 트리팩타에 대하여 발표 하였는데, 많은 분들이 참석해주셨고 관심을 보여주셨습니다. 트리팩타는 분석, 머신러닝 및 AI 업무에서 반드시 필요하면서도 이들 프로젝트 기간의 80% 이상이 소요되는 데이터 전처리 업무를, 트리팩타의 데이터 도메인 노하우와 강력한 통계분석 기법 및 머신러닝 기술, 그리고 데이터 전처리에 특화된 사용자 경험을 적용하여 IT 도움없이 트리팩타와 분석가가 상호 작용을 통해 분석가가 자신의 업무 목적에 맞는 데이터를 스스로 준비할 수 있게 함으로써, 기존 전처리 방식 대비 10배 이상의 생산성을 제공하는 글로벌 #1 데이터 전처리 솔루션입니다. 


 <그림 1 데이터브릭의 세션 발표 현장, 출처: 데이터브릭>

<그림 2 데이터 전처리 정의 및 필요성, 출처: 데이터브릭 발표자료>


트리팩타를 본격적으로 소개하기 전, 먼저 데이터 전처리가 무엇인지 알아야겠죠?


데이터 전처리 (data pre-processing)란?

수집된 다양하고 많은 데이터들을 분석에 적합한 데이터 형태로 가공하는 작업입니다.


데이터 전처리 작업이 중요한 이유?

전처리 작업은 전체 업무 작업시간의 80% 이상을 차지합니다. 또한, 잘못된 전처리 데이터에서는 잘못된 분석 결과가 나오게 되죠.


기존 개발 형태의 전처리 방식의 문제점은?

IT <> 현업(분석가) 간의 커뮤니케이션 그리고 IT 개발자의 데이터 이해도 부족 등이 있습니다.

 트리팩타는 조직 또는 현업 데이터 분석가가 분석을 위해 요구되는 다양한 데이터 셋을 보다 쉽고 빠르게 효율적으로 탐색, 변환하고 조인할 수 있는 랭글링 기능을 제공하는 데이터 선행처리 전용 도구입니다. 한마디로, 데이터 전처리 도구입니다.

 머신러닝, 패턴 분석 및 통계 처리에 기반한 트리팩타의 강력한 데이터 랭글링 기능은 데스크탑에서 파일로 작업하거나 클라우드 및 대규모 데이터 레이크에서 다양한 구조의 멀티 데이터 소스 환경에서도 쉽고 간단하게 데이터 선행 작업을 가능하게 합니다. Any Data, Any User, Any Cloud를 제품 모토로 삼고 있으며, 기존 개발 형태의 데이터 전처리를 트리팩타를 이용하여 분석가가 직접 데이터 전처리를 하여 기존 개발 형태의 전처리 방식의 문제점들을 해결, 전처리 작업 시간을 최대 90% 절감시킬 수 있습니다. 최종적으로, 전처리 작업에 절감한 시간을 분석에 투자함으로써 더 나은 결과를 얻을 수 있게 되는 것입니다.


트리팩타를 이용한 전처리

아래 그림과 같이 플로우 정의, 데이터 이해, 데이터 구조화, 데이터 크린징&변형, 데이터 보강, 데이터 검증, 데이터 배포의 총 7단계로 이루어집니다.

<그림 3 트리팩타를 이용한 전처리 방법 출처: 데이터브릭 발표자료>


트리팩타의 특징

1. 업무 분석가가 분석을 위한 데이터 선행 작업을 직접 실행

트리팩타는 데이터를 가장 잘 이해하는  업무 담당자, 비즈니스 분석가 또는 데이터 사이언티스트가 분석을 위한 선행 단계에서 IT 직원의 도움을 최소화하고 업무 분석 주제 영역에 대한 데이터를 직접 준비할 수 있게 하는 인텔리전트 데이터 선행처리 도구입니다. 


<그림 4 트리팩타의 특징 1, 출처: 데이터브릭 홈페이지>


2. 사용자 경험 기반 데이터 준비

트리팩타의 데이터 랭글링 프로세스는 철저히 사용자 분석 경험에 기반하여 설계되었습니다. 따라서 데이터 분석가는 정형 및 비정형데이터의 데이터 탐색부터, 구조화, 크린징, 인리치먼트부터 검증까지 마우스 클릭으로 이들 데이터 선행작업에 필요한 모든 태스크를 매우 쉽게 구현할 수 있습니다.


<표 1 트리팩타 접근법 비교, 출처: 데이터브릭 홈페이지>



트리팩타의 차별화 요소

머신러닝, 패턴 분석 및 통계처리 기술 적용을 통해 비즈니스 사용자가 인터렉티브하게 데이터 랭글링을 할 수 있는 강력한 기능을 제공합니다.

<그림 5 트리팩타의 차별화 요소, 출처: 데이터브릭 홈페이지>



Awards

마지막으로 트리팩타는, Bloor Technologies, Forrest Research 등에서 Data Wrangling (Preparation) 분야에서 최고의 제품으로 평가받은 제품이라고 합니다.


<그림 6 트리팩타 Awards 자료, 출처: 데이터브릭 발표 자료>


더욱 자세한 내용은 발표 자료 보기를 참고 부탁드리며, 트리팩타에 대해 더 궁금하신 분들은 여기를 누르시면 데이터브릭 홈페이지로 이동하실 수 있습니다.




Reference

https://www.databrick.co.kr/why-trifacta 




글 | 사업기획팀 박예영

자료 제공 | 데이터브릭

댓글