본문 바로가기
이.빅.스 | 빅데이터 가치를 위한 데이터 시각화 안녕하세요. 이.빅.스 시리즈 어느덧 다섯 번째 시간입니다. 이번 편에서는 데이터 시각화에 대해 알아보겠습니다. 빅데이터를 시각화하기 위한 여러가지의 방법들이 있습니다. 먼저, 데이터 유형에 따라서 차트를 선택하고 목적에 맞게 시각화를 해야합니다. 위 그림과 같이 앤드루 아벨라가 고안한 목적에 따른 차트 선택 방법에는, 비교를 위한 차트는 막대 차트와 선 차트를 사용하며, 전체 데이터 중 특정 항목이 차지하는 비중을 보기 위한 구성을 위한 차트는 파이 차트, 시간에 따른 변화의 유무는 세로 칼럼 차트와 가로 칼럼 차트로 구분하여 사용할 수 있습니다. 위 지표는 엑셈에서 프로젝트를 수행한 서울시 인공지능 기반 빅데이터 서비스 플랫폼(2단계)에서 데이터를 시각화한 화면입니다. 데이터 타입에 맞게 유형별로 시.. 2023. 7. 25.
이.빅.스 | 기하급수적으로 수집되는 많은 양의 데이터는 어떻게 처리해야 할까? 안녕하세요. 네 번째 이.빅.스 입니다. HDFS, Amazon S3, Google Cloud Storage 등 다양한 스토리지가 발전하면서 정형 데이터는 물론 비정형 데이터까지 대량으로 수용할 수 있게 되었고, 많은 기업들이 이런 스토리지들을 활용하여 방대한 양의 데이터를 수집하고 데이터 레이크를 만들고 있습니다. 이번 달에는 이러한 대용량 데이터 레이크를 쿼리할 수 있는 쿼리 엔진인 Trino를 소개합니다. Trino는 하나 이상의 다양한 데이터 소스에 분산된 대규모 데이터 세트를 효율적으로 쿼리하도록 설계된 오픈 소스의 분산 SQL 쿼리 엔진입니다. Hive나 Pig처럼 MapReduce 작업의 파이프라인을 사용해 HDFS를 쿼리하는 도구의 대안으로 설계되었으나, 점차 확장되어 관계형 데이터베이스나.. 2023. 5. 25.
이.빅.스 | 실시간 데이터는 어떻게 활용할 수 있을까? 안녕하세요. 세 번째 이.빅.스 입니다. 이번 달은 실시간 데이터 활용에 대해서 알아볼게요. 실시간 데이터는 수집되는 즉시 사용할 수 있는 데이터로, 주로 우리에게 친숙한 환경에서 발생합니다. 스마트폰을 이용한 음악 듣기, SNS 게시물 공유, 그리고 Netflix, Youtube 등 영상 스트리밍 서비스를 이용한 시청 방식 또한 실시간 데이터를 활용한 대표적인 예라고 볼 수 있습니다. 이처럼 스트리밍이 가능하게 된 계기는, 네트워크 속도가 빨라지고 이 네트워크 성능을 받쳐 줄 하드웨어가 발전해 왔기 때문이겠죠? 그렇다면 실시간 데이터는 어떻게 만들어지고 관리되는 걸까요. 실시간 데이터는 인터넷 검색, 센서, 소셜 미디어, 모바일 기기 등 여러 소스를 통해 생성되고, 저장하는 방법 또한 다양합니다. 예를.. 2023. 3. 30.
KNIME | 잘 안 보이니까 시각화 해주세요! 이번 Part에서는 KNIME으로 데이터를 활용하는 방법 중 하나인 데이터 시각화를 알아보고자 해요! 데이터 시각화는 데이터를 그래프, 차트 등과 같이 시각적 요소를 활용해 나타내는 것을 뜻해요. 시각화를 통해 한 눈에 파악하기 어려운 정보를 보다 쉽게 이해할 수 있고, 데이터를 기반으로 실행 가능한 인사이트를 도출할 수 있어요. Part. 1 KNIME이라고 들어봤어요? (링크) Part. 2 데이터 처리는 알겠는데 전처리는 뭐예요? (링크) Part. 3 잘 안 보이니까 시각화 해주세요! Q1. 시각화라면 막대그래프, 선그래프 이런 것을 말하나요?? A1. 네! 맞아요! 질문처럼 아주 간단한 그래프부터 복잡한 그래프까지 아주 다양하게 있어요! 아래의 이미지를 참고해주세요! 최상단의 행부터 각각 Dis.. 2023. 2. 22.
KNIME | 데이터 처리는 알겠는데 전처리는 뭐예요? Part. 1에서는 KNIME에 대해 간략하게 설명해 드렸어요! 이번 시간에는 데이터 분석의 첫 단계인 데이터 전처리에 대해 말씀드릴게요. Part. 1 KNIME이라고 들어봤어요? (링크) Part. 2 데이터 전처리 Q1. 데이터도 알겠고, 처리도 알겠는데, 전처리는 뭔가요? A1. 전처리라는 용어는 말 그대로 ‘전’ + ‘처리’, 작업을 하기 전 원재료를 가공하는 것을 말해요. 영어로는 ‘preprocessing’ 이라고 하죠! 예를 들면, 데이터의 형태를 통일시켜야 할 때가 있어요! 왼쪽 생년월일을 보면 여러 형식으로 저장되어 있어요! 모든 방식이 날짜를 뜻하지만, 숫자의 길이도 다르고 숫자 사이를 구분하는 문자(‘-‘ 나 ‘/’)도 다르죠? 보기에도 힘들고, 컴퓨터조차 날짜로 인식하지 못해요. .. 2022. 11. 23.
엑셈 디자인 스토리 | EBIGs 로고를 소개합니다. 엑셈의 빅데이터 시스템 구축 및 운영을 위한 최적의 솔루션, EBIGs. 많은 고민과 시도를 거듭하면서 제품의 컨셉과 이미지를 잘 녹여낸 멋진 로고가 완성되었습니다. 지금부터 그 긴 여정을 소개합니다. MAIN CONCEPT 메인 컨셉을 어떻게 정의하느냐에 따라 디자인의 방향이 정해지기 때문에 가장 중요한 첫 단추라고 볼 수 있습니다. 또한 엑셈 기존 제품 로고들과도 결이 맞으면서, 제품의 중요한 컨셉 이미지가 드러나면 좋겠다는 관계부서의 의견도 반영해야 했기에, 디자인 시 고려사항이 많았습니다. 1) 제품의 중요 컨셉인 만큼 '하나의 패키지' 다운 느낌이 담겼으면 좋겠다. EBIGs는 빅데이터 시스템의 설치, 운영, Health Check & 모니터링, 튜닝 그리고 시스템 확장 등 빅데이터 운영 관리에.. 2022. 11. 18.
이.빅.스 l 이만큼 재미있는 빅데이터 스토리, 시작! 처음 뵙겠습니다, EBIGs 인사드립니다! 🙏🏻 이번달 부터 격월로 엑셈의 빅데이터 플랫폼인 EBIGs를 통해 빅데이터의 활용과 전처리, 시각화 등에 대해서 소개하려고 합니다. 가장 첫 시작은, 역시 자기소개를 드려야겠죠? EBIGs의 아키텍처와 주요기능에 대해 먼저 이야기해볼까 합니다. 기존에 널리 사용되었던 HDP, CDH가 합병 및 전면 유료화를 선언하면서 많은 부담을 느낀 기업들이 차츰 Apache Hadoop의 도입을 고민하게 되었죠. EBIGs는 이에 맞추어 비즈니스에 효율적으로 적용시킬 수 있는 Hadoop Eco System으로 구성하였으며, Hadoop Eco System의 운영관리, 보안 설정, 사용자 관리, 성능 모니터링 등의 다양한 기능을 제공하고 있답니다. 위 그림과 같이, EBI.. 2022. 10. 26.
엑셈 인사이트 | 플라밍고가 하둡 에코 시스템을 대하는 자세 클라우데라의 아파치 하둡(Apache Hadoop) 기반 모든 제품의 유료화 선언 이후, 빅데이터를 활용하는 기업과 기관들이 높은 금액의 라이선스 비용으로 인해 또 다른 대안을 마련하고 있다. (*인사이트 지난 편 : 오픈소스 하둡 관리도 역시, 엑셈 플라밍고) 실제로 엑셈은 경상북도청과 한국전력공사 ICT 대전센터 전력분야 재해복구시스템(DRS)에 아파치 하둡을 공급하고 이를 지원하는 빅데이터 통합 관리 솔루션 ‘플라밍고(Flamingo)’를 구축 중이다. 엑셈의 ‘플라밍고’는 빅데이터 수집부터 저장, 분석 및 하둡 에코 시스템 운영에 필요한 서버 상태 관리, 서비스 관리, 설정 관리 등을 손쉽게 활용할 수 있는 통합 관리 솔루션이다. 서비스 모니터링, 보유 데이터 브라우징, 데이터 정제/처리를 위한 .. 2022. 2. 23.
엑기스 | 빅데이터 플랫폼 NiFi의 구성과 활용 NiFi는 소프트웨어 시스템 간 데이터 흐름을 자동화하도록 설계된 아파치 소프트웨어 재단의 소프트웨어 프로젝트입니다. 과거 NSA에 의해 개발되었고, 2014년 기술 전송 프로그램의 일부로서 오픈소스화된 나이아가라파일즈(NiagaraFiles)에 기반을 두고 있습니다 NiFi는 Dataflow를 쉽게 개발할 수 있고, 시스템 간 데이터 이동 및 내용을 볼 수 있는 UI를 제공합니다. 실시간 데이터 전송에 필요한 기능을 제공하고, 여러 NiFi시스템 간 통신을 지원(site to site)합니다. 강력한 자원과 권한 관리를 통해 Multi-tenant를 지원합니다. 오픈소스로 사용 비용이 들지 않는다는 장점이 있습니다. NiFi는 실시간 데이터 처리에 유리하지만, 복잡한 연산이 어려워 spark 또는 st.. 2021. 7. 21.