본문 바로가기
엑셈 경쟁력/이만큼 재미있는 빅데이터 스토리

이.빅.스 l 이만큼 재미있는 빅데이터 스토리, 시작!

by EXEM 2022. 10. 26.

 

처음 뵙겠습니다, EBIGs 인사드립니다! 🙏🏻 

 

이번달 부터 격월로 엑셈의 빅데이터 플랫폼인 EBIGs를 통해 빅데이터의 활용과 전처리, 시각화 등에 대해서 소개하려고 합니다. 가장 첫 시작은, 역시 자기소개를 드려야겠죠? EBIGs의 아키텍처와 주요기능에 대해 먼저 이야기해볼까 합니다.

 

 

기존에 널리 사용되었던 HDP, CDH가 합병 및 전면 유료화를 선언하면서 많은 부담을 느낀 기업들이 차츰 Apache Hadoop의 도입을 고민하게 되었죠.

EBIGs는 이에 맞추어 비즈니스에 효율적으로 적용시킬 수 있는 Hadoop Eco System으로 구성하였으며, Hadoop Eco System의 운영관리, 보안 설정, 사용자 관리, 성능 모니터링 등의 다양한 기능을 제공하고 있답니다.

 

Hadoop Eco System

 

위 그림과 같이, EBIGs는 Hadoop, Hive, Spark, Zookeeper, HBase, Nifi 등으로 구성되어 있는 Hadoop Eco System을 자체 솔루션을 통해 관리합니다.

 

EBIGs 아키텍쳐

 

EBIGs를 통해 관리되는 Hadoop Eco System의 정보들은 EBIGs Collector를 통하여 Meta Database에 저장되며, 이 정보를 토대로 EBIGs에서 모니터링 및 관리가 이루어집니다. 

 

Hadoop Eco System에는 무수히 많은 서비스가 있습니다. EBIGs의 Hadoop Eco System들은 Hadoop을 기준으로 

여러 Eco System과의 호환성 검증을 통해 구성하였으며 필요한 경우 커스터마이징을 통하여 안정적인 서비스를 제공하고 있지요.

 

EBIGs의 서비스

 

EBIGs의 대표적인 기능을 살펴보자면,

 

Dashboard View

 

Dashboard view를 통해 Hadoop Cluster의 핵심 지표를 제공하며 각 노드의 자원 및 상태 정보를 제공합니다.

또한 각 Eco System 별 모니터링 정보와 상세 내역도 확인 가능합니다. 

 

  • HDFS CAPACITY USED
    사용중인 HDFS의 용량에 대한 요약 정보를 보여줍니다.

  • YARN APPLICATIONS
    YARN APPLICATIONS는 YARN 기반 위에서 동작하는 모든 애플리케이션의 정보를 모니터링하며, 실행이 완료된 애플리케이션의 요약 및 Full 로그 정보를 확인할 수 있습니다.

  • RESOURCE MANAGER CLUSTER NODES
    리소스 매니저가 관리하는 클러스터의 호스트정보 메모리, 코어 등의 요약 정보를 확인할 수 있습니다.

  • SERVER STATUS
    클러스터에서 실행되는 Hadoop Ecosystem 서비스 상태에 대한 빠른 정보를 제공합니다.

  • DATANODE STATE
    클러스터를 구성하고 있는 데이터노드의 상태 정보를 요약해서 보여줍니다.

  • WORKFLOW EXECUTION HISTORY
    최근 1주일 동안 실행한 Shell Script, Hive Query, MapReduce 등으로 구성한 워크플로우의 이름과 시작 시간 및 종료 시간 등의 요약정보를 보여줍니다.

  • NAMENODE STATUS
    HA로 구성한 네임노드의 상태의 정보를 보여주며 Active Namenode와 Standby Namenode를 확인 함으로써 장애 발생에 대한 모니터링이 가능합니다.

  • RESOURCE MANAGER CLUSTER METRICS 
    리소스 매니저가 관리하는 클러스터의 메모리와 코어에 대한 요약정보를 보여줍니다.

 

HDFS Monitoring

 

HDFS Monitoring 메뉴는 Active Namenode, Data Node, JVM Heap 및 HDFS 사용량 등의 핵심 정보를 제공합니다. 

 

  • Active Namenode
    클러스터의 모든 클라이언트 작업을 담당하는 Active Namenode의 host와 시작 시간 정보를 보여줍니다.

  • Namenode heap
    Namenode 의 heap 을 나타내는 수치로 일정 수치 이상이 되면 경고 표시로 색이 변하며 heap이 모자라는 경우 HDFS 서비스가 종료 됩니다. 

  • HDFS Capacity
    구성된 HDFS 디스크의 총 용량과 사용중인 HDFS 디스크의 용량을 표시합니다. HDFS의 사용량이 일정비율이 넘어가면 빨간색으로 변하며, 이는 경고의 의미입니다.

  • HDFS Block Status
    HDFS에 저장된 데이터들의 블록 상태를 나타내며 누락 된 블록을 확인할 수 있습니다. 블록이 누락되었을 경우 HDFS에서 자동으로 복구를 진행하며, 실패할 경우 Corrupt 상태가 됩니다. 이 경우에는 원본 파일 재 업로드가 필요합니다.

  • Node Status
    namenode와 datanode의 호스트 정보 및 상태를 나타냅니다. namenode의 경우 active namenode와 standby namenode를 파악할 수 있으며 datanode의 경우 구성 된 호스트 정보와 정상 구동 중인지 확인이 가능합니다.

  • HDFS File Count
    HDFS 디렉토리에 저장된 파일수를 5분 단위로 그래프 형태로 표시합니다.

  • HDFS Block Count
    HDFS 에서 파일이 분할 된 블록 수를 5분 단위로 그래프 형태로 표시합니다.

  • Namenode GC Count
    Namenode Garbage Collections의 수치를 5분 단위로 그래프 형태로 표시합니다.

  • Namenode GC time
    Namenode Garbage Collections time의 수치를 ms 단위로 5분 단위로 표시합니다. 

EBIGs YARN

 

YARN 애플리케이션은 YARN 기반 위에서 동작하는 모든 애플리케이션의 정보를 모니터링하며, 실행이 완료된 애플리케이션의 요약 및 Full 로그 정보를 확인할 수 있습니다.

 

  • YARN Cluster Memory
    클러스터의 각 노드에서 애플리케이션 운영에 설정할 수 있는 메모리의 총량과 사용중인 메모리를 표시합니다.

  • YARN Cluster VCores
    클러스터에서 애플리케이션 운영에 할당할 수 있는 cpu 코어 수를 표시합니다.

  • YARN Containers
    Allocated는 할당 되어있는 컨테이너의 수를 나타내고, Reserved는 예약되어 있는 컨테이너의 수, Pending은 컨테이너 할당을 위해 애플리케이션에서 요청한 컨테이너의 수를 나타냅니다.

  • YARN Application Status
    수행한 모든 애플리케이션의 상태를 나타내며 현재 구동중인 애플리케이션 및 완료, 중지 및 실패한 애플리케이션의 수를 표시합니다.

  • Node Manager Status
    클러스터에 구성된 노드 매니저의 상태를 요약된 수치로 표시합니다.

  • Yarn Application List
    실행 중이거나 완료된 애플리케이션의 종류 및 수행 시간 등의 정보를 확인할 수 있습니다. 
     

EBIGs Resource

Resource 메뉴는 Cluster를 구성하는 노드의 CPU, Memory, DISK 등의 사용률을 그래프로 제공합니다. 

 

EBIGs Service

또한 이번에 새롭게 개발된 Service 관리 기능은 Hadoop Eco System을 손쉽게 실행, 종료할 수 있으며, 각 서비스의 성능을 개선하는 기능도 제공합니다.

 

EBIGs는 올해 여러 분야에서 구축되어 빅데이터 플랫폼으로서 자리를 잡아가고 있는데요, Hadoop Eco System을 편리하게 접근할 수 있어 관심을 주시는 것 같습니다. ^^ 앞으로도 EBIGs의 행보를 주목해주세요!

 

 


 

 

이번 시간엔 다소 딱딱하지만 EBIGs의 아키텍쳐와 기능을 소개하였습니다. 다음에 이어질 내용들이 이빅스 아키텍쳐 속 다양한 소프트웨어에 대해서 풀어나갈 예정이라, 꼭 필요한 이야기 였다는 점! 기억해주세요. 

다음시간에는 "빅데이터는 왜 Hadoop에 저장해야할까?" 에 대해 이야기해볼게요. (벌써 궁금하시지요?)

 

그럼 다음시간에 만나요.! 👋🏻

 

 

 

 

혹시 이빅스에 대해 궁금한 것이 있으시다면, 댓글로 남겨주세요! 

빅데이터 전문가가 친절하게 답변 드리겠습니다.

글 l 빅데이터기술컨설팅팀 유성현

 

 

 

 

 

댓글