본문 바로가기
궁금하면 드루와요 | Druid Operator Part.2 Druid Operator: 드루이드 오퍼레이터 도입으로 드루이드 설치부터 관리까지의 과정 개선 Part.1 Apache Druid란 (링크) Part.2 Druid Operator: 드루이드 오퍼레이터 도입으로 드루이드 설치부터 관리까지의 과정 개선 Part.3 Druid Tuning: 제한된 자원속에서 카프카 스트림으로부터 데이터 수집하는 기능(성능)의 최적화 Part.4 Druid Tiering: 데이터가 조회되는 빈도 기준으로 데이터를 구분 Part.5 Druid without Middle Manager (MM less): k8s 리소스(파드)를 사용한 드루이드 태스크 관리 개선 Druid Operator란 Druid Operator는 쿠버네티스에서 실행 중인 드루이드 클러스터를 관리.. 2023. 10. 26.
Chapter 4-3. RNN Chapter 4-3. RNN RNN 우리가 다루는 데이터에는 서로 독립적이지 않고 연관되어 있는 경우가 많다. 예를 들어, 날씨 정보에서 현재 비가 오고 있다면 5분 후에 날씨도 비가 올 것이라고 예측할 수 있다. 또한 이미지 데이터나 문장처럼 데이터의 위치와 순서가 중요한 데이터도 있다. 예를 들어, 이미지 데이터에서 픽셀 단위로 이루어진 고양이 이미지를 순서와 상관없이 혼합해버리면 해당 이미지를 고양이로 이해하기 어려울 것이다. 추가로 문장 데이터를 예로 들면 “나는 구글에서 일한다”라는 문장과 “나는 일할 때 구글을 사용한다”의 문장에서 구글이란 단어는 문자는 같지만 문맥상 다른 의미를 갖는다. 이처럼 시간의 영향을 받거나 위치나 순서가 중요한 데이터를 일반적으로 순차 데이터(sequential .. 2023. 10. 26.
DB 인사이드 | PostgreSQL Extension - PG_STAT_MONITOR 시작하며 SQL 튜닝보다 중요한 작업은 튜닝대상을 식별하는 일이라고 생각합니다. DBMS별로 제공되는 정보의 한계를 명확히 알아야 하며, 여기저기 산재해 있는 정보들을 조합하여 온전한 결론에 도달해야 하기 때문입니다. 자칫 부정확한 판단으로 애꿎은 SQL을 선택했다면, 이는 안 하느니만 못한 결과를 초래할 수도 있으므로, 그 중요성은 이루 다 말할 수 없습니다. PostgreSQL에서는 튜닝대상 선정을 위해 PG_STAT_STATEMENTS라는 Extension을 많이 사용합니다. 해당 Extension은 매우 범용적이지만 제공되는 정보에는 다소 아쉬운 부분들이 존재합니다. 본 문서에서는 PG_STAT_STATEMENTS를 확장한 Percona의 PG_STAT_MONITOR Extension에 대해 알아.. 2023. 9. 21.
Chapter 4-2. 기초 베이지안 통계 Chapter 4-2. 기초 베이지안 통계 베이지안 통계학은 딥 러닝의 여러 분야에서 사용된다. 대표적인 분야가 바로 생성 모델이다. 이번 챕터에서는 베이지안 통계학의 기본 개념과 간단한 예제를 통해 베이지안 통계학이 어떻게 동작하는지 살펴보자. Frequentist와 Bayesian 통계학을 배우는 목적은 여러 가지가 있는데, 그 중 하나는 확률분포를 결정하는 모수(unknown parameter)를 추정하는 것이다. 모수(unknown parameter)를 과학적으로 추정하려고 시도한 결과, 모수를 바라보는 여러 관점들이 나타났다. 그 중 두 가지가 바로 빈도론자(Frequentist)와 베이지안(Bayesian)이다. 대표적인 통계적 실험인 동전 던지기로 빈도론자와 베이지안의 차이를 이해해보자. 우.. 2023. 9. 21.
궁금하면 드루와요 | Apache Druid란 아파치 드루이드는 대규모 데이터를 분석, 저장할 수 있는 도구입니다. 저희는 k8s 환경에서 드루이드를 운영하고 있으며, 카프카를 연계해 데이터를 수집하고 있습니다. 직접 운영하며 사용한 방법과 수집 구조, 한정된 자원 속에서 수집 성능을 개선한 경험에 대해 이야기를 나누고자 합니다. k8s 환경에서 드루이드를 운영하는 사람, 또 운영하고자 하는 사람, 드루이드에서 Kafka로부터 데이터 수집 성능을 개선하려는 사람들과 함께 소통하고 싶습니다. 총 5파트로 나누어, 이번달에는 아파치 드루이드의 기본 개념을 알아보겠습니다. Part.1 Apache Druid란? Part.2 Druid Operator: 드루이드 오퍼레이터 도입으로 드루이드 설치부터 관리까지의 과정 개선 Part.3 Druid Tuning:.. 2023. 9. 21.
데이터세이커는 계속 진행중 [설문 이벤트] 잘 지내셨어요? 휴가는 다녀오셨구요? 데이터세이커는 잘 있습니다. IT 풀스택 모니터링 SaaS 솔루션 '데이터세이커'만 있었다면, 휴가지에서 예상치 못한 장애가 발생할지 몰라 진동으로 해놓은 문자나 벨이 울릴 때마다 초조해하거나, 손에서 핸드폰을 놓지 못하고 계속 들여다보지는 않으셔도 됐었을 텐데요. 내가 예상할 수 없는 불안한 상황에 전전긍긍해 하지 마시고, 나 대신 일할 든든한 보초병을 한 명 세워두시면 어떠세요? 한 명이 아닌 열 명 이상의 몫을 해낼겁니다. 데이터세이커가요! (참고로 외국인 친구는 아님) 다시 찾을 휴가지에서, 곧 다가올 명절에 다리 쭉 펴고 자고 싶으신 IT 운영자님들, 데이터세이커가 어떤 솔루션인지 궁금하다면 이번 기회에 무료로 이용해 보세요. 설치가 어렵다면 지원도 가능하구.. 2023. 8. 31.
Chapter 4. 신경망과 딥러닝 Chapter 4. 신경망과 딥러닝 앞서 Chapter 3에서 머신 러닝이 무엇인지 살펴보았다. 이번 챕터에서는 딥 러닝의 정의가 무엇인지에서 시작하여 딥 러닝에 대해 심층적으로 알아보고자 한다. 딥 러닝이란 무엇인가? 딥 러닝은 머신 러닝에 포함된 하위 개념으로 머신 러닝이 알고리즘을 이용해서 데이터를 분석하고, 분석을 통해 학습하여 그것을 기반으로 하여 판단이나 예측을 하는 것인 반면 딥 러닝은 더 나아가 컴퓨터가 사람처럼 인식하고 학습할 수 있는 것을 말한다. 이러한 딥 러닝 알고리즘은 XAIOps의 장단기 부하예측에서 사용하고 있다. 딥 러닝이 무엇인가 알기 위해서는 인공 신경망을 먼저 알아야한다. 인공 신경망은 뇌에 있는 생물학적 뉴런의 네트워크에서 영감을 받은 머신 러닝 모델이다. 뉴런의 구조.. 2023. 8. 31.
DB 인사이드 | PostgreSQL HOT - 3. Fillfactor와 HOT Update 시작하며 본 문서에서는 HOT Update와 Single-page Vacuuming의 효과를 확인하기 위한 테스트를 진행합니다. 테스트 결과를 통해 Fillfactor 설정에 따라 어떤 차이가 있는지 확인해 보겠습니다. 📢 HOT Update, Single-page Vacuuming, Fillfactor에 대한 개념은 해당 시리즈의 1. Page와 관리 글에 설명되어 있으니 참고하시기 바랍니다. TEST 환경 구성 설정 1만 건의 데이터를 가지고 있는 테이블 생성 (autovacuum_enabled=false) 100만 건의 Row Update 수행 수행 완료 후, 결과 확인 Fillfactor값을 100→75→50→30으로 변경하며 동일 과정 반복 참고 Script 1) 테스트 데이터 생성 ## TES.. 2023. 8. 31.
이.빅.스. | Flamingo의 오픈소스 안녕하세요. 이.빅.스 시리즈 여섯 번째 시간이자 마지막 시간입니다. 이번 편에서는 이.빅.스의 모니터링과 서비스 운영, 관리의 역할을 하고 있는 플라밍고에 사용된 오픈소스들을 소개하고자 합니다. 개발자 생태계에는 수많은 오픈소스가 존재합니다. 폐쇄적으로 개발해오던 예전과 달리 기업이나 개발자 개개인들이 자신의 프로젝트를 공개하고, 최신 기술 정보와 문제점을 공유함으로써 더 나은 개발 환경을 만들어 나가고 있습니다. 공개된 오픈 소스를 사용함으로써 새 소프트웨어를 개발하는데 드는 비용을 절감하고 검증된 소스를 통해 안정성 있는 서비스를 제공할 수 있는 환경이 되었습니다. 플라밍고 역시 수많은 오픈소스 라이브러리를 활용해 개발되었습니다. Vue.js 플라밍고는 프론트엔드 프레임워크로 Vue.js를 사용하고.. 2023. 8. 31.