본문 바로가기
KNIME | 데이터 처리는 알겠는데 전처리는 뭐예요? Part. 1에서는 KNIME에 대해 간략하게 설명해 드렸어요! 이번 시간에는 데이터 분석의 첫 단계인 데이터 전처리에 대해 말씀드릴게요. Part. 1 KNIME이라고 들어봤어요? (링크) Part. 2 데이터 전처리 Q1. 데이터도 알겠고, 처리도 알겠는데, 전처리는 뭔가요? A1. 전처리라는 용어는 말 그대로 ‘전’ + ‘처리’, 작업을 하기 전 원재료를 가공하는 것을 말해요. 영어로는 ‘preprocessing’ 이라고 하죠! 예를 들면, 데이터의 형태를 통일시켜야 할 때가 있어요! 왼쪽 생년월일을 보면 여러 형식으로 저장되어 있어요! 모든 방식이 날짜를 뜻하지만, 숫자의 길이도 다르고 숫자 사이를 구분하는 문자(‘-‘ 나 ‘/’)도 다르죠? 보기에도 힘들고, 컴퓨터조차 날짜로 인식하지 못해요. .. 2022. 11. 23.
Chapter 2-3. 기초 시계열 분석 Chapter 2-3. 기초 시계열 분석 이번 장에서는 시계열 분석에서 자주 나오는 용어 및 알아야 할 개념들을 간단하게 정리해보고자 한다. 확률과정(Stochastic Process) 확률과정은 확률변수들의 수열이다. 즉, {Y(t), t = 0, ±1, ±2, ...} 형태로 나타낼 수 있으며, 시계열 데이터를 이해하려면 Y(t) 들의 결합 확률 분포를 분석해야 한다. 왜냐하면, 일반적인 시계열 데이터는 독립이 아니기 때문에, 결합 확률 분포를 각 확률 변수의 분포들로 분해할 수 없기 때문이다. 하지만, 평균과 분산을 분석하면 결합 확률 분포의 많은 부분을 이해할 수 있다. 평균, 분산, 공분산, 상관계수 앞서 Chapter 1. 기초 선형대수 및 통계학에서 간단하게 소개한 개념들을 수식으로 알아보자.. 2022. 10. 26.
Trend Report | 2022 옵저버빌리티 전망(Observability Forecast) 5분 요약 자~ 오늘 5분 OT(Observability Talk)에 오신 여러분, 진심으로 환영합니다. 자유롭게 앉아주시고요~ 그럼 지금부터 딱 5분 동안 제가 요즘 흥미 있게 살펴봤던 두 가지 보고서 내용을 요약해드릴 테니까 집중하세요~ 오늘 살펴볼 두 개의 보고서의 출처 및 개요 2022 옵저버빌리티 현황 보고서(splunk) 설문 참여자: 1,250명 이상의 옵저버빌리티 분야 실무자, 관리자 및 전문가 참여 대상국: 호주, 캐나다, 프랑스, 독일, 인도, 일본, 뉴질랜드, 싱가포르, 영국, 미국 등 11개 국가 옵저버빌리티 분야라고 하면, 본인의 업무 시간의 절반 이상을 옵저버빌리티 관련 업무에 활용하고 있다는 뜻. 2022 옵저버빌리티 전망 보고서(New Relic) 설문 참여자: 1,614명(경영진 및 .. 2022. 10. 26.
이.빅.스 l 이만큼 재미있는 빅데이터 스토리, 시작! 처음 뵙겠습니다, EBIGs 인사드립니다! 🙏🏻 이번달 부터 격월로 엑셈의 빅데이터 플랫폼인 EBIGs를 통해 빅데이터의 활용과 전처리, 시각화 등에 대해서 소개하려고 합니다. 가장 첫 시작은, 역시 자기소개를 드려야겠죠? EBIGs의 아키텍처와 주요기능에 대해 먼저 이야기해볼까 합니다. 기존에 널리 사용되었던 HDP, CDH가 합병 및 전면 유료화를 선언하면서 많은 부담을 느낀 기업들이 차츰 Apache Hadoop의 도입을 고민하게 되었죠. EBIGs는 이에 맞추어 비즈니스에 효율적으로 적용시킬 수 있는 Hadoop Eco System으로 구성하였으며, Hadoop Eco System의 운영관리, 보안 설정, 사용자 관리, 성능 모니터링 등의 다양한 기능을 제공하고 있답니다. 위 그림과 같이, EBI.. 2022. 10. 26.
DB 인사이드 | PostgreSQL Setup - Major Upgrade ※ 목차 ※ Major Upgrade Test Data Major Upgrade Using pg_dumpall Major Upgrade Using pg_dump Major Upgrade Using pg_upgrade Major Upgrade Using pg_upgrade Link Option Major Upgrade Using pg_upgradecluster(Only Debian계열) PostgreSQL의 신규 기능들을 사용하기 위해서, 혹은 EOL 등의 이유로 PostgreSQL 업그레이드를 고려할 수 있습니다. Major버전 업그레이드의 경우 시스템 테이블과 Data 파일의 내부 아키텍처의 변화에 따라 버전 간의 호환성이 유지되지 않기 때문에 pg_dump, pg_restore, pg_upgrade .. 2022. 9. 28.
Chapter 2-2. 시계열 데이터 전처리 Chapter 2-2. 시계열 데이터 전처리 앞서 Chapter 2에서는 numpy와 pandas를 이용하여 데이터 구조를 변형하는 방법에 대하여 알아보았다. 이번 챕터에서는 pandas에서 제공하는 시계열 도구와 가장 널리 쓰이는 타임스탬프(timestamp)라는 구조를 사용하여 설명할 것이다. 먼저, Datetime이라는 파이썬 라이브러리에서 제공하는 datetime을 사용하여 현재 날짜 및 시간을 알아보고, timedelta를 사용하여 시간적 차이를 표현해보자. In [1]: from datetime import datetime now = datetime.now() now Out[1]: datetime.datetime(2022, 5, 20, 11, 42, 5, 90657) Timedelta를 이용하.. 2022. 9. 28.
DB 인사이드 | PostgreSQL Setup - Minor Upgrade ※ 목차 ※ Upgrade PostgreSQL Minor Version on Linux Upgrade PostgreSQL Minor Version on Windows Upgrade PostgreSQL Minor Version on Linux 목차 PostgreSQL의 Minor버전 릴리즈는 Major버전의 아키텍처를 변경(변형) 하지 않는 선에서 자주 발생하는 버그, 보안 및 데이터 손상 문제에 대해서만 수정된 내용을 제공합니다. Major버전 내부 아키텍처 변경이 없기 때문에 Minor버전 간의 호환성을 유지할 수 있습니다. Linux에서 Minor Version Upgrade는 세가지 방법이 존재합니다. 첫 번째로, yum, apt를 통한 Minor Upgrade가 있습니다. 인터넷이 연결되어 있고,.. 2022. 9. 28.
고객사례 | 하이브리드 클라우드 E2E 모니터링 환경 구축 온프레미스와 클라우드를 함께, 하이브리드 클라우드로 전환 많은 기업들이 기존 온프레미스 환경의 단점을 극복하고 더 나은 서비스를 제공하기 위해 클라우드 환경으로의 전환을 고려한다. 기존에는 클라우드 전환 시 데이터 중력, 보안, 다른 시스템과의 높은 상호 의존성 등의 문제로 전환 비율이 낮았지만, 점차 위와 같은 문제를 극복할 수 있는 하이브리드 클라우드 형태를 선택하는 기업들이 많아지고 있다. *하이브리드 클라우드 : 클라우드 구축 시 외부 인프라를 이용하는 ‘퍼블릭 클라우드’와 자체 인프라를 활용하는 ‘프라이빗 클라우드’ 또는 기업 내에 서버 설치·운영하는 ‘온프레미스’가 조합된 서버 이용 환경 하이브리드 환경은 온프레미스 레거시 인프라도 포함할 수 있기 때문에 클라우드로 이전할 수 있는 애플리케이션.. 2022. 9. 28.
KNIME | KNIME이라고 들어봤어요? 코딩 없이도 데이터 분석을 할 수 있다 NOW 엑셈 뉴스레터를 통해 데이터 분석 플랫폼인 ‘KNIME’에 대해서 설명을 드리려고 해요. 총 5 Part로 나누어 진행되니 기대해주세요! Part.1 KNIME Q1. KNIME이 무엇인가요? A1. 질문에 답하기 전에 데이터 분석을 먼저 알아볼까 해요. 데이터 분석이란, 원시데이터를 가공해 의미있는 데이터를 만들고 의사 결정에 도움이 되는 정보를 이끌어내는 것을 뜻해요. 원시데이터는 여러가지가 될 수 있어요! 키, 댐 수위 변화, 평점, 성별, 나이, 뉴스기사, 음성, 사진(각각 연속형, 시계열, 이산형, 이진데이터, 문자열, 소리, 이미지 데이터) 등을 예로 들 수 있겠네요. 이러한 원시데이터를 사람이 직접 톺아보며 유의미한 정보를 찾기에는 매우 번잡하고.. 2022. 9. 27.