Chapter 3-6. 차원 축소
Chapter 3-6. 차원 축소 머신러닝에 대해 공부하다 보면 차원의 저주 (Curse of Dimension) 라는 이야기를 종종 보게 될 것이다. 본 챕터에서는 "차원의 저주" 란 무엇인지 설명하고, 이 문제를 해결하기 위한 차원 축소 기법에 대해서 알아보도록 하자. 차원의 저주 (Curse of Dimension) 현실 세계에서 우리가 다루게 될 데이터는 굉장히 다양하고 많은 특성들을 가지고 있다. 예를 들어, "영화"라는 데이터를 예시로 설명하자면, "영화"라는 데이터를 나타내기 위한 특성으로는 영화의 제목, 개봉 시기, 장르, 감독, 배우, 예산, 시리즈 유무, 평점, 누적 관객 수, 수익 등 수 많은 특성들이 존재한다. 데이터 특성의 수가 많다라는 것은 머신러닝 학습 시 훈련 시간의 증가와 ..
2023. 5. 25.
Chapter 2-3. 기초 시계열 분석
Chapter 2-3. 기초 시계열 분석 이번 장에서는 시계열 분석에서 자주 나오는 용어 및 알아야 할 개념들을 간단하게 정리해보고자 한다. 확률과정(Stochastic Process) 확률과정은 확률변수들의 수열이다. 즉, {Y(t), t = 0, ±1, ±2, ...} 형태로 나타낼 수 있으며, 시계열 데이터를 이해하려면 Y(t) 들의 결합 확률 분포를 분석해야 한다. 왜냐하면, 일반적인 시계열 데이터는 독립이 아니기 때문에, 결합 확률 분포를 각 확률 변수의 분포들로 분해할 수 없기 때문이다. 하지만, 평균과 분산을 분석하면 결합 확률 분포의 많은 부분을 이해할 수 있다. 평균, 분산, 공분산, 상관계수 앞서 Chapter 1. 기초 선형대수 및 통계학에서 간단하게 소개한 개념들을 수식으로 알아보자..
2022. 10. 26.
Chapter 2. Numpy 2편 : Time Series 머신러닝을 위한 Python 필수 라이브러리
1편에서는 array의 생성 방법과 타입 확인, 텐서 차원 등을 실습해 보았다면, 2편에서는 array를 직접 적용하여 실습해 보고자 한다. 2-4. numpy 인덱싱, 슬라이싱, 전치행렬 2-4-1. 인덱싱 인덱싱은 Python 리스트와 동일한 개념으로 사용되고, ‘,’(쉼표)를 통해 각 차원의 인덱스에 접근이 가능하다. 그리고 Ndarray에서 원하는 좌표 또는 특정 데이터만을 선택하는데 유용하게 사용된다. 이때 인덱싱을 할 때 0번부터 인덱스가 시작하는 것을 주의하고, 원하는 축을 지정하려면 axis를 통해 선택할 수 있다. 인덱싱 종류로는 '특정 데이터만 추출', '슬라이싱', '팬시 인덱싱', '불리언 인덱싱' 등이 있다. 인덱싱 및 슬라이싱 '특정 데이터만 추출'은 말 그대로 원하는 위치의 인..
2022. 7. 27.