본문 바로가기
Feature Engineering : 데이터 정제와 가공 1. AI 모델 성능을 위한 효과적인 데이터 준비 과정오늘날 AI 발전의 핵심은 단순한 기술 혁신을 넘어, 데이터의 품질과 세밀한 가공 과정에 의해 결정됩니다. 데이터는 이제 AI 모델링의 근본 자원이며, 이를 어떻게 다듬고 활용하느냐에 따라 예측력과 신뢰성이 달라집니다. 이러한 과정에서 피처 엔지니어링(Feature Engineering)은 AI 모델의 성공을 좌우하는 핵심 단계로 자리 잡았습니다.  피처 엔지니어링은 간단히 말해, 예측 모델의 성능을 높이기 위해 기존 데이터를 가공하고 새로운 특성을 만드는 과정입니다. 이를 통해 AI가 단순한 정보 분석을 넘어 중요한 패턴을 찾고 신뢰성 있는 예측을 수행할 수 있게 됩니다. 마치 모래성을 쌓을 때, 흩어진 모래를 적절히 다지고 물을 더해 견고한 구조를.. 2024. 10. 31.
AWS Summit, exemONE과 함께한 파티 현장 5월의 말미에 인사드려요. 여러분, 5월 잘 지내셨나요? 지출의 달, 가정의 달이라 불리는 이 달에 새로운 IT 기술 트렌드를 소개하고 영감을 주는 빅 이벤트가 두 개나 있었어요. 코엑스에서 열린 AI EXPO KOREA와 AWS Summit입니다. 바로 지금 여러분들 덕분에 참 즐거웠던 AWS Summit 현장으로 초대합니다. 그리고 놓치면 안 되는 기술 트렌드들을 함께 짚어볼게요. 📝📝 AWS Summit 현장으로 초대합니다! Welcome to the Party!   올해 10주년을 맞이한 AWS Summit은 IT인들의 향연(饗宴)이라고 해도 과언이 아닐 정도로 한국뿐만 아니라 해외에서도 많든 분들이 찾아오셨어요. 은근한 조명과 행사장에 시종일관 깔렸던 BGM까지 굉장히 힙하고 활기찬 느낌이라.. 2024. 5. 30.
이.빅.스 | 빅데이터 가치를 위한 데이터 시각화 안녕하세요. 이.빅.스 시리즈 어느덧 다섯 번째 시간입니다. 이번 편에서는 데이터 시각화에 대해 알아보겠습니다. 빅데이터를 시각화하기 위한 여러가지의 방법들이 있습니다. 먼저, 데이터 유형에 따라서 차트를 선택하고 목적에 맞게 시각화를 해야합니다. 위 그림과 같이 앤드루 아벨라가 고안한 목적에 따른 차트 선택 방법에는, 비교를 위한 차트는 막대 차트와 선 차트를 사용하며, 전체 데이터 중 특정 항목이 차지하는 비중을 보기 위한 구성을 위한 차트는 파이 차트, 시간에 따른 변화의 유무는 세로 칼럼 차트와 가로 칼럼 차트로 구분하여 사용할 수 있습니다. 위 지표는 엑셈에서 프로젝트를 수행한 서울시 인공지능 기반 빅데이터 서비스 플랫폼(2단계)에서 데이터를 시각화한 화면입니다. 데이터 타입에 맞게 유형별로 시.. 2023. 7. 25.
Chapter 3-7. GAM 이론 및 실습 Chapter 3-7. GAM 이론 및 실습 일반적인 선형 회귀분석은 모형의 단순성으로 인해 해석과 추론이 쉽다는 장점이 있으나 예측력이라는 중요한 부분에서 한계를 가진다. 선형모형은 회귀 문제에서 독립변수와 예측변수가 선형적 관계가 있다고 가정한다. 이러한 가정이 맞는 경우도 있지만 부정확한 경우도 얼마든지 존재한다. 일반화 가법 모형(Generalized Additive Model)은 선형 가정을 완화시키는 가장 강력한 추론 방법이다. 일반화 가법 모형과 선형회귀 모형의 차이를 간단한 예제를 통해 설명하겠다. R MASS 패키지에 포함되어 있는 mcycle 데이터는 모터사이클 사고 모의실험을 통해 머리의 가속과 감속을 측정한 자료이다. 해당 데이터에서 times 필드는 충돌 후 시간(millsecon.. 2023. 6. 29.
Chapter 3-6. 차원 축소 Chapter 3-6. 차원 축소 머신러닝에 대해 공부하다 보면 차원의 저주 (Curse of Dimension) 라는 이야기를 종종 보게 될 것이다. 본 챕터에서는 "차원의 저주" 란 무엇인지 설명하고, 이 문제를 해결하기 위한 차원 축소 기법에 대해서 알아보도록 하자. 차원의 저주 (Curse of Dimension) 현실 세계에서 우리가 다루게 될 데이터는 굉장히 다양하고 많은 특성들을 가지고 있다. 예를 들어, "영화"라는 데이터를 예시로 설명하자면, "영화"라는 데이터를 나타내기 위한 특성으로는 영화의 제목, 개봉 시기, 장르, 감독, 배우, 예산, 시리즈 유무, 평점, 누적 관객 수, 수익 등 수 많은 특성들이 존재한다. 데이터 특성의 수가 많다라는 것은 머신러닝 학습 시 훈련 시간의 증가와 .. 2023. 5. 25.
KNIME | KNIME을 활용한 이미지 분석 이번 Part에서는 KNIME으로 이미지 분석을 하는 방법에 대해 알아보고자 해요! Part. 1 KNIME이라고 들어봤어요? (링크) Part. 2 데이터 처리는 알겠는데 전처리는 뭐예요? (링크) Part. 3 잘 안 보이니까 시각화 해주세요! (링크) Part. 4 KNIME을 활용한 이미지 분석 Q1. 이미지 분석이란 무엇인가요? A1. 컴퓨터에서 이미지란 화면을 구성하는 가장 기본 단위인 픽셀의 집합이라고 생각하시면 될 것 같아요! 즉, 디지털 데이터로 표현이 가능한 카메라로 찍은 사진, 동영상, 일러스트레이션 등이 있어요. 이미지 분석에는 여러 개의 분야들이 있는데, 이미지 내의 물건이나 사람과 같이 개체를 탐지할 수 있고, 특정 기준으로 이미지를 분류할 수도 있어요. 개체 탐지 이미지 분류 .. 2023. 4. 27.
이.빅.스 | 실시간 데이터는 어떻게 활용할 수 있을까? 안녕하세요. 세 번째 이.빅.스 입니다. 이번 달은 실시간 데이터 활용에 대해서 알아볼게요. 실시간 데이터는 수집되는 즉시 사용할 수 있는 데이터로, 주로 우리에게 친숙한 환경에서 발생합니다. 스마트폰을 이용한 음악 듣기, SNS 게시물 공유, 그리고 Netflix, Youtube 등 영상 스트리밍 서비스를 이용한 시청 방식 또한 실시간 데이터를 활용한 대표적인 예라고 볼 수 있습니다. 이처럼 스트리밍이 가능하게 된 계기는, 네트워크 속도가 빨라지고 이 네트워크 성능을 받쳐 줄 하드웨어가 발전해 왔기 때문이겠죠? 그렇다면 실시간 데이터는 어떻게 만들어지고 관리되는 걸까요. 실시간 데이터는 인터넷 검색, 센서, 소셜 미디어, 모바일 기기 등 여러 소스를 통해 생성되고, 저장하는 방법 또한 다양합니다. 예를.. 2023. 3. 30.
Chapter 2-3. 기초 시계열 분석 Chapter 2-3. 기초 시계열 분석 이번 장에서는 시계열 분석에서 자주 나오는 용어 및 알아야 할 개념들을 간단하게 정리해보고자 한다. 확률과정(Stochastic Process) 확률과정은 확률변수들의 수열이다. 즉, {Y(t), t = 0, ±1, ±2, ...} 형태로 나타낼 수 있으며, 시계열 데이터를 이해하려면 Y(t) 들의 결합 확률 분포를 분석해야 한다. 왜냐하면, 일반적인 시계열 데이터는 독립이 아니기 때문에, 결합 확률 분포를 각 확률 변수의 분포들로 분해할 수 없기 때문이다. 하지만, 평균과 분산을 분석하면 결합 확률 분포의 많은 부분을 이해할 수 있다. 평균, 분산, 공분산, 상관계수 앞서 Chapter 1. 기초 선형대수 및 통계학에서 간단하게 소개한 개념들을 수식으로 알아보자.. 2022. 10. 26.
Chapter 2. Numpy 2편 : Time Series 머신러닝을 위한 Python 필수 라이브러리 1편에서는 array의 생성 방법과 타입 확인, 텐서 차원 등을 실습해 보았다면, 2편에서는 array를 직접 적용하여 실습해 보고자 한다. 2-4. numpy 인덱싱, 슬라이싱, 전치행렬 2-4-1. 인덱싱 인덱싱은 Python 리스트와 동일한 개념으로 사용되고, ‘,’(쉼표)를 통해 각 차원의 인덱스에 접근이 가능하다. 그리고 Ndarray에서 원하는 좌표 또는 특정 데이터만을 선택하는데 유용하게 사용된다. 이때 인덱싱을 할 때 0번부터 인덱스가 시작하는 것을 주의하고, 원하는 축을 지정하려면 axis를 통해 선택할 수 있다. 인덱싱 종류로는 '특정 데이터만 추출', '슬라이싱', '팬시 인덱싱', '불리언 인덱싱' 등이 있다. 인덱싱 및 슬라이싱 '특정 데이터만 추출'은 말 그대로 원하는 위치의 인.. 2022. 7. 27.