This is an old revision of the document!
머신러닝 기본개념
개념
머신러닝이란 데이터 + 특정 알고리즘을 기반으로
입력 → 출력이 아닌, 입력 → 추론을 거치는 프로그램이다.
수집된 데이터를 토대로 어떤 알고리즘을 선택할지가 중요하다.
필요수학
선형대수, 통계, 정보이론, 확률
머신러닝 모델 구축 순서 및 단계별 주요 활동
1. 문제 정의 (Problem Definition)
- 주요 활동: 풀고 싶은 문제가 분류(Classification)인지, 회귀(Regression)인지, 군집화(Clustering)인지 등을 명확히 정의합니다.
- 산출물: “스팸 메일을 분류하는 모델”과 같은 구체적인 목표.
2. 데이터 획득 (Data Acquisition)
- 주요 활동: 모델 학습에 필요한 데이터를 수집하고, EDA(탐색적 데이터 분석)를 통해 데이터의 특징을 파악합니다.
- 산출물: 학습 및 평가에 사용할 원본 데이터셋 (Raw Dataset).
3. 데이터 준비 (Data Preparation)
- 주요 활동: 데이터를 정제하고, 결측치를 처리하며, 모델이 학습하기 좋은 형태로 가공(전처리, Preprocessing)합니다. 훈련/검증/테스트 세트로 분할합니다.
- 산출물: 전처리가 완료된 학습용/검증용/테스트용 데이터셋.
4. 모델 구현 (Model Implementation)
- 주요 활동: 정의된 문제에 맞는 알고리즘(예: KNN, 결정 트리)을 선택하고, 준비된 학습용 데이터로 모델을 학습(Training)시킵니다.
- 산출물: 데이터의 패턴을 학습한 모델 객체.
5. 평가 및 튜닝 (Evaluation & Tuning)
- 주요 활동: 검증 데이터로 모델의 성능(정확도, F1 점수 등)을 평가하고, 더 좋은 성능을 위해 하이퍼파라미터를 조정(Tuning)합니다.
- 산출물: 최적화된 모델과 성능 평가 보고서.
6. 배포 및 테스트 (Deployment & Testing)
- 주요 활동: 최종 선택된 모델을 실제 서비스 환경에 적용(배포)하거나, 최종 테스트 데이터로 마지막 성능을 테스트합니다.
- 산출물: 실제 환경에서 작동하는 머신러닝 서비스 또는 최종 성능 점수.