=====머신러닝 기본개념===== ====개념==== 머신러닝이란 데이터 + 특정 알고리즘을 기반으로 \\ 입력 -> 출력이 아닌, 입력 -> 추론을 거치는 프로그램이다.\\ 수집된 데이터를 토대로 어떤 알고리즘을 선택할지가 중요하다. \\ \\ ====필요수학==== 선형대수, 통계, 정보이론, 확률\\ \\ ====머신러닝 모델 구축 순서 및 단계별 주요 활동==== === 1. 문제 정의 (Problem Definition) === * 주요 활동: 풀고 싶은 문제가 **분류(Classification)**인지, **회귀(Regression)**인지, **군집화(Clustering)**인지 등을 명확히 정의합니다. * 산출물: "스팸 메일을 **분류**하는 모델"과 같은 구체적인 목표. === 2. 데이터 획득 (Data Acquisition) === * 주요 활동: 모델 학습에 필요한 데이터를 수집하고, EDA(탐색적 데이터 분석)를 통해 데이터의 특징을 파악합니다. * 산출물: 학습 및 평가에 사용할 원본 데이터셋 (Raw Dataset). === 3. 데이터 준비 (Data Preparation) === * 주요 활동: 데이터를 **정제**하고, 결측치를 처리하며, 모델이 학습하기 좋은 형태로 **가공**(전처리, Preprocessing)합니다. **훈련/검증/테스트 세트로 분할**합니다. * 산출물: 전처리가 완료된 학습용/검증용/테스트용 데이터셋. === 4. 모델 구현 (Model Implementation) === * 주요 활동: 정의된 문제에 맞는 알고리즘(예: KNN, 결정 트리)을 선택하고, 준비된 학습용 데이터로 모델을 **학습(Training)**시킵니다. * 산출물: 데이터의 패턴을 학습한 모델 객체. === 5. 평가 및 튜닝 (Evaluation & Tuning) === * 주요 활동: 검증 데이터로 모델의 성능(정확도, F1 점수 등)을 **평가**하고, 더 좋은 성능을 위해 하이퍼파라미터를 **조정(Tuning)**합니다. * 산출물: 최적화된 모델과 성능 평가 보고서. === 6. 배포 및 테스트 (Deployment & Testing) === * 주요 활동: 최종 선택된 모델을 실제 서비스 환경에 적용(배포)하거나, 최종 테스트 데이터로 마지막 성능을 **테스트**합니다. * 산출물: 실제 환경에서 작동하는 머신러닝 서비스 또는 최종 성능 점수. \\ \\ 참고 : 정답 = 실제값 = 레이블 = 타깃 = y값 \\