머신러닝:의사결정트리

스무고개 게임과 비슷.
목표 : 정답을 맞힌다.
전략 : 한번에 질문 하나씩 던져 가능성 줄인다.
핵심 : 가장 좋은 질문을 먼져 던져야한다.

정답이 “사자”일떄,
나쁜 질문 : 사자인가요?
좋은 질문 : “동물인가요?

왜 사자인가요가 나쁜질문인가? 한번에 답이 나왔는데?
이유는 모델을 만드는 목적이 단순 답을 맞추는것이 아닌 어떠한 질문을 통해 모델 만들기라서 그럼.
사자인가요? 는 그냥 끝남. 하지만 돌물인가요? 는 동물로 OX 가 갈림으로 동물이라는 정의가 담김 (= 정보 이득)

  • 노드 : 데이터를 나누는 분기점(질문 지점) = 질문 하나하나
    • 노드의 종류
      • 루트 노드 (Root Node): 나무의 맨 꼭대기에 있는 첫 번째 질문 지점
      • 중간 노드 (Internal Node): 루트와 리프 사이의 모든 중간 질문 지점들
      • 리프 노드 (Leaf Node): 나무의 맨 끝에 달려있는 최종 결론(정답)


  • 엔트로피 (Entropy): 불확실성(uncertainty) 또는 혼잡도를 수치로 나타낸 값.
    • 정보이론에서 유래되어 값 높을수록 데이터 섞여 예측 어렵고 0에 가까울수록 한 종류의 데이터만 있어 예측 쉽다는 의미.


  • 지니계수 (Gini Index) : 엔트로피와 마찬가지로 불확실성을 측정하는 지표.
    • 엔트로피보다 계산 속도가 조금 더 빨라 자주 사용
    • 엔트로피와 마찬가지로 값이 높을수록 불확실하고, 0에 가까울수록 확실


  • 정보 이득 (Information Gain) : '좋은 질문'이란 불확실성을 가장 많이 줄여주는 질문이며 이 불확실성의 감소량을 정보 이득이라고 함.


질문 후 정보이득 = 진문 전 엔트로피 - 질문 후 엔트로피 =⇒ gain(T,X) = Entropy(T)-Entropy(T,X) Entropy = 시그마^m_i=1 -pi log2 pi Entorpy = 시그마_c=X P©E©

다중분류

  • 머신러닝/의사결정트리.txt
  • Last modified: 2025/10/03 13:01
  • by masteraccount