의사결정트리(decision tree)
개념
스무고개 게임과 비슷.
목표 : 정답을 맞힌다.
전략 : 한번에 질문 하나씩 던져 가능성 줄인다.
핵심 : 가장 좋은 질문을 먼져 던져야한다.
예문과 개념 되짚기
정답이 “사자”일떄,
나쁜 질문 : 사자인가요?
좋은 질문 : “동물인가요?
왜 사자인가요가 나쁜질문인가? 한번에 답이 나왔는데?
이유는 모델을 만드는 목적이 단순 답을 맞추는것이 아닌 어떠한 질문을 통해 모델 만들기라서 그럼.
사자인가요? 는 그냥 끝남. 하지만 돌물인가요? 는 동물로 OX 가 갈림으로 동물이라는 정의가 담김 (= 정보 이득)
주요단어
- 노드 : 데이터를 나누는 분기점(질문 지점) = 질문 하나하나
- 노드의 종류
- 루트 노드 (Root Node): 나무의 맨 꼭대기에 있는 첫 번째 질문 지점
- 중간 노드 (Internal Node): 루트와 리프 사이의 모든 중간 질문 지점들
- 리프 노드 (Leaf Node): 나무의 맨 끝에 달려있는 최종 결론(정답)
- 엔트로피 (Entropy): 불확실성(uncertainty) 또는 혼잡도를 수치로 나타낸 값.
- 정보이론에서 유래되어 값 높을수록 데이터 섞여 예측 어렵고 0에 가까울수록 한 종류의 데이터만 있어 예측 쉽다는 의미.
- 지니계수 (Gini Index) : 엔트로피와 마찬가지로 불확실성을 측정하는 지표.
- 엔트로피보다 계산 속도가 조금 더 빨라 자주 사용
- 엔트로피와 마찬가지로 값이 높을수록 불확실하고, 0에 가까울수록 확실
- 정보 이득 (Information Gain) : '좋은 질문'이란 불확실성을 가장 많이 줄여주는 질문이며 이 불확실성의 감소량을 정보 이득이라고 함.
질문 후 정보이득 = 진문 전 엔트로피 - 질문 후 엔트로피 =⇒ gain(T,X) = Entropy(T)-Entropy(T,X) Entropy = 시그마^m_i=1 -pi log2 pi Entorpy = 시그마_c=X P©E©
다중분류