====== 엔트로피 (Entropy) ====== > 정보이론(Information Theory)의 핵심개념으로, 불확실성(Uncertainty)의 양을 측정하는 지표. ====개념==== 어떤 데이터 집합이 **얼마나 예측하기 어려운가(혼란스러운가)**를 숫자로 나타낸 것.\\ * 엔트로피가 높다 = 데이터가 여러 종류로 마구 섞여 있어, 다음에 나올 것을 예측하기 어렵다. (높은 불확실성, 무질서) \\ * 엔트로피가 낮다 = 엔트로피가 낮다: 데이터가 대부분 한 종류로 되어 있어, 다음에 나올 것을 예측하기 쉽다. (낮은 불확실성, 질서) 트럼프카드 52장짜리가 섞여있을떄,\\ 카드가 모두 달라서 뭐 나올지 모름 최대 엔트로피 \\ 카드가 모두 똑같아서 뭐 나올지 알면 최소 엔트로피 = 0 \\ \\ \\ ====공식==== $ \Large Entropy(S) = \sum_{i=1}^{c} -p_i \log_2(p_i) $ \\ \\ \\ ===변수설명=== S : 엔트로피를 계산하려는 대상이 되는 **전체 데이터 집합 (시스템)** \\ c : 데이터 집합 S 안에 들어있는 고유한 클래스(종류)의 총 개수 \\ i: 각 클래스를 하나씩 가리키기 위한 순번 \\ pᵢ (p의 i번째): i번째 클래스가 데이터 집합 S 안에서 **나타날 확률 (또는 차지하는 비율)** \\ (i번째 클래스 데이터 수 / 전체 데이터 수 로 계산) \\ \\ \\ ===예시=== 사과6개와 바나나2개, 총 8개의 과일이 담긴 바구니 **(S)**가 있다고 가정.\\ \\ **변수정리** * **S**: 과일 8개가 담긴 바구니 전체 * **c**: 과일의 종류는 사과, 바나나 총 **2가지** * **i**: 클래스를 가리키는 순번 (1: 사과, 2: 바나나) * **p,,i,,**: 각 클래스의 확률 * **p,,1,, (사과일 확률)**: 8개 중 6개이므로 6/8 = **0.75** * **p,,2,, (바나나일 확률)**: 8개 중 2개이므로 2/8 = **0.25** **계산**\\ $ Entropy(S) = (-p,,사과,, log,,2,,(p,,사과,,)) + (-p,,바나나,, log,,2,,(p,,바나나,,)) $ \\ $ Entropy(S) = (-0.75 × log,,2,,(0.75)) + (-0.25 × log,,2,,(0.25)) $ \\ $ Entropy(S) = (-0.75 × -0.415) + (-0.25 × -2) $ \\ $ Entropy(S) = 0.311 + 0.5 $ \\ $ Entropy(S) = 0.811 $ \\