엔트로피 (Entropy)
정보이론(Information Theory)의 핵심개념으로, 불확실성(Uncertainty)의 양을 측정하는 지표.
개념
어떤 데이터 집합이 얼마나 예측하기 어려운가(혼란스러운가)를 숫자로 나타낸 것.
- 엔트로피가 높다 = 데이터가 여러 종류로 마구 섞여 있어, 다음에 나올 것을 예측하기 어렵다. (높은 불확실성, 무질서)
- 엔트로피가 낮다 = 엔트로피가 낮다: 데이터가 대부분 한 종류로 되어 있어, 다음에 나올 것을 예측하기 쉽다. (낮은 불확실성, 질서)
트럼프카드 52장짜리가 섞여있을떄,
카드가 모두 달라서 뭐 나올지 모름 최대 엔트로피
카드가 모두 똑같아서 뭐 나올지 알면 최소 엔트로피 = 0
공식
$ \Large Entropy(S) = \sum_{i=1}^{c} -p_i \log_2(p_i) $
변수설명
S : 엔트로피를 계산하려는 대상이 되는 전체 데이터 집합 (시스템)
c : 데이터 집합 S 안에 들어있는 고유한 클래스(종류)의 총 개수
i: 각 클래스를 하나씩 가리키기 위한 순번
pᵢ (p의 i번째): i번째 클래스가 데이터 집합 S 안에서 나타날 확률 (또는 차지하는 비율)
(i번째 클래스 데이터 수 / 전체 데이터 수 로 계산)
예시
사과6개와 바나나2개, 총 8개의 과일이 담긴 바구니 (S)가 있다고 가정.
변수정리
- S: 과일 8개가 담긴 바구니 전체
- c: 과일의 종류는 사과, 바나나 총 2가지
- i: 클래스를 가리키는 순번 (1: 사과, 2: 바나나)
- p,,i,,: 각 클래스의 확률
- p,,1,, (사과일 확률): 8개 중 6개이므로 6/8 = 0.75
- p,,2,, (바나나일 확률): 8개 중 2개이므로 2/8 = 0.25
계산
$ Entropy(S) = (-p,,사과,, log,,2,,(p,,사과,,)) + (-p,,바나나,, log,,2,,(p,,바나나,,)) $
$ Entropy(S) = (-0.75 × log,,2,,(0.75)) + (-0.25 × log,,2,,(0.25)) $
$ Entropy(S) = (-0.75 × -0.415) + (-0.25 × -2) $
$ Entropy(S) = 0.311 + 0.5 $
$ Entropy(S) = 0.811 $