Table of Contents

엔트로피 (Entropy)

정보이론(Information Theory)의 핵심개념으로, 불확실성(Uncertainty)의 양을 측정하는 지표.

개념

어떤 데이터 집합이 얼마나 예측하기 어려운가(혼란스러운가)를 숫자로 나타낸 것.

트럼프카드 52장짜리가 섞여있을떄,
카드가 모두 달라서 뭐 나올지 모름 최대 엔트로피
카드가 모두 똑같아서 뭐 나올지 알면 최소 엔트로피 = 0


공식

$ \Large Entropy(S) = \sum_{i=1}^{c} -p_i \log_2(p_i) $


변수설명

S : 엔트로피를 계산하려는 대상이 되는 전체 데이터 집합 (시스템)
c : 데이터 집합 S 안에 들어있는 고유한 클래스(종류)의 총 개수
i: 각 클래스를 하나씩 가리키기 위한 순번
pᵢ (p의 i번째): i번째 클래스가 데이터 집합 S 안에서 나타날 확률 (또는 차지하는 비율)
(i번째 클래스 데이터 수 / 전체 데이터 수 로 계산)


예시

사과6개와 바나나2개, 총 8개의 과일이 담긴 바구니 (S)가 있다고 가정.

변수정리

계산

$ Entropy(S) = (-p,,사과,, log,,2,,(p,,사과,,)) + (-p,,바나나,, log,,2,,(p,,바나나,,)) $
$ Entropy(S) = (-0.75 × log,,2,,(0.75)) + (-0.25 × log,,2,,(0.25)) $
$ Entropy(S) = (-0.75 × -0.415) + (-0.25 × -2) $
$ Entropy(S) = 0.311 + 0.5 $
$ Entropy(S) = 0.811 $