­

熵、交叉熵及似然函数的关系

  • 2019 年 10 月 3 日
  • 筆記

?????????????

1. ?

1.1 ???

??????????????????m???????(I),? (I=log_2m)???????????????????????????1?bit?????????????????????????????????????????????????????????(X)????
[ I(X=x_i) = -logP(x_i) ]
???????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????

1.3 ?

??????????????????????????????????????????????????——????????????????????????????P???????????????????????????
[ H(X)=E_P[-logP(x)]=-sum_xp(x_i)logp(x_i) ]
???X????????X???????????????????n????????
[ H(x) = -sum_n frac 1 n log frac 1 n= logn ]
??????????????????????(logn)?
???????????????????????????????????????????????????????????????????

2. ???????????

??????????????????????????????????????????????????????????????????????????????

??????????????????????
[ L_{widetilde P} = prod_{x,y} P(y|x)^{widetilde P(x,y)} ]
???????????????????????????????
[ L(x_1,cdots,x_n,theta)=prod_x P(x)^{widehat P(x)} ]

2.1 ?????????

????????????????????????????????????????????????n??????????????????????????????????????????L?
[ L(x,theta)=prod _{i=1}^n P(x_i) ]
?????????????????????x??????????????????????????????????n???????????????????????

??????????(n)?(X)??????(m)???????(v_1,cdots,v_m)?????????(v_i)??????(C(X=v_i))??????????????
[ L(x,theta) = prod _{i=1}^m P(x_i)^{C(X=x_i)} ]
????????(n)??
[ L(x,theta)^{frac 1 n} = prod _{i=1} ^m P(x_i) ^{frac {C(X=x_i)} {n}} ]
???
[ frac {C(X=x_i)} {n} = widetilde P(x_i) ]
????????(n)????????????????????????????
[ L(x,theta) = prod _{i=1} ^m P(x_i) ^{frac {C(X=x_i)} {n}} ]
??(widetilde P(x_i))????
[ L(x,theta) = prod _x P(x) ^{widetilde P(x)} ]
??????????
[ L(x,theta) = widetilde P(x) sum_x log P(x) ]

2.2 ???????????

???????????????????????????????????????????
[ begin{aligned} L_{widetilde P} =& logprod_{x,y} P(x,y) ^{widetilde P(x,y)} =&sum_{x,y} widetilde P(x,y)log[widetilde P(x) P(y|x)] =&sum_{x,y} widetilde P(x,y)logP(y|x) + sum_{x,y} widetilde P(x,y) log widetilde P(x) =& sum_{x,y} widetilde P(x,y) logP(y|x) + constant Rightarrow L_{widetilde P} =& sum_{x,y} widetilde P(x,y) logP(y|x) end{aligned} ]
????????????????????????(L=widetilde P(x)sum_xlog P(x))?????????

?????????
[ H(X) = -sum_xP(x) log P(x) ]
??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????

??????????????????????????????????????????????????????????

3. ????????

???????????????????????????????????????????????????????????????????????????????????????????

3.1 ??

??????????????????????????????????????KL???KL???????????(p,q)???????????(D(p||q))??????????KL?????
[ D(p||q) = sum_x p(x)log frac {p(x)} {q(x)} ]
??KL?????(D(p|q) geqslant 0)????(p=q)??(D(p|q)=0)??????
[ begin{aligned} -D(p||q) =& sum_x p(x) log frac {q(x)} {p(x)} (Jense) Rightarrow leqslant & log sum_xp(x)frac {q(x)}{p(x)} =& log sum_x q(x) = 0 end {aligned} ]
????Jense????EM???????????????????log?????(E[f(x)] leqslant f(E[x]))???(p(x))??(sum_xp(x) = 1)?????????KL?????????????????????

??Wiki??????????????????????????????(p)? (q)????????????“???”????“??”??(p)???????? (q)??????????????????????????????bit?????????????
[ H(p,q) = E_p[-log q]= H(p) + D_{KL}(p||q) ]
???(H(p))???(D_{KL}(p||q))?p?q?KL????????p?q
[ H(p,q) = -sum_x p(x) log q(x) ]
????????????????????????????????????????????????p?q????Wiki??(p)???“??”?????????(q)?????????????????????????????????????????????????????
[ -sum_x widetilde p(x) log p(x) ]
???(widetilde p(x))?????????????????“??”????(p(x))?????????????????

????????????????????
[ L_widetilde p = sum_x widetilde p(x)log p(x) ]
????????????????????????????([Mark])??????????????????????????????????????????????????????????????????????????????????????

????????????????????????????????????????????????????????????????????KL?????(p=q)????0????????????????????????????????????????????????????????????

????(p(x))????????????(q(x))??????
[ sum_x q(x) = 1 ]
??????????
[ L(x,lambda) = -sum_{x} p(x) log q(x) +lambda (sum_x p(x) – 1)) ]
?(lambda)????(x)????
[ -frac {p(x)} {q(x)} +lambda = 0 sum_x q(x) = 1 sum_x p(x) = 1 ]
????????????m????m???x????????
[ lambda = 1 p(x) = q(x) ]

3.2 ???????

?????????????????????????????????????????????????????????????????????????????????????????????????softmax???????

???????????????
[ CrossEntropy=?sum_{i=1} ^n y_i^T cdot log(h(x_i)) ]
???(y?x)?m?????m?(y)???????(y)????0,1??????????0-1??????????
[ CrossEntropy=-sum_{i=1}^n (y_icdot log (h(x_i)) +(1-y_i) cdot log (1-(h(x_i))) ]
??(y?x)????

??????????????????????“??”???????“??”???label?(y_i)?????????????????????????????????(h(x))???logistic?????????logistic???????

Reference?

??????

Pattern Recognition and Machine Learning