情報エントロピー

今日読んだPetty (2018)の内容。

ご案内の通り情報は Shannon のエントロピーで測られる。-p log p ってやつ。底は 2 。これが少ないほど情報が多いことになる。

秘書さんが John さんから電話が来たという。内容的に John A さんの確率が 70 %、John B さんの確率が 20 % 以下 John C1 さんから John C10 さんまでの 10 人のどれかである確率が 1 % ずつとするとこの状況の情報エントロピーは -(0.7 log 0.7 + 0.2 log 0.2 + 10 * 0.01 log 0.01) = 1.5 で 1.5 ビット。John A さんと John B さんに聞いてみると電話していないという。「聞いてみる」という行為で情報が増加しただろうと思うと現在の情報エントロピーは -(10 * 0.1 log 0.1) = 3.3 ビットでなんと情報が減少している。なぜ？

答えは論文をお楽しみにということだが、要は Baysian で考えて情報量の増加は relative entropy で測るべき、と。これを「観測」に適用する際の注意なども書いてある。