Информатика -продвинутый курс


         

исходов рассмотренного выше опыта являются


исходов рассмотренного выше опыта являются равновероятными и поэтому можно считать, что на «долю» каждого исхода приходится одна N-я часть общей неопределенности опыта: (log2 N)1N. При этом вероятность i-го исхода Рi равняется, очевидно, 1/N.

Таким образом,



Та же формула (1.6) принимается за меру энтропии в случае, когда вероятности различных исходов опыта неравновероятны (т.е. Рi

могут быть различны). Формула (1.6) называется

формулой Шеннона.


В качестве примера определим количество информации, связанное с появлением каждого символа в сообщениях, записанных на русском языке. Будем считать, что русский алфавит состоит из 33 букв и знака «пробел» для разделения слов. По формуле (1.5)

Н

= log2 34 ? 5 бит.

Однако, в словах русского языка (равно как и в словах других языков) различные буквы встречаются неодинаково часто. Ниже приведена табл. 1.3 вероятностей частоты употребления различных знаков русского алфавита, полученная на основе анализа очень больших по объему текстов.

Воспользуемся для подсчета Н формулой (1.6); Н ? 4,72 бит. Полученное значение Н,

как и можно было предположить, меньше вычисленного ранее. Величина Н, вычисляемая по формуле (1.5), является максимальным количеством информации, которое могло бы приходиться на один знак.

Таблица 1.3. Частотность букв русского языка



































































































































































































































































































i



Символ



Р(i)



i



Символ



P(i)



i



Символ



Р(i)



1



Пробел



0,175



13





0,028



24



Г



0.012



2



0



0,090



14



М



0,026



25



Ч



0,012



3



Е



0,072



15



Д



0,025



26



И



0,010



4



Ё



0,072



16



П



0,023



27



X



0,009



5



А



0,062



17



У



0,021



28



Ж



0,007



6



И



0,062



18



Я



0,018



29



Ю



0,006



7



Т



0,053



19



Ы



0,016



30



Ш



0.006



8



Н



0,053



20



З



0.016



31



Ц



0,004



9



С



0,045



21



Ь



0,014



32



Щ



0,003



10



Р



0,040



22



Ъ



0,014



33



Э



0,003



11



В



0,038



23



Б



0,014



34



Ф



0,002



12



Л



0,035













<

Содержание  Назад  Вперед