Информатика -продвинутый курс


ЕДИНИЦЫ КОЛИЧЕСТВА ИНФОРМАЦИИ: ВЕРОЯТНОСТНЫЙ И ОБЪЕМНЫЙ ПОДХОДЫ - часть 3


исходов рассмотренного выше опыта являются равновероятными и поэтому можно считать, что на «долю» каждого исхода приходится одна N-я часть общей неопределенности опыта: (log2 N)1N. При этом вероятность i-го исхода Рi равняется, очевидно, 1/N.

Таким образом,

 

Та же формула (1.6) принимается за меру энтропии в случае, когда вероятности различных исходов опыта неравновероятны (т.е. Рi

могут быть различны). Формула (1.6) называется

формулой Шеннона.

В качестве примера определим количество информации, связанное с появлением каждого символа в сообщениях, записанных на русском языке. Будем считать, что русский алфавит состоит из 33 букв и знака «пробел» для разделения слов. По формуле (1.5)

 

Н

= log2 34 ? 5 бит.

 

Однако, в словах русского языка (равно как и в словах других языков) различные буквы встречаются неодинаково часто. Ниже приведена табл. 1.3 вероятностей частоты употребления различных знаков русского алфавита, полученная на основе анализа очень больших по объему текстов.

Воспользуемся для подсчета Н формулой (1.6); Н ? 4,72 бит. Полученное значение Н,

как и можно было предположить, меньше вычисленного ранее. Величина Н, вычисляемая по формуле (1.5), является максимальным количеством информации, которое могло бы приходиться на один знак.

 

Таблица 1.3. Частотность букв русского языка

 

i

Символ

Р(i)

i

Символ

P(i)

i

Символ

Р(i)

1

Пробел

0,175

13

 

0,028

24

Г

0.012

2

0

0,090

14

М

0,026

25

Ч

0,012

3

Е

0,072

15

Д

0,025

26

И

0,010

4

Ё

0,072

16

П

0,023

27

X

0,009

5

А

0,062

17

У

0,021

28

Ж

0,007

6

И

0,062

18

Я

0,018

29

Ю

0,006

7

Т

0,053

19

Ы

0,016

30

Ш

0.006

8

Н

0,053

20

З

0.016

31

Ц

0,004

9

С

0,045

21

Ь

0,014

32

Щ

0,003

10

Р

0,040

22

Ъ

0,014

33

Э

0,003

11

В

0,038

23

Б

0,014

34

Ф

0,002

12

Л

0,035

 

 

 

 

 

 

<


Начало  Назад  Вперед



Книжный магазин