Относительная частота букв в немецком языке


Символ

Р г

-Р . . 1 г

1 пробел

0,1515

0,4125

2 Е

0,1470

0,4066

3 N

0,0884

0,3093

4 R

0,0686

0,2651

5 Г

0,0638

0,2532

6 S

0,0539

0,2271

7 Т

0,0473

0,2082

8 D

0,0439

0,1978

9 Н

0,0436

0,1969

10 А

0,0433

0,1962

11 и

0,0319

0,1585

12 L

0,0293

0,1493

-13 G

0,0267

0,1397

14 G

0,0267

0,1395

15 М

0,0213

0,1184

16 О

0,0177

0,1039

17 В

0,0160

0,0959

18 Z

0,0142

0,0873

19 W

0,0142

0,0872

20 F

0,0136

0,0843

21 К

0,0096

0,0641

22 V

0,0073

0,0521

23 U

0,0058

0,0431

24 Р

0,0050

0,0382

25- Д

0,0049

0,0376

26 0

0,0025

0,0219

27 J

0,0016

0,0152

28 Y

0,0002

0,0022

29 Q

0,0001

0,0018

30 X

0,0001

0,0017

2р* = 1,0000  Н = 4,1146 битов

При равных частотах всех символов (/jf = l/30) эитрошш на один символ была бы Я = 4,9069 битов.

я у ющ iits буквы используются с разными вероятностями. Дешифровка закодированных сообщений на языке с известной структурой основана на принципе такого сопоставления. Относительные частоты букв в немецком языке приведены в табл. 1.

Можно привести также много примеров часто встречающихся последовательностей определенных букв: употребительные окончания, как -en, -ig, -lich, или же помещение гласной между двумя согласными и т. д. Множество всех избыточностей практически необозримо. Они распространяются на тончайшие особенности структуры языка и вовсе не ограничиваются ближним порядком в расположении букв. Значимость различных комбинаций букв также очень различна. Так, иапример, смысл искаженной телеграммы часто можно восстановить однозначно. С другой стороны, существуют ошибки, которые совершенно изменяют смысл, хотя они состоят в замене всего лишь одной буквы *).

В поисках связи между статистическим и семантическим аспектами информации мы прежде всего сталкиваемся с проблемой прироста информации (der Informationsgewinn). Здесь можно опираться непосредственно на теорию вероятностей.

Энтропия множества символов максимальна, когда все расположения символов равновероятны. Любое отклонение от равномерного распре деления вероятностей означает ограничение неопределенности — количество информации, необходимое для полной идентификации ситуации или сообщения, уменьшается. Любое изменение распределения вероятностей в результате наблюдения или в результате того, что становятся известны какие-либо дополнительные условия, означает прирост информации.

*) В одной книге, изданной в 1947 г., было написано: «Не считая вопросы приоритета существенными для истории науки, я все же должен отметить роль великого ученого…». Автора подвергли критике за недостаточное внимание к вопросам приоритета. Оправдываясь, автор сослался на опечатку. Р. рукописи, по его словам, значилось: «Но считая…» и т. д. (Прим. ред.)


Метки:

Посмотрите также

Оставить комментарий

Вы должны авторизоваться для отправки комментария.