Формула Шеннона

Стр 1 из 2Следующая ⇒

Формула Хартли

В теории информации доказываются следующие леммы:
Лемма 1.
Число различных двоичных слов длины k равно 2^k

Лемма 2.
Множество N допускает однозначное двоичное кодирование с длинами кодов, не превосходящими k, в том и только в том случае, когда число элементов множества N не превосходит 2^k.

Согласно леммам 1 и 2, длина кода при двоичном кодировании одного символа из алфавита мощности N = 2^k (то есть алфавита, состоящего ровно из N различных символов) равна k.

Это позволяет давать эффективные оценки на минимально необходимый объем памяти компьютера для запоминания различного рода данных.

Например, кодирование сообщений на русском языке можно осуществлять с помощью алфавита, состоящего из 32 = 25 различных символов (без буквы Ё). Тогда один символ при равномерном двоичном кодировании (одинаковой длине двоичного слова для каждого символа алфавита) будет занимать 5 бит памяти, а не 8 бит, как при ASCII-кодировании текстовой информации вообще.

Чтобы подсчитать объем памяти, который займет сообщение из символов такого алфавита, нужно 5 бит умножить на количество символов в сообщении.

Количество информации, которое вмещает один символ N- элементного алфавита, определяется по формуле Хартли:
k = log ₂ N
По-другому, количество информации, полученное при выборе одного предмета из N равнозначных предметов, равно
k = log₂ N

Формула Шеннона

Для определения количества информации не всегда возможно использовать формулу Хартли. Её применяют, когда выбор любого элемента из множества, содержащего N элементов, равнозначен. Или, при алфавитном подходе, все символы алфавита встречаются в сообщениях, записанных с помощью этого алфавита, одинаково часто. Однако, в действительности символы алфавитов естественных языков в сообщениях появляются с разной частотой.

Пусть мы имеем алфавит, состоящий из N символов, с частотной характеристикой P1, P2,... PN, где Pi - вероятность появления i – го символа. Все вероятности неотрицательны и их сумма равна 1. Тогда средний информационный вес символа (количество информации, содержащееся в символе) такого алфавита выражается формулой Шеннона: H = P1 log₂ (1/ P1) + P2 log₂ (1/ P2) +... + PN log₂ (1/ PN) где H – количество информации, N – количество возможных событий, Pi – вероятность отдельных событий

Энтропия - мера внутренней неупорядоченности информационной системы. Энтропия увеличивается при хаотическом распределении информационных ресурсов и уменьшается при их упорядочении.

Энтропия термодинамической системы определяется как натуральный логарифм от числа различных микросостояний Z, соответствующих данному макроскопическому состоянию (например, состоянию с заданной полной энергией)

Коэффициент пропорциональности k и есть постоянная Больцман

12 Следующая ⇒

Поделиться с друзьями:

mylektsii.su - Мои Лекции - 2015-2024 год. (0.008 сек.)Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав Пожаловаться на материал