3.1. Единицы измерения объема информации

Впервые объективный подход к измерению информации был предложен американским инженером Р. Хартли в 1928 году, затем в 1948 году обобщен американским учёным К. Шенноном. Хартли рассматривал процесс получения информации как выбор одного сообщения из конечного наперед заданного множества из N равновероятных сообщений, а количество информации I, содержащееся в выбранном сообщении, определял как двоичный логарифм N.

Закрыть

Вероятность - численная мера достоверности случайного события, которая при большом числе испытаний близка к отношению числа случаев, когда событие осуществилось с положительным исходом, к общему числу случаев. Два события называют равновероятными, если их вероятности совпадают.Например

Закрыть
Примеры равновероятных событий

1. при бросании монеты: "выпала решка", "выпал орел";

2. на странице книги: "количество букв чётное", "количество букв нечётное";

3. при бросании игральной кости: "выпала цифра 1","выпала цифра 2","выпала цифра 3","выпала цифра 4","выпала цифра 5","выпала цифра 6".

Неравновероятные события

Определим, являются ли равновероятными сообщения "первой из дверей здания выйдет женщина" и "первым из дверей здания выйдет мужчина". Однозначно ответить на этот вопрос нельзя. Во-первых, как известно количество мужчин и женщин неодинаково. Во-вторых, все зависит от того, о каком именно здании идет речь. Если это военная казарма, то для мужчины эта вероятность значительно выше, чем для женщины.

Закрыть

Логарифм числа a по основанию b (LOGba ) равен показателю степени, в которую надо возвести число b, чтобы получить число a. Широкое применение в информатике получили логарифмы по основанию два, которые называют двоичными логарифмами.

Формула Хартли: I = log2N

Шеннон предложил другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.

Формула Шеннона:

I=P1log21/P1+P2log21/P2+...+PNlog21/PN, где pi - вероятность i-го сообщения.

Поскольку каждый регистр арифметического устройства и каждая ячейка памяти состоит из однородных элементов, а каждый элемент может находиться в одном из двух устойчивых состояний (которые можно отождествить с нулем и единицей), то К. Шенноном была введена единица измерения информации - бит.

Закрыть

Бит (англ. bit - binary digit - двоичная цифра) в теории информации - количество информации, необходимое для различения двух равновероятных взаимоисключающих сообщений (типа "орел"-"решка", "чет"-"нечет" и т.п.).

В вычислительной технике битом называют наименьшую "порцию" памяти компьютера, необходимую для хранения одного из двух знаков "0" и "1", используемых для внутримашинного представления данных и команд.

Сообщение, уменьшающее информационную неопределенность ровно вдвое, содержит единицу информации - один бит .
Бит - слишком мелкая единица измерения. На практике чаще применяется более крупная единица - байт, равная восьми битам. Именно восемь битов требуется для того, чтобы закодировать любой из 256 символов алфавита клавиатуры компьютера (256=28).

Широко используются также еще более крупные производные единицы информации:

  • 1 Килобайт (Кбайт) = 1024 байт = 210 байт,
  • 1 Мегабайт (Мбайт) = 1024 Кбайт = 220 байт,
  • 1 Гигабайт (Гбайт) = 1024 Мбайт = 230 байт.

    В последнее время в связи с увеличением объемов обрабатываемой информации входят в употребление такие производные единицы, как:

  • 1 Терабайт (Тбайт) = 1024 Гбайт = 240 байт,
  • 1 Петабайт (Пбайт) = 1024 Тбайт = 250 байт.

    За единицу информации можно было бы выбрать количество информации, необходимое для различения, например, десяти равновероятных сообщений. Это будет не двоичная (бит), а десятичная (дит) единица информации.