- Lektsia - бесплатные рефераты, доклады, курсовые работы, контрольные и дипломы для студентов - https://lektsia.info -

Содержательный (вероятностный) подход к измерению информации



Существует два подхода к измерению информации: содержательный (вероятностный) и объемный (алфавитный).

Процесс познания окружающего мира приводит к накоплению информации в форме знаний (фактов, научных теорий и т.д.). Получение новой информации приводит к расширению знания или к уменьшению неопределенности знаний. Если некоторое сообщение приводит к уменьшению неопределенности нашего знания, то можно говорить, что такое сообщение содержит информацию.

Пусть у нас имеется монета, которую мы бросаем. С равной вероятностью произойдет одно из двух возможных событий – монета окажется в одном из двух положений: «орел» или «решка». Можно говорить, что события равновероятны.

Перед броском существует неопределенность наших знаний (возможны два события), и, как упадет монета, предсказать невозможно. После броска наступает полная определенность, так как мы видим, что монета в данный момент находится в определенном положении (например, «орел»). Это сообщение приводит к уменьшению неопределенности наших знаний в два раза, так как до броска мы имели два вероятных события, а после броска – только одно, то есть в два раза меньше.

Чем больше неопределенна первоначальная ситуация (возможно большее количество информационных сообщений – например, бросаем не монету, а шестигранный кубик), тем больше мы получим новой информации при получении информационного сообщения (в большее количество раз уменьшится неопределенность знания).

Количество информацииможно рассматривать как меру уменьшения неопределенности знания при получении информационных сообщений.

Существует формула – главная формула информатики, которая связывает между собой количество возможных информационных сообщений N и количество информации I, которое несет полученное сообщение:

N = 2I

За единицу количества информации принимается такое количество информации, которое содержится в информационном сообщении, уменьшающем неопределенность знания в два раза. Такая единица названа бит.

Если вернуться к опыту с бросанием монеты, то здесь неопределенность как раз уменьшается в два раза и, следовательно, полученное количество информации равно 1 биту.

2 = 21

Бит – наименьшая единица измерения информации.

С помощью набора битов можно представить любой знак и любое число. Знаки представляются восьмиразрядными комбинациями битов – байтами.

1байт = 8 битов = 23 битов

Байт– это 8 битов, рассматриваемые как единое целое, основная единица компьютерных данных.

Рассмотрим, каково количество комбинаций битов в байте.

Если у нас две двоичные цифры (бита), то число возможных комбинаций из них:

22=4: 00, 01, 10, 11

 

Если четыредвоичные цифры (бита), то число возможных комбинаций:

24=16: 0000, 0001, 0010, 0011,

0100, 0101, 0110, 0111,

1000, 1001, 1010, 1011,

1100, 1101, 1110, 1111

Так как в байте 8 бит (двоичных цифр), то число возможных комбинаций битов в байте:

28=256

Таким образом, байт может принимать одно из 256 значений или комбинаций битов.

Для измерения информации используются более крупные единицы: килобайты, мегабайты, гигабайты, терабайты и т.д.

1 Кбайт = 210 байт = 1 024 байт

1 Мбайт = 220 байт = 210 Кбайт = 1 024 Кбайт = 1 048 576 байт

1 Гбайт = 230 байт = 1 024 Мбайт

1 Тбайт = 240 байт = 1 024 Гбайт

 

Единицы измерения информации
Название Символ Символ ГОСТ Приставка
Десятичная Двоичная
байт В байт 100 20
килобайт kB Кбайт 103 210
мегабайт MB Мбайт 106 220
гигабайт GB Гбайт 109 230
терабайт TB Тбайт 1012 240
петабайт PB Пбайт 1015 250
эксабайт EB Эбайт 1018 260
зетабайт ZB Збайт 1021 270
йоттабайт YB Йбайт 1024 280

 

Проведем аналогию с единицами длины:

если 1 бит «соответствует» 1 мм, то:

1 байт – 10 мм = 1см;

1 Кбайт – 1000 см = 10 м;

1 Мбайт – 10 000 м = 10 км;

1 Гбайт – 10 000 км (расстояние от Москвы до Владивостока).

Рассмотрим следующие примеры:

страница учебника содержит приблизительно 3 Кбайта информации;

1 газета – 150 Кбайт.


 

Объемный (алфавитный) подход к измерению информации

Существует два подхода к измерению информации: содержательный (вероятностный) и объемный (алфавитный).

Информация является предметом нашей деятельности: мы ее храним, передаем, принимаем, обрабатываем. Нам часто необходимо знать, достаточно ли места на носителе, чтобы разместить нужную нам информацию, сколько времени потребуется, чтобы передать информацию по каналу связи и т.п. Величина, которая нас в этих ситуациях интересует, называется объемом информации. В таком случае говорят об объемном подходе к измерению информации.

Для обмена информацией с другими людьми человек использует естественные языки (русский, английский, китайский и др.), то есть информация представляется с помощью естественных языков. В основе языка лежит алфавит, т.е. набор символов (знаков), которые человек различает по их начертанию. В основе русского языка лежит кириллица, содержащая 33 знака, английский язык использует латиницу (26 знаков), китайский язык использует алфавит из десятков тысяч знаков (иероглифов).

Наряду с естественными языками были разработаны формальные языки (системы счисления, язык алгебры, языки программирования и др.). Основное отличие формальных языков от естественных состоит в наличии строгих правил грамматики и синтаксиса.

Например, системы счисления можно рассматривать как формальные языки, имеющие алфавит (цифры) и позволяющие не только именовать и записывать объекты (числа), но и выполнять над ними арифметические операции по строго определенным правилам.

Некоторые языки используют в качестве знаков не буквы и цифры, а другие символы, например химические формулы, ноты, изображения элементов электрических или логических схем, дорожные знаки, точки и тире (код азбуки Морзе и др.).

Представление информации может осуществляться с помощью языков, которые являются знаковыми системами. Каждая знаковая система строится на основе определенного алфавита и правил выполнения операций над знаками.

Знаки могут иметь различную физическую природу. Например, для представления информации с использованием языка в письменной форме используются знаки, которые являются изображением на бумаге или других носителях; в устной речи в качестве знаков языка используются различные звуки (фонемы), а при обработке текста на компьютере знаки представляются в форме последовательностей электрических импульсов (компьютерных кодов).

При хранении и передаче информации с помощью технических устройств информация рассматривается как последовательность символов – знаков (букв, цифр, кодов цветов точек изображения и т.д.)

Набор символов знаковой системы (алфавит) можно рассматривать как различные возможные состояния (события).

Тогда, если считать, что появление символов в сообщении равновероятно, по формуле

N = 2I

где N– это количество знаков в алфавите знаковой системы, можно рассчитать I – количество информации, которое несет каждый символ.

Информационная емкость знаков зависит от их количества в алфавите. Так, информационная емкость буквы в русском алфавите, если не использовать букву «ё», составляет:

32 = 2I ,т.е.I = 5 битов

В латинском алфавите 26 букв. Информационная емкость буквы латинского алфавита также 5 битов.

На основании алфавитного подхода можно подсчитать количество информации в сообщении Ic, для этого необходимо умножить количество информации, которое несет один символ I, на количество символов K в сообщении:

Ic = I ´ K

Например, в слове «информатика» 11 знаков (К=11), каждый знак в русском алфавите несет информацию 5 битов (I=5), тогда количество информации в слове «информатика» Iс=5х11=55 (битов).

С помощью формулы N = 2Iможно определить количество информации, которое несет знак в двоичной знаковой системе: N=2 Þ 2=2I Þ 21=2I Þ I=1 бит

Таким образом, в двоичной знаковой системе 1 знак несет 1 бит информации. При двоичном кодировании объем информации равен длине двоичного кода.

Интересно, что сама единица измерения количества информации бит (bit) получила свое название от английского словосочетания BInary digiТ, т.е. двоичная цифра.

Чем большее количество знаков содержит алфавит знаковой системы, тем большее количество информации несет один знак.