Lektsia - бесплатные рефераты, доклады, курсовые работы, контрольные и дипломы для студентов » Содержательный (вероятностный) подход к измерению информации

Существует два подхода к измерению информации: содержательный (вероятностный) и объемный (алфавитный).

Процесс познания окружающего мира приводит к накоплению информации в форме знаний (фактов, научных теорий и т.д.). Получение новой информации приводит к расширению знания или к уменьшению неопределенности знаний. Если некоторое сообщение приводит к уменьшению неопределенности нашего знания, то можно говорить, что такое сообщение содержит информацию.

Пусть у нас имеется монета, которую мы бросаем. С равной вероятностью произойдет одно из двух возможных событий – монета окажется в одном из двух положений: «орел» или «решка». Можно говорить, что события равновероятны.

Перед броском существует неопределенность наших знаний (возможны два события), и, как упадет монета, предсказать невозможно. После броска наступает полная определенность, так как мы видим, что монета в данный момент находится в определенном положении (например, «орел»). Это сообщение приводит к уменьшению неопределенности наших знаний в два раза, так как до броска мы имели два вероятных события, а после броска – только одно, то есть в два раза меньше.

Чем больше неопределенна первоначальная ситуация (возможно большее количество информационных сообщений – например, бросаем не монету, а шестигранный кубик), тем больше мы получим новой информации при получении информационного сообщения (в большее количество раз уменьшится неопределенность знания).

Количество информацииможно рассматривать как меру уменьшения неопределенности знания при получении информационных сообщений.

Существует формула – главная формула информатики, которая связывает между собой количество возможных информационных сообщений N и количество информации I, которое несет полученное сообщение:

N = 2^I

За единицу количества информации принимается такое количество информации, которое содержится в информационном сообщении, уменьшающем неопределенность знания в два раза. Такая единица названа бит.

Если вернуться к опыту с бросанием монеты, то здесь неопределенность как раз уменьшается в два раза и, следовательно, полученное количество информации равно 1 биту.

2 = 2¹

Бит – наименьшая единица измерения информации.

С помощью набора битов можно представить любой знак и любое число. Знаки представляются восьмиразрядными комбинациями битов – байтами.

1байт = 8 битов = 2³ битов

Байт– это 8 битов, рассматриваемые как единое целое, основная единица компьютерных данных.

Рассмотрим, каково количество комбинаций битов в байте.

Если у нас две двоичные цифры (бита), то число возможных комбинаций из них:

2²=4: 00, 01, 10, 11

Если четыредвоичные цифры (бита), то число возможных комбинаций:

2⁴=16: 0000, 0001, 0010, 0011,

0100, 0101, 0110, 0111,

1000, 1001, 1010, 1011,

1100, 1101, 1110, 1111

Так как в байте 8 бит (двоичных цифр), то число возможных комбинаций битов в байте:

2⁸=256

Таким образом, байт может принимать одно из 256 значений или комбинаций битов.

Для измерения информации используются более крупные единицы: килобайты, мегабайты, гигабайты, терабайты и т.д.

1 Кбайт = 2¹⁰ байт = 1 024 байт

1 Мбайт = 2²⁰ байт = 2¹⁰ Кбайт = 1 024 Кбайт = 1 048 576 байт

1 Гбайт = 2³⁰байт = 1 024 Мбайт

1 Тбайт = 2⁴⁰ байт = 1 024 Гбайт

Единицы измерения информации
Название	Символ	Символ ГОСТ	Приставка
Десятичная	Двоичная
байт	В	байт	10⁰	2⁰
килобайт	kB	Кбайт	10³	2¹⁰
мегабайт	MB	Мбайт	10⁶	2²⁰
гигабайт	GB	Гбайт	10⁹	2³⁰
терабайт	TB	Тбайт	10¹²	2⁴⁰
петабайт	PB	Пбайт	10¹⁵	2⁵⁰
эксабайт	EB	Эбайт	10¹⁸	2⁶⁰
зетабайт	ZB	Збайт	10²¹	2⁷⁰
йоттабайт	YB	Йбайт	10²⁴	2⁸⁰

Проведем аналогию с единицами длины:

если 1 бит «соответствует» 1 мм, то:

1 байт – 10 мм = 1см;

1 Кбайт – 1000 см = 10 м;

1 Мбайт – 10 000 м = 10 км;

1 Гбайт – 10 000 км (расстояние от Москвы до Владивостока).

Рассмотрим следующие примеры:

страница учебника содержит приблизительно 3 Кбайта информации;

1 газета – 150 Кбайт.

Объемный (алфавитный) подход к измерению информации

Существует два подхода к измерению информации: содержательный (вероятностный) и объемный (алфавитный).

Информация является предметом нашей деятельности: мы ее храним, передаем, принимаем, обрабатываем. Нам часто необходимо знать, достаточно ли места на носителе, чтобы разместить нужную нам информацию, сколько времени потребуется, чтобы передать информацию по каналу связи и т.п. Величина, которая нас в этих ситуациях интересует, называется объемом информации. В таком случае говорят об объемном подходе к измерению информации.

Для обмена информацией с другими людьми человек использует естественные языки (русский, английский, китайский и др.), то есть информация представляется с помощью естественных языков. В основе языка лежит алфавит, т.е. набор символов (знаков), которые человек различает по их начертанию. В основе русского языка лежит кириллица, содержащая 33 знака, английский язык использует латиницу (26 знаков), китайский язык использует алфавит из десятков тысяч знаков (иероглифов).

Наряду с естественными языками были разработаны формальные языки (системы счисления, язык алгебры, языки программирования и др.). Основное отличие формальных языков от естественных состоит в наличии строгих правил грамматики и синтаксиса.

Например, системы счисления можно рассматривать как формальные языки, имеющие алфавит (цифры) и позволяющие не только именовать и записывать объекты (числа), но и выполнять над ними арифметические операции по строго определенным правилам.

Некоторые языки используют в качестве знаков не буквы и цифры, а другие символы, например химические формулы, ноты, изображения элементов электрических или логических схем, дорожные знаки, точки и тире (код азбуки Морзе и др.).

Представление информации может осуществляться с помощью языков, которые являются знаковыми системами. Каждая знаковая система строится на основе определенного алфавита и правил выполнения операций над знаками.

Знаки могут иметь различную физическую природу. Например, для представления информации с использованием языка в письменной форме используются знаки, которые являются изображением на бумаге или других носителях; в устной речи в качестве знаков языка используются различные звуки (фонемы), а при обработке текста на компьютере знаки представляются в форме последовательностей электрических импульсов (компьютерных кодов).

При хранении и передаче информации с помощью технических устройств информация рассматривается как последовательность символов – знаков (букв, цифр, кодов цветов точек изображения и т.д.)

Набор символов знаковой системы (алфавит) можно рассматривать как различные возможные состояния (события).

Тогда, если считать, что появление символов в сообщении равновероятно, по формуле

N = 2^I

где N– это количество знаков в алфавите знаковой системы, можно рассчитать I – количество информации, которое несет каждый символ.

Информационная емкость знаков зависит от их количества в алфавите. Так, информационная емкость буквы в русском алфавите, если не использовать букву «ё», составляет:

32 = 2^I ,т.е.I = 5 битов

В латинском алфавите 26 букв. Информационная емкость буквы латинского алфавита также 5 битов.

На основании алфавитного подхода можно подсчитать количество информации в сообщении I_c, для этого необходимо умножить количество информации, которое несет один символ I, на количество символов K в сообщении:

I_c = I ´ K

Например, в слове «информатика» 11 знаков (К=11), каждый знак в русском алфавите несет информацию 5 битов (I=5), тогда количество информации в слове «информатика» I_с=5х11=55 (битов).

С помощью формулы N = 2^Iможно определить количество информации, которое несет знак в двоичной знаковой системе: N=2 Þ 2=2^I Þ 2¹=2^I Þ I=1 бит

Таким образом, в двоичной знаковой системе 1 знак несет 1 бит информации. При двоичном кодировании объем информации равен длине двоичного кода.

Интересно, что сама единица измерения количества информации бит (bit) получила свое название от английского словосочетания BInary digiТ, т.е. двоичная цифра.

Чем большее количество знаков содержит алфавит знаковой системы, тем большее количество информации несет один знак.