Ноутбуки

В каких единицах измеряется размер текстового файла. Измерение информацииалфавитный подход

В каких единицах измеряется размер текстового файла. Измерение информацииалфавитный подход

Тема: «Измерение информации»

Формулы

Для определения информационного объема сообщения потребуются две формулы:

1. \(N= 2^i \)

N — мощность алфавита

2. \(I = k * i \) ​

I — информационный объём сообщения

k — количество символов в сообщении

i — информационный объём одного символа в алфавите

Формула нахождения k:

Формула нахождения i:

Задачи

Задача №1. Сообщение, записанное буквами из 128-символьного алфавита, содержит 30 символов. Найти информационный объем всего сообщения?

Решение.

\(I = ? \) ​

\(i = ? \) ​

\(N= 2^i \) = \(128= 2^7 \)

\(i = 7 \)​ бит. Какая степень двойки, такой вес одного символа в алфавите. Далее определяем информационный объем сообщения по формуле:

\(I = k * i \) ​ = 30 * 7 = 210 бит

Ответ: 210 бит

Задача №2. Информационное сообщение объемом 4 Кбайта содержит 4096 символов. Сколько символов содержит алфавит, при помощи которого было записано это сообщение?

Решение. Запишем, что дано по условию задачи и что необходимо найти:

\(I = 4 \) ​ Кб

\(N = ? \) ​

\(i = ? \) ​

Очень важно перевести все числа в степени двойки:

1 Кб = \(2^{13} \) бит

\(I = 4 \) ​ Кб = \(2^2 \) * \(2^{13} \) = \(2^{15} \) бит

k = 4096 = \(2^{12} \)

Сначала найдем вес одного символа по формуле:

\(i = \frac{\mathrm I}{\mathrm k} \) ​ = \(2^{15} \) : \(2^{12} \) = \(2^3 \) = 8 бит

\(N= 2^i \) \(2^8 =256\)

Ответ: 256 символов в алфавите.

Задача №3. Сколько символов содержит сообщение, записанное с помощью 16-символьного алфавита, если его объем составляет 1/16 Мб?

Решение. Запишем, что дано по условию задачи и что необходимо найти:

​ Мб

\(k = ? \) ​

\(i = ? \) ​

Представим \(I = \frac{\mathrm 1}{\mathrm 16} \) ​ Мб в степень двойки:

1 Мб = \(2^{23} \) бит

\(I = \frac{\mathrm 1}{\mathrm 16} \) ​ Мб = \(2^{23} \) : ​\(2^4 \) = \(2^{19} \) бит.

Сначала найдем вес одного символа по формуле:

\(N= 2^i \) = \(2^4 = 16 \)

\(i = 4 \)​ бит = \(2^2 \)

Теперь найдём количество символов в сообщении k:

\(k = \frac{\mathrm I}{\mathrm i} \) ​ = \(2^{19} \) ​ : \(2^2 \) = \(2^{17} \) = 131072

Ответ: 131072 символов в сообщении.

Для измерения длины есть такие единицы, как миллиметр, сантиметр, метр, километр. Известно, что масса измеряется в граммах, килограммах, центнерах и тоннах. Бег времени выражается в секундах, минутах, часах, днях, месяцах, годах, веках. Компьютер работает с информацией и для измерения ее объема также имеются соответствующие единицы измерения.

Мы уже знаем, что компьютер воспринимает всю информацию .

Бит – это минимальная единица измерения информации, соответствующая одной двоичной цифре («0» или «1»).

Байт состоит из восьми бит. Используя один байт, можно закодировать один символ из 256 возможных (256 = 2 8). Таким образом, один байт равен одному символу, то есть 8 битам:

1 символ = 8 битам = 1 байту.

Буква, цифра, знак препинания – это символы. Одна буква – один символ. Одна цифра – тоже один символ. Один знак препинания (либо точка, либо запятая, либо вопросительный знак и т.п.) – снова один символ. Один пробел также является одним символом.

Изучение компьютерной грамотности предполагает рассмотрение и других, более крупных единиц измерения информации.

Таблица байтов:

1 байт = 8 бит

1 Кб (1 Килобайт ) = 2 10 байт = 2*2*2*2*2*2*2*2*2*2 байт =
= 1024 байт (примерно 1 тысяча байт – 10 3 байт)

1 Мб (1 Мегабайт ) = 2 20 байт = 1024 килобайт (примерно 1 миллион байт – 10 6 байт)

1 Гб (1 Гигабайт ) = 2 30 байт = 1024 мегабайт (примерно 1 миллиард байт – 10 9 байт)

1 Тб (1 Терабайт ) = 2 40 байт = 1024 гигабайт (примерно 10 12 байт). Терабайт иногда называют тонна .

1 Пб (1 Петабайт ) = 2 50 байт = 1024 терабайт (примерно 10 15 байт).

1 Эксабайт = 2 60 байт = 1024 петабайт (примерно 10 18 байт).

1 Зеттабайт = 2 70 байт = 1024 эксабайт (примерно 10 21 байт).

1 Йоттабайт = 2 80 байт = 1024 зеттабайт (примерно 10 24 байт).

В приведенной выше таблице степени двойки (2 10 , 2 20 , 2 30 и т.д.) являются точными значениями килобайт, мегабайт, гигабайт. А вот степени числа 10 (точнее, 10 3 , 10 6 , 10 9 и т.п.) будут уже приблизительными значениями, округленными в сторону уменьшения. Таким образом, 2 10 = 1024 байта представляет точное значение килобайта, а 10 3 = 1000 байт является приблизительным значением килобайта.

Такое приближение (или округление) вполне допустимо и является общепринятым.

Ниже приводится таблица байтов с английскими сокращениями (в левой колонке):

1 Kb ~ 10 3 b = 10*10*10 b= 1000 b – килобайт

1 Mb ~ 10 6 b = 10*10*10*10*10*10 b = 1 000 000 b – мегабайт

1 Gb ~ 10 9 b – гигабайт

1 Tb ~ 10 12 b – терабайт

1 Pb ~ 10 15 b – петабайт

1 Eb ~ 10 18 b – эксабайт

1 Zb ~ 10 21 b – зеттабайт

1 Yb ~ 10 24 b – йоттабайт

Выше в правой колонке приведены так называемые «десятичные приставки», которые используются не только с байтами, но и в других областях человеческой деятельности. Например, приставка «кило» в слове «килобайт» означает тысячу байт, также как в случае с километром она соответствует тысяче метров, а в примере с килограммом она равна тысяче грамм.

Продолжение следует…

Возникает вопрос: есть ли продолжение у таблицы байтов? В математике есть понятие бесконечности, которое обозначается как перевернутая восьмерка: ∞.

Понятно, что в таблице байтов можно и дальше добавлять нули, а точнее, степени к числу 10 таким образом: 10 27 , 10 30 , 10 33 и так до бесконечности. Но зачем это надо? В принципе, пока хватает терабайт и петабайт. В будущем, возможно, уже мало будет и йоттабайта.

Напоследок парочка примеров по устройствам, на которые можно записать терабайты и гигабайты информации.

Есть удобный «терабайтник» – внешний жесткий диск, который подключается через порт USB к компьютеру. На него можно записать терабайт информации. Особенно удобно для ноутбуков (где смена жесткого диска бывает проблематична) и для резервного копирования информации. Лучше заранее делать резервные копии информации, а не после того, как все пропало.

Флешки бывают 1 Гб, 2 Гб, 4 Гб, 8 Гб, 16 Гб, 32 Гб, 64 Гб и даже 1 терабайт.

Информационный объем текста и единицы измерения информации


Современный компьютер может обрабатывать числовую, текстовую, графическую, звуковую и видео информацию. Все эти виды информации в компьютере представлены в двоичном коде, т. е. используется всего два символа 0 и 1. Связано это с тем, что удобно представлять информацию в виде последовательности электрических импульсов: импульс отсутствует (0), импульс есть (1).

Такое кодирование принято называть двоичным, а сами логические последовательности нулей и единиц - машинным языком.

Какой длины должен быть двоичный код, чтобы с его помощью можно было закодировать васе символы клавиатуры компьютера?

Таким образом, информационный вес одного символа достаточного алфавита равен 1 байту .

Для измерения больших информационных объемов используются более крупные единицы измерения информации:

Единицы измерения количества информации:

1 байт = 8 бит

1 килобайт = 1 Кб = 1024 байта

1 мегабайт = 1 Мб = 1024 Кб

1 гигабайт = 1 Гб = 1024 Гб

Информационный объем текста

1. Количество символов в книге:

60 * 40 * 150 = 360 000 символов.

2. Т.к. 1 символ весит 1 байт, информационный объем книги равен

360 000 байтов.

3. Переведем байты в более крупные единицы:

360 000 / 1024 = 351,56 Кб

351,56 / 1024 = 0,34 Мб

Ответ: Информационный объем текста 0,34 Мб.

Задача:

Информационный объем текста, подготовленного с помощью компьютера, равен 3,5 Кб. Сколько символов содержит этот текст?

1. Переведем объем из Мб в байты:

3,5 Мб * 1024 = 3584 Кб

3584 Кб * 1024 = 3 670 016 байт

2. Т.к. 1 символ весит 1 байт, количество символов в тексте равно

Цель урока:

  1. Иметь представление об алфавитном подходе к определению количества информации;
  2. Знать формулу для определения количества информационных сообщений,количества информации в сообщений;
  3. Уметь решать задачи на определение количества информационных сообщений и количества информации, которое несет полученное сообщение.

Ход урока

1. Актуализация знаний:

Ребята давайте понаблюдаем за тем, что мы видим за окном. Что вы можете сказать о природе? (Наступила зима.)
- Но почему вы решили, что наступила зима? (Холодно, идет снег.)
- Но ведь нигде не написано, что это признаки зимы. (Но мы знаем, что все это означает: наступила зима.)

Поэтому и получается, что, то знание, которое мы извлекаем из окружающей действительности и есть информация. (слайд 1 )

Разминка.

Заполнить таблицу и стрелочками показать соответствия.

Можно ли измерить количество информации и как это сделать? (Да)

Оказывается, информацию также можно измерять и находить ее количество.

Существуют два подхода к измерению информации. С одним из них мы сегодня познакомимся. (Смотри приложение слайд 2 )

2. Изучение нового материала.

Каким образом можно найти количество информации?

Рассмотрим пример.

У нас есть небольшой текст, написанный на русском языке. Он состоит из букв русского алфавита, цифр, знаков препинания. Для простоты будем считать, что символы в тексте присутствуют с одинаковой вероятностью.

Множество используемых в тексте символов называется алфавитом .

В информатике под алфавитом понимают не только буквы, но и цифры, и знаки препинания, и другие специальные знаки.

У алфавита есть размер (полное количество символов) , который называется мощностью алфавита. При алфавитном подходе считается, что каждый символ текста имеет определенный “информационный вес”. С увеличением мощности алфавита увеличивается информационный вес символов этого алфавита.

Обозначим мощность алфавита через N.

Найдем зависимость между информационным весом символа (i) и мощностью алфавита (N). Самый наименьший алфавит содержит 2 символа, которые обозначаются “0” и “1”. Информационный вес символа двоичного алфавита принят за единицу информации и называется 1 бит. (Cмотри приложение слайд 3 )

N 2 4 8 16 32 64 128 256
i 1бит 2бит 3бит 4бит 5бит 6бит 7бит 8бит

В компьютере также используется свой алфавит, который можно назвать компьютерным. Количество символов, которое в него входит, равно 256 символов. Это мощность компьютерного алфавита.

Также мы выяснили, что закодировать 256 разных символов можно показать с помощью 8 битов.

8 бит является настолько характерной величиной, что ей присвоили свое название – байт.

1байт = 8 битам

Используя этот факт: можно быстро подсчитать количество информации, содержащееся в компьютерном тексте, т.е.в тексте набранном с помощью компьютера, учитывая, что большинство статей, книг, публикаций и т.д. написаны с помощью текстовых редакторов, то таким способом можно найти информационный объем любого сообщения, созданного подобным образом.

Правило для измерения информации с точки зрения алфавитного подхода посмотрим на слайде. (Cмотри приложение слайд 4 )

Пример:

Найти информационный объем страницы компьютерного текста.

Решение:

Используем правило.

1. Найдем мощность: N=256
2. Найдем информационный объем одного символа: N= 2 i i = 8 бит = 1 байт.
3. Найдем количество символов на странице. Примерно.

(Найти количество символов в строке и умножить на количество строк)

Пояснение:

Пусть дети выберут произвольную строку и подсчитают количество символов в ней, учитывая все знаки препинания и пробелы.

40 символов * 50 строк = 2000символов.

4. Найдем информационный объем всей страницы: 2000 * 1 = 2000 байтам

Согласитесь, что байт – маленькая единица измерения информации. Для измерения больших объемов информации используют следующие единицы (Cмотри приложение слайд5 )

3. Закрепление изученного материала.

На доске:

Заполнить пропуски числами и проверить правильность.

1 Кбайт = ___ байт = ______бит,
2 Кбайт = _____ байт =______бит,
24576 бит =_____байт =_____Кбайт,
512 Кбайт = ___ байт =_____бит.

Предлагается ученикам задачи:

1) Сообщение записано с помощью алфавита, содержащего 8 символов. Какое количество информации несет одна буква этого алфавита?

Решение: N=8 , то i= 3 битам

2) Сообщение, записанное буквами из 128-символьного алфавита, содержит 30 символов. Какой объем информации оно несет?

1. N= 128 , K=30
2. N= 2 i i= 7 битам (объем одного символа)
3. I = 30*7 = 210бит (объем всего сообщения)

4. Творческая работа.

Наберите на компьютере текст, информационный объем которого равен 240 байт.

5. Итоги урока.

Что нового сегодня мы узнали на уроке?
- Как определяется количество информации с алфавитной точки зрения?
- Как найти мощность алфавита?
- Чему равен 1байт?

6. Домашнее задание (Cмотри приложение слайд 6 ).

Выучить правило для измерения информации с точки зрения алфавитного подхода.

Выучить единицы измерения информации.

Решить задачу:

1) Мощность некоторого алфавита равна 64 символам. Каким будет объем информации в тексте, состоящем из 100символов.
2) Информационный объем сообщения равен 4096 бит. Оно содержит 1024 символа. Какова мощность алфавита, с помощью которого составлено это сообщение?

Количество информации

Количество информации как мера уменьшения неопределенности знания.
(Содержательный подход к определению количества информации)

Процесс познания окружающего мира приводит к накоплению информации в форме знаний (фактов, научных теорий и т. д.). Получение новой информации приводит к расширению знаний или, как иногда говорят, к уменьшению неопределенности знания. Если некоторое сообщение приводит к уменьшению неопределенности нашего знания, то можно говорить, что такое сообщение содержит информацию.

Например, после сдачи зачета или выполнения контрольной работы вы мучаетесь неопределенностью, вы не знаете, какую оценку получили. Наконец, учитель объявляет результаты, и вы получаете одно из двух информационных сообщений: "зачет" или "незачет", а после контрольной работы одно из четырех информационных сообщений: "2", "3", "4" или "5".

Информационное сообщение об оценке за зачет приводит к уменьшению неопределенности вашего знания в два раза, так как получено одно из двух возможных информационных сообщений. Информационное сообщение об оценке за контрольную работу приводит к уменьшению неопределенности вашего знания в четыре раза, так как получено одно из четырех возможных информационных сообщений.

Ясно, что чем более неопределенна первоначальная ситуация (чем большее количество информационных сообщений возможно), тем больше мы получим новой информации при получении информационного сообщения (тем в большее количество раз уменьшится неопределенность знания).

Количество информации можно рассматривать как меру уменьшения неопределенности знания при получении информационных сообщений.

Рассмотренный выше подход к информации как мере уменьшения неопределенности знания позволяет количественно измерять информацию. Существует формула, которая связывает между собой количество возможных информационных сообщений N и количество информации I, которое несет полученное сообщение:

N = 2 i (1.1)

Бит . Для количественного выражения любой величины необходимо сначала определить единицу измерения. Так, для измерения длины в качестве единицы выбран метр, для измерения массы - килограмм и т. д. Аналогично, для определения количества информации необходимо ввести единицу измерения.

За единицу количества информации принимается такое количество информации, которое содержится в информационном сообщении, уменьшающем неопределенность знания в два раза. Такая единица названа битом .

Если вернуться к рассмотренному выше получению информационного сообщения о результатах зачета, то здесь неопределенность как раз уменьшается в два раза и, следовательно, количество информации, которое несет сообщение, равно 1 биту.

Производные единицы измерения количества информации. Минимальной единицей измерения количества информации является бит, а следующей по величине единицей - байт, причем:

1 байт = 8 битов = 2 3 битов.

В информатике система образования кратных единиц измерения несколько отличается от принятых в большинстве наук. Традиционные метрические системы единиц, например Международная система единиц СИ, в качестве множителей кратных единиц используют коэффициент 10 n , где n = 3, 6, 9 и т. д., что соответствует десятичным приставкам "Кило" (10 3), "Мега" (10 6), "Гига" (10 9) и т. д.

В компьютере информация кодируется с помощью двоичной знаковой системы, и поэтому в кратных единицах измерения количества информации используется коэффициент 2 n

Так, кратные байту единицы измерения количества информации вводятся следующим образом:

1 килобайт (Кбайт) = 2 10 байт = 1024 байт;

1 мегабайт (Мбайт) = 2 10 Кбайт = 1024 Кбайт;

1 гигабайт (Гбайт) = 2 10 Мбайт = 1024 Мбайт.

Контрольные вопросы

    1. Приведите примеры информационных сообщений, которые приводят к уменьшению неопределенности знания.
    2. Приведите примеры информационных сообщений, которые несут 1 бит информации.

Определение количества информации

Определение количества информационных сообщений. По формуле (1.1) можно легко определить количество возможных информационных сообщений, если известно количество информации. Например, на экзамене вы берете экзаменационный билет, и учитель сообщает, что зрительное информационное сообщение о его номере несет 5 битов информации. Если вы хотите определить количество экзаменационных билетов, то достаточно определить количество возможных информационных сообщений об их номерах по формуле (1.1):

Таким образом, количество экзаменационных билетов равно 32.

Определение количества информации. Наоборот, если известно возможное количество информационных сообщений N, то для определения количества информации, которое несет сообщение, необходимо решить уравнение относительно I.

Представьте себе, что вы управляете движением робота и можете задавать направление его движения с помощью информационных сообщений: "север", "северо-восток", "восток", "юго-восток", "юг", "юго-запад", "запад" и "северо-запад" (рис. 1.11). Какое количество информации будет получать робот после каждого сообщения?

Всего возможных информационных сообщений 8, поэтому формула (1.1) принимает вид уравнения относительно I:

Разложим стоящее в левой части уравнения число 8 на сомножители и представим его в степенной форме:

8 = 2 × 2 × 2 = 2 3 .

Наше уравнение:

Равенство левой и правой частей уравнения справедливо, если равны показатели степени числа 2. Таким образом, I = 3 бита, т. е. количество информации, которое несет роботу каждое информационное сообщение, равно 3 битам.

Алфавитный подход к определению количества информации

При алфавитном подходе к определению количества информации отвлекаются от содержания информации и рассматривают информационное сообщение как последовательность знаков определенной знаковой системы.

Информационная емкость знака . Представим себе, что необходимо передать информационное сообщение по каналу передачи информации от отправителя к получателю. Пусть сообщение кодируется с помощью знаковой системы, алфавит которой состоит из N знаков {1, ..., N}. В простейшем случае, когда длина кода сообщения составляет один знак, отправитель может послать одно из N возможных сообщений "1", "2", ..., "N", которое будет нести количество информации I (рис. 1.5).

Рис. 1.5. Передача информации

Формула (1.1) связывает между собой количество возможных информационных сообщений N и количество информации I, которое несет полученное сообщение. Тогда в рассматриваемой ситуации N - это количество знаков в алфавите знаковой системы, а I - количество информации, которое несет каждый знак:

С помощью этой формулы можно, например, определить количество информации, которое несет знак в двоичной знаковой системе:

N = 2 => 2 = 2 I => 2 1 = 2 I => I=1 бит.

Таким образом, в двоичной знаковой системе знак несет 1 бит информации. Интересно, что сама единица измерения количества информации "бит" (bit) получила свое название ОТ английского словосочетания "Binary digiT" - "двоичная цифра".

Информационная емкость знака двоичной знаковой системы составляет 1 бит.

Чем большее количество знаков содержит алфавит знаковой системы, тем большее количество информации несет один знак. В качестве примера определим количество информации, которое несет буква русского алфавита. В русский алфавит входят 33 буквы, однако на практике часто для передачи сообщений используются только 32 буквы (исключается буква "ё").

С помощью формулы (1.1) определим количество информации, которое несет буква русского алфавита:

N = 32 => 32 = 2 I => 2 5 = 2 I => I=5 битов.

Таким образом, буква русского алфавита несет 5 битов информации (при алфавитном подходе к измерению количества информации).

Количество информации, которое несет знак, зависит от вероятности его получения. Если получатель заранее точно знает, какой знак придет, то полученное количество информации будет равно 0. Наоборот, чем менее вероятно получение знака, тем больше его информационная емкость.

В русской письменной речи частота использования букв в тексте различна, так в среднем на 1000 знаков осмысленного текста приходится 200 букв "а" и в сто раз меньшее количество буквы "ф" (всего 2). Таким образом, с точки зрения теории информации, информационная емкость знаков русского алфавита различна (у буквы "а" она наименьшая, а у буквы "ф" - наибольшая).

Количество информации в сообщении. Сообщение состоит из последовательности знаков, каждый из которых несет определенное количество информации.

Если знаки несут одинаковое количество информации, то количество информации I c в сообщении можно подсчитать, умножив количество информации I з, которое несет один знак, на длину кода (количество знаков в сообщении) К:

I c = I з × K

Так, каждая цифра двоичного компьютерного кода несет информацию в 1 бит. Следовательно, две цифры несут информацию в 2 бита, три цифры - в 3 бита и т. д. Количество информации в битах равно количеству цифр двоичного компьютерного кода (табл. 1.1).

Таблица 1.1. Количество информации, которое несет двоич ный компьютерный код