Основы сжатия информации.

Практическая работа 5

Работа с программами архивации.

Цель занятия: изучить способы сжатия информации; свойства алгоритма сжатия; основные понятия технологии сжатия информации; основные форматы упаковки данных; приёмы работы с программой WinRar.

Теоретические основы работы:

Основы сжатия информации.

Потребность в сжатии данных возникает по двум причинам:

1. информация не умещается на диске и её нужно уплотнить (особенно, если есть диаграммы, рисунки, графики);

2. необходимо выполнять резервное копирование всей информации на ПК, и часто эти копии занимают большой объём памяти, что опять ведёт к уплотнению информации.

Все методы сжатия информации можно условно поделить на два класса: сжатие с потерей информации и сжатие без потери информации.

Сжатие с потерей информации означает, что после распаковки уплотнённого архива мы получим документ, отличный от первоначального. Чем больше сжатие, тем больше потеря информации. Особенно незначительны потери информации в фотографических и музыкальных файлах. К алгоритмам сжатия с потерей информации относятся JPEG и MPEG. Сжатые графические файлы имеют расширение .JPG, а сжатые музыкальные файлы имеют расширение .MPG для видео или .MP3 для музыки.

Сжатие без потери информации основано на устранении избыточности информации, которая присутствует почти всегда. Для избыточности есть несколько оснований:

1. каждый символ русского языка обычно кодируется байтом, который содержит 8 битов и может выражать 256 различных кодов; для нашего «телеграфного текста вполне хватило бы шести битов на символ»;

2. в международной кодировке символов ASCII для кодирования любого символа отводится одинаковое количество битов (8), хотя часто встречающиеся символы можно кодировать меньшим количеством знаков. Программы сжатия информации могут вводить свою кодировку и приписывать к сжатому файлу некий словарь для распаковывающей программы. Алгоритмы, основанные на перекодировании информации, называют алгоритмами Хаффмана.

3. Иногда в текстах, но чаще в таблицах и графике повторяются коды. Например, если число 0 повторяется 20 раз, то нет смысла ставить 20 нулевых байтов, вместо них ставят один ноль и коэффициент 20. Алгоритмы, основанные на выявлении повторов, называются методами RLE ( Run Length Encoding).

Основные свойства алгоритмов сжатия.

Существует немало различных методов сжатия, но есть некоторые принципы и правила, которые являются общими для всех методов сжатия:

1. У всякого сжатия есть предел. Уплотнение ранее уплотнённого файла или не даёт выигрыша или приводит к проигрышу.

2. Для всякого метода сжатия можно подобрать файл, применительно к которому данный метод является наилучшим. И наоборот: можно подобрать файл, который в результате сжатия не уменьшится, а увеличится.

3. Из вышесказанного следует, что программы – упаковщики до начала работы должны выполнять предварительный просмотр обрабатываемых файлов и выбирать тот метод упаковки, который даёт наилучший результат.