Основы сжатия информации.
Практическая работа 5
Работа с программами архивации.
Цель занятия: изучить способы сжатия информации; свойства алгоритма сжатия; основные понятия технологии сжатия информации; основные форматы упаковки данных; приёмы работы с программой WinRar.
Теоретические основы работы:
Основы сжатия информации.
Потребность в сжатии данных возникает по двум причинам:
1. информация не умещается на диске и её нужно уплотнить (особенно, если есть диаграммы, рисунки, графики);
2. необходимо выполнять резервное копирование всей информации на ПК, и часто эти копии занимают большой объём памяти, что опять ведёт к уплотнению информации.
Все методы сжатия информации можно условно поделить на два класса: сжатие с потерей информации и сжатие без потери информации.
Сжатие с потерей информации означает, что после распаковки уплотнённого архива мы получим документ, отличный от первоначального. Чем больше сжатие, тем больше потеря информации. Особенно незначительны потери информации в фотографических и музыкальных файлах. К алгоритмам сжатия с потерей информации относятся JPEG и MPEG. Сжатые графические файлы имеют расширение .JPG, а сжатые музыкальные файлы имеют расширение .MPG для видео или .MP3 для музыки.
Сжатие без потери информации основано на устранении избыточности информации, которая присутствует почти всегда. Для избыточности есть несколько оснований:
1. каждый символ русского языка обычно кодируется байтом, который содержит 8 битов и может выражать 256 различных кодов; для нашего «телеграфного текста вполне хватило бы шести битов на символ»;
2. в международной кодировке символов ASCII для кодирования любого символа отводится одинаковое количество битов (8), хотя часто встречающиеся символы можно кодировать меньшим количеством знаков. Программы сжатия информации могут вводить свою кодировку и приписывать к сжатому файлу некий словарь для распаковывающей программы. Алгоритмы, основанные на перекодировании информации, называют алгоритмами Хаффмана.
3. Иногда в текстах, но чаще в таблицах и графике повторяются коды. Например, если число 0 повторяется 20 раз, то нет смысла ставить 20 нулевых байтов, вместо них ставят один ноль и коэффициент 20. Алгоритмы, основанные на выявлении повторов, называются методами RLE ( Run Length Encoding).
Основные свойства алгоритмов сжатия.
Существует немало различных методов сжатия, но есть некоторые принципы и правила, которые являются общими для всех методов сжатия:
1. У всякого сжатия есть предел. Уплотнение ранее уплотнённого файла или не даёт выигрыша или приводит к проигрышу.
2. Для всякого метода сжатия можно подобрать файл, применительно к которому данный метод является наилучшим. И наоборот: можно подобрать файл, который в результате сжатия не уменьшится, а увеличится.
3. Из вышесказанного следует, что программы – упаковщики до начала работы должны выполнять предварительный просмотр обрабатываемых файлов и выбирать тот метод упаковки, который даёт наилучший результат.