4 Оценка качества данных и процедура очистки
4.1 Общие сведения
Предобработка данных комплекс методов и алгоритмов, которые применяются в аналитическом приложении целью подготовить данные к решению конкретной задачи и приведения их в соответствие с требованиями, определенных спецификой задачи и способами ее решения.
Очистка данных определяет:
- противоречивость – информация, несоответствующая законам и т.д.
- аномальные значения – значения, которые сильно выбиваются из общего ряда;
- пропуски – незаполненные поля;
- несоответствие форматов;
- ошибки ввода или опечатки;
- дублирование.
Графически необходимость проведения очистки данных приведена на рисунке 4.1.
Рисунок 4.1 – Графическое представление необходимости проведения очистки данных
Этапы очистки данных включают:
- анализ данных;
- определение порядка и правил преобразования;
- подтверждение;
- преобразование;
- противоток очищенных данных.
Результаты очистки данных представлены на рисунке 4.2.
Рисунок 4.2 – Результаты очистки данных
4.2 Оценка качества данных
Одним из этапов очистки данных, предусмотренных ПАП «DEDUCTOR» является узел «Качество данных», предназначенный для проведения профайлинга и аудита данных с целью определения степени пригодности полей набора данных для решения задач анализа по объективным критериям: пропуски, выбросы, экстремальные значения. [3]
1 Шаг - для выполнения оценки качества данных на панели «Сценарии» нажимаем «Мастер обработки», предварительно в левой части окна выбрав необходимую для анализа базу данных. В появившемся окне выбираем обработчик «Качество данных» (рисунок 4.3).
Рисунок 4.3 - Оценка качества данных (выбор обработчика)
2 Шаг –определяем параметры обработки: пропущенные данные, выбросы и экстремальные значения. Для этого в секции «Максимально допустимый процент пропусков» можем задать максимально допустимое число пропусков в процентах к общему числу записей набора данных, при превышении которого поле считается требующим предобработки с целью восстановления пропущенных значений [3], равное 0%, так как при анализе выполнения импорта было получено, что пропуски отсутствуют ( см. рисунок 3.9).
В этом же окне выбираем способ определения выбросов и экстремальных значений. Выбираем «Стандартное отклонение», для которого критерием является отклонение значения признака от среднего более, чем на заданное число стандартных отклонений. При этом данный параметр отдельно задается для выбросов и для экстремальных значений, что в дальнейшем позволяет обрабатывать эти типы аномальных значений по отдельности, используя различные методы [3]. Нужно помнить, что каждый количественный показатель имеет свои значения этих параметров, поэтому все последующие шаги будут приведены для показателя П2 (рисунок 4.4).
Рисунок 4.4 - Оценка качества данных
(определение пропущенных данных, выбросов и экстремальных значений)
3 Шаг - задаем используемые столбцы. Так как мы хотим определить качество показателя П2, поэтому в графе «Назначение» для столбца П2 ставим значение «Используемый», для остальных – «Неиспользуемый», нажимаем «Далее» (рисунок 4.5).
Рисунок 4.5 - Оценка качества данных (задание используемых столбцов)
4 Шаг - нажимаем «Пуск» и ждем, пока в графе «Название процесса» не отобразится «Успешное завершение», а в графе «Процент выполнения текущего процесса» - 100%, после чего нажимаем «Далее» (рисунок 4.6).
Рисунок 4.6 - Оценка качества данных (запуск процесса)
5 Шаг - выбираем способ отображения данных: для этого ставим галочки напротив «Таблица характеристик полей», нажимаем «Далее» (рисунок 4.7).
Рисунок 4.7 - Оценка качества данных (выбор способа отображения данных)
6 Шаг - заполняем графы «Имя» и «Метка», нажимаем «Готово»
(рисунок 4.8).
Рисунок 18 - Оценка качества данных (завершение процесса)
7 Шаг – результаты профайлинга и аудита данных, сделанные узлом «Качество данных» представляются в виде таблицы, в заголовке которой указываются свойства набора данных и другие параметры оценки качества (рисунок 19).
В графе «Пропуски» отображается количество имеющихся пропусков и действие, которое требуется выполнить при восстановлении пропусков.
В графе «Выбросы» представлено количество обнаруженных выбросов и действие, которое требуется выполнить при их обработке.
В графе «Экстремальные» указывается количество обнаруженных экстремальных значений и действие, которое требуется выполнить при их обработке.
Графа «Количество уникальных» содержит количество уникальных значений в данных.
В графе «Качество данных» указывается индекс качества данных.
Поле «Резюме» содержит заключение о том, являются ли данные пригодными для последующего анализа. Пригодным считается поле, которое не содержит пропусков, экстремальных значений и выбросов, непригодным – поле, индекс качества которого равен 0. Все остальные поля считаются требующими предобработки. [3]
Рисунок 4.9 - Оценка качества данных
(определение качества данных и их пригодности к анализу)
Исходя из рисунка 4.9, делаем вывод, что данные показателя П2 (температура вспышки) не имеют пропусков, выбросов и экстремальных значений, индекс качества данных достаточно высок, следовательно, данные являются пригодными для анализа.
8 Шаг - аналогичным образом проводим оценку качества данных всех количественных показателей.
Рисунок 19 - Оценка качества данных
После проведения оценки качества данных для других количественных показателей получаем, что почти все параметры, кроме П10(Максимальный диаметр сверления (бетон - бур)) являются пригодными для анализа.
4.3 Выявление дубликатов и противоречий
Так как при оценке качества данных было выявлено, что у показателей отсутствуют выбросы, пропуски и экстремальные значения, поэтому не требуется выбирать обработчики «заполнение пропусков» и «редактирование выбросов». Однако, необходимо проверить данные на выявление возможных дубликатов и противоречий.
1 Шаг - для выявления дубликатов и противоречий необходимо на панели «Сценарии» нажимаем «Мастер обработки», предварительно в левой части окна выбрав необходимую для анализа базу данных. В появившемся окне выбираем соответствующий обработчик.
2 Шаг - в открывшемся окне для каждого показателя в графе «Назначение» выбираем «Входное» и нажимаем «Далее» (рисунок 4.10).
Рисунок 4.10 - Выявление дубликатов и противоречий
(назначение входных и выходных параметров)
3 Шаг - нажимаем «Пуск» и ждем, пока в графе «Название процесса» не отобразится «Успешное завершение», а в графе «Процент выполнения текущего процесса» - 100%, после чего нажимаем «Далее» (рисунок 4.11).
Рисунок 4.11 - Выявление дубликатов и противоречий (запуск процесса)
4 Шаг - в следующем окне выбираем способ отображения данных: для этого ставим галочки напротив «Отображает в виде таблицы информацию о дубликатах и противоречиях», нажимаем «Далее» (рисунок 4.12). При завершении назначаем имя и метку, нажимаем «Готово».
Рисунок 4.12 - Выявление дубликатов и противоречий (выбор способа отображения данных)
В отрывшемся окне (рисунок 4.13) видим, что в результирующий набор добавлены два поля логического типа «Противоречие» и «Дубликат», где для каждой записи исходных полей указывается признак дубликата или противоречия.
Если бы записи содержали противоречие, то в поле «Противоречие» для нее было установлен флажок «True» (истина). Аналогично и для поля «Дубликат».
Кроме того, в набор были включены два столбца целого типа «Группа противоречий» и «Группа дубликатов», содержащие номер группы для противоречивых и дублирующихся записей соответственно. Для записей, не содержащих противоречий и дубликатов, эти поля отображаются пустыми. [3]
Рисунок 4.13 - Выявление дубликатов и противоречий
Так как добавленные ячейки остались пустыми, следовательно, данные не содержат дубликатов и противоречий.