3 Подготовка данных для работы в ПАП «DEDUCTOR»
3.1 Общие сведения о ПАП « DEDUCTOR »
«DEDUCTOR» является аналитической платформой - основой для создания законченных прикладных решений в области анализа данных. Реализованные в ПАП «DEDUCTOR» технологии позволяют на базе единой архитектуры пройти все этапы построения аналитической системы: от создания хранилища данных до автоматического подбора моделей и визуализации полученных результатов.
ПАП «DEDUCTOR» состоит из шести частей:
- Deductor Warehouse – многомерное хранилище данных, аккумулирующее всю требуемую для анализа предметной области информацию. Использование единого хранилища позволяет обеспечить непротиворечивость данных и централизованное хранение, а также автоматически обеспечивает всю необходимую поддержку процесса анализа. Deductor Warehouse оптимизирован для решения именно аналитических задач, что положительно сказывается на скорости доступа к данным. В ряде случаев имеет смысл отказаться от традиционного хранилища и воспользоваться альтернативой - виртуальным хранилищем Virtual Warehouse;
- Deductor Studio – программа, реализующая функции импорта, обработки, визуализации и экспорта данных. Она может функционировать и без хранилища, получая информацию из любых других источников, но наиболее оптимальным является их совместное использование. В Deductor Studio включен полный набор механизмов, позволяющий получить информацию из произвольного источника данных, провести весь цикл обработки (очистку, трансформацию данных, построение моделей), отобразить полученные результаты наиболее удобным образом (OLAP, таблицы, диаграммы, деревья и т. д.) и экспортировать их в наиболее распространенные форматы;
- Deductor Viewer – программа, ориентированная на конечного пользователя и предназначенная для просмотра подготовленных при помощи Deductor Studio отчетов. Он позволяет минимизировать требования к пользователю системы, т. к. все требуемые операции выполняются автоматически при помощи подготовленных ранее сценариев обработки. Пользователю Deduсtor Viewer нужно только выбрать и настроить вариант отображения полученных результатов;
- Deductor Analytic Server – служба, обеспечивающая удаленную аналитическую обработку данных. Она позволяет автоматически обрабатывать данные и переобучать модели на сервере, оптимизирует выполнение сценариев за счет кэширования проектов и использования многопоточной обработки;
- Deductor Integration Server – служба, обеспечивающая интеграционное взаимодействие компонентов;
- Deductor Client – клиент доступа к Deductor Server. Он обеспечивает доступ к серверу из сторонних приложений и управление его работой. [3]
Возможности ПАП «DEDUCTOR» приведены в таблице 3.
Таблица 3 – Возможности ПАП «DEDUCTOR»
Возможности платформы | |
Интеграция данных | - доступ к разнородным источникам: офисные приложения, 1C:Предприятие, СУБД, ERP-, CRM-системы, файлы, веб-сервисы; - консолидация данных в хранилище: быстрый, унифицированный и непротиворечивый источник информации для анализа; - удобный семантический слой хранилища данных для извлечения информации с применением привычных бизнес-терминов; - визуальная настройка извлечения, трансформации и загрузки данных в хранилище с возможностью очистки. |
Визуализация | - OLAP-модуль: кросс-таблицы и кросс-диаграммы для многомерного анализа данных; - десятки способов визуализации, позволяющие проводить разведочный и сравнительный анализ, выявлять тенденции; - панели отчетов для удобного представления информации конечным пользователям, не знакомых с аналитикой; - поддержка нерегламентированных «ad-hoc» запросов к хранилищу данных с последующей удобной визуализацией. |
Очистка данных | - контроль качества данных с автоматическим предложением действий по исправлению выявленных проблем; - выявление ошибок: встроенные алгоритмы поиска пропусков, аномалий, дубликатов и противоречий, обнаружения шумов; - исправление ошибок в данных на основе алгоритмов машинного обучения, статистики или по жестким правилам; - дедупликация данных: оценка схожести объектов, обогащение данных и объединение в единую корректную запись. |
DataMining | - самообучающиеся алгоритмы и машинное обучение: деревья решений, нейронные сети, самоорганизующиеся карты, ассоциативные правила; - анализ временных рядов: выявления сезонности, тренда и случайной составляющей; - множество способов оценки качества моделей с возможностью выбора лучшей; - специализированные визуализаторы, облегчающие интерпретацию и повышающих доверие к результатам. |
Сценарный подход | - визуальное проектирование логики обработки при помощи мастеров без программирования; - реализация всего цикла анализа: подготовка данных, выбор информативных признаков, очистка, моделирование, прогнозирование, постобработка и интерпретация результатов; - возможность произвольным образом комбинировать любые механизмы обработки; - перебор, сравнение и выбор лучших сценариев очистки, моделирования, прогнозирования. [4] |
Преимущества ПАП «DEDUCTOR» , определенные разработчиками, приведены в таблице 4.
Таблица 4 - Преимущества ПАП «DEDUCTOR»
Преимущества платформы | ||
Для руководителя | Для аналитика | Для IT-специалиста |
- минимизация затрат: любая аналитика - одна платформа; - эволюционное развитие от отчётности до оптимизации; - апробированная платформа - сотни внедренных проектов. | - все технологии анализа: Data Warehouse, OLAP, Data Mining; - аналитика от простых формул до самообучающихся алгоритмов; - разработка сценариев анализа без привлечения программистов. | - встроенная интеграция с десятками источников данных - высокая производительность; - техническая поддержка непосредственно от разработчиков [4] |
3.2 Подготовка БД к импорту в ПАП « DEDUCTOR »
Одним из возможных алгоритмов подготовки базы данных для работы в ПАП «DEDUCTOR» является алгоритм, включающий следующие шаги:
1 Шаг - для импорта данных в ПАП «DEDUCTOR» таблицу базы данных из MS Word переводим в формат MS Excel. Для этого таблицу выделяем, нажимаем «Копировать» и в пустом листе MS Excel нажимаем
«Параметры вставки: использовать конечное форматирование». Далее данные из формата .xlsx переводим в формат .txt. Для этого нажимаем «Файл»-«Сохранить как» и в окне «Тип файла» выбираем формат «Текст (MS-DOS), после чего вводим имя файла и назначаем место сохранения.
2 Шаг – для подключения файла к программе ПАП «DEDUCTOR», открываем программный продукт, нажимаем «Мастер импорта» на панели «Сценарии», выбираем формат импортируемого файла «Text» Текстовый файл (Direct) и нажимаем «Далее» (рисунок 3.1).
Рисунок 3.1 - Импорт в ПАП «DEDUCTOR» (выбор формата импортируемого файла)
3 Шаг – в открывшемся окне выбираем файл и кодировку «ASCII (MS DOS)», в окне «Просмотр выбранного файла» отразится база данных, нажимаем «Далее» (рисунок 3.2).
Рисунок 3.2 - Импорт в ПАП «DEDUCTOR» (выбор текстового файла)
4 Шаг - в графе «Формат исходных данных» из предложенных вариантов выбираем «С разделителями (значения полей отделяются специальными символами)», нажимаем «Далее» (рисунок 3.3).
Рисунок 3.3 - Импорт в ПАП «DEDUCTOR» (настройка параметров импорта из файла)
5 Шаг - в поле «Символом-разделителем является» из предложенных вариантов выбираем «Символ-табуляции», в окне просмотра видим базу данных, нажимаем «Далее» (рисунок 4).
Рисунок 3.4 - Импорт в ПАП «DEDUCTOR» (настройка параметров импорта с разделителями)
6 Шаг – в открывшемся окне выбираем параметры столбцов. Для количественных показателей значения параметров «Тип данных» и «Вид данных» принимаем «Вещественный» и «Непрерывный» соответственно. Для номинальных и порядковых показателей – «Строковый» и «Дискретный» соответственно. Параметр «Назначение» на данном этапе устанавливаем «Информационное», нажимаем «Далее» (рисунок 3.5).
Рисунок 3.5 - Импорт в ПАП «DEDUCTOR» (параметры столбцов)
7 Шаг – в окне «Запуск процесса импорта данных из текстового файла» нажимаем «Пуск» и ждем, пока в графе «Название процесса» не отобразится «Успешное завершение», а в графе «Процент выполнения текущего процесса» - 100%, после чего нажимаем «Далее» (рисунок 3.6).
Рисунок 3.6 - Импорт в ПАП «DEDUCTOR» (запуск процесса)
8 Шаг - в следующем окне выбираем способ отображения данных: для этого ставим галочки напротив «Таблица» и «Статистика», нажимаем «Далее» (рисунок 3.7).
Рисунок 3.7 - Импорт в ПАП «DEDUCTOR» (выбор способа отображения данных)
9 Шаг - на завершающем этапе импорта даем наименование полученному файлу и нажимаем «Готово» (рисунок 8).
Рисунок 3.8 - Импорт в ПАП «DEDUCTOR» (обозначение)
10 Шаг - во вкладке «Таблица» отображается база данных (рисунок 3.9), а во вкладке «Статистика» для каждого показателя значения минимального значения, максимального значения, среднего значения, стандартного отклонения, суммы, суммы квадратов, а также количество уникальных и количество пропущенных значений
Рисунок 3.9 - Отображение импортированной базы данных в ПАП «DEDUCTOR»
3.3 Анализ выполнения импорта, оценка качества данных на пригодность к анализу
При осуществлении импорта базы данных в ПАП «DEDUCTOR» не возникло каких-либо спорных моментов, платформа не выдавала каких-либо замечаний, следовательно, можно сделать вывод, что импорт был осуществлен качественно.
Оценка пригодности качества данных к анализу может быть следующей:
- данные полностью пригодны к анализу и не нуждаются в очистке;
- данные пригодны к анализу без очистки, но с определенными ограничениями;
- данные пригодны к анализу после применения методов очистки и предобработки;
- данные совершенно непригодны к анализу и никакие методы очистки ситуацию не исправят.
Исходя из приведенных выше вариантов оценки, можем сделать вывод, что на этапе импорта данные полностью пригодны к последующему анализу, однако, оценим качество данных и осуществим некоторые методы их очистки.