« Робота з системою аналізу даних Weka. Порівняння методів класифікації »

Міністерство освіти і науки, молоді та спорту України

Національний університет «Львівська політехніка»

Навчально-науковий інститут екології, природоохоронної діяльності

та туризму імені В’ячеслава Чорновола

 

Кафедра інформаційно-комп’ютерних

технологій та систем

 

 

Лабораторна робота № 3

 

з дисципліни «Інтелектуальна обробка даних»

 

на тему

 

« Робота з системою аналізу даних Weka. Порівняння методів класифікації »

 

Виконав :

Студент групи КІ-36

Гавчак О.О.

Перевірив:

Шалева О.Р

Львів - 2011

Мета лабораторної роботи

Основною метою лабораторної є визначення застосовності методів аналізу даних до певних даних. Для зручності визначення застосовності використовується система аналізу даних Weka та її графічний інтерфейс Experimenter. Важливо розуміти, що для визначення застосовності методу треба знати ті параметри, які визначають застосовність методу (тобто різні помилки методу та ін.).

 

Виконання лабораторної роботи

 

Підготовка до аналізу застосовності методів .

Для початку треба налаштувати аналізатор застосовності. Для цього буде потрібна вкладка Setup. Вона має два режими - простий (Simple) і складний (Advanced). Простий режим дозволяє виконувати більшість потрібних для аналізу застосовності дій, а складний - більш тонко налаштовувати роботу і виконувати ще деяка кількість операцій, які вимагають хорошого рівня розуміння аналізу застосовності.

Для початку роботи потрібно створити новий файл експерименту (*. exp) за допомогою кнопки New або відкрити збережений за допомогою кнопки Open.

При використанні простого режиму можна задати, куди і в якому вигляді (arff, csv, database) буде збережений результат аналізу застосовності методів (Results Destination), тип оцінки - крос-перевірка (при цьому-кількість проходів) або перевірка на розбитих в процентному співвідношенні підмножинах (зі збереженням вихідного порядку даних або перемішаними даними), тип експерименту (класифікація буде оцінюватися чи лише регресія, в залежності від оцінюваних алгоритмів), кількість ітерацій експерименту (кожна з яких складається з виклику обраної оцінки) та порядку проходження ітерацій - спочатку за всіма розділами спостережень для кожного з методів або спочатку за всіма методами для кожного з набору спостережень, і, нарешті, вибрати набори даних (datasets) і методи (algoritms), поведінка яких на цих наборах буде оцінюватися.

Після налаштування варто зберегти експеримент за допомогою кнопки Save.
Запуск процесу оцінки застосовності .

Запуск процесу оцінки застосовності здійснюється на вкладці Run за допомогою кнопки Start. Процес може зайняти досить тривалий час, тому що являє собою численні процеси навчання і тестування навченого класифікатора. При цьому в полі Log виводиться, на якій стадії перебуває процес аналізу застосовності.