Отчет по Лабораторной работе 4

Московский государственный технический университет им. Н.Э. Баумана

Факультет «Информатика и системы управления»

Кафедра «Автоматизированные системы обработки информации и управления»

 

Отчет по Лабораторной работе 4

По курсу

“Оперативный анализ и визуализация данных”

 

Выполнил:

Алексеев А.В.

Студент группы РТ5-51

 

 

Москва 2018

1 Цель лабораторной работы.

Цель работы – получить теоретические знания, изучив алгоритмы, применяемые в машинном обучении, и практические навыки исследования и распознавания образов с применением модели линейной регрессии и логистической регрессии.

 

2.Теоретические основы предметной области.

Линейная регрессия — метод восстановления зависимости между двумя переменными.

Задача линейной регрессии заключается в нахождении коэффициентов уравнения линейной регрессии, которое имеет вид:

y = b 0 + b 1 x 1 + b 2 x 2 + …+ bnxn

где y — выходная переменная модели;

x1, x2 xn — входные (независимые) переменные;

bi — коэффициенты линейной регрессии, называемые также параметрами модели (b0 — свободный член). Коэффициенты bi можно выразить через коэффициент корреляции Пирсона, стандартные отклонения и средние значения переменных x и y.

Логистическая регрессия:

Логистическая регрессия (Logistic regression) — метод построения линейного классификатора, позволяющий оценивать апостериорные вероятности принадлежности объектов классам. Логистическая регрессия применяется для предсказания вероятности возникновения некоторого события по значениям множества признаков. Для этого вводится так называемая зависимая переменная y, принимающая лишь одно из двух значений — как правило, это числа 0 (событие не произошло) и 1 (событие произошло), и множество независимых переменных (также называемых признаками, предикторами или регрессорами) — вещественных x1,x2..xn, на основе значений которых требуется вычислить вероятность принятия того или иного значения зависимой переменной. Характерна для задач оценки вероятности некоторого события на основе значений независимых переменных. Также используется для решения задач бинарной классификации, в которых выходная переменная может принимать только два значения — 0 или 1, «Да» или «Нет» и т. д.

 

 

3 Задачи лабораторной работы.

· Исследование и оценка распознавания образов с применением модели

линейной регрессии и логистической регрессии с множеством параметров.

· В процессе выполнения лабораторных работ необходимо построить несколько зависимостей (например, зависимость качества обучения от скорости обучения).

 

4.Результаты, полученные в лабораторной работе.

4.1. Линейная регрессия.

Зависимость времени обучения от предела сходимости

Предел сходимости:

10

1

0,1

0,01

0,001

Градиентный спуск

0,668

0,733

1,216

2,912

18,699

Метод наискорейшего спуска

0,904

1,068

1,674

7,758

26,38

BFGS

0,5

0,575

1,362

2,456

6,614

CG

0,56

0,656

1,093

4,009

17,156

 

 

Зависимость процента ошибок от предела сходимости

Предел сходимости:

10

1

0,1

0,01

0,001

Градиентный спуск

88,53

88,23

85,63

80,1

75,07

Метод наискорейшего спуска

82,59

84,24

79,76

74,81

74,78

BFGS

90,2

89,05

75,08

74,5

74,11

CG

90,2

89,05

75,05

74,26

74,04

 

Зависимость времени обучения от размера тестовой выборки

Размер тестовой выборки:

1

10

100

10000

20000

30000

40000

50000

Градиентный спуск

0,116

0,12

0,128

0,655

1,163

1,682

2,148

2,464

Метод наискорейшего спуска

0,126

0,134

0,139

1,601

3,201

4,733

6,351

7,183

BFGS

0,125

0,391

1,008

1,394

1,636

1,966

2,159

2,365

CG

0,117

0,12

0,127

1,134

1,692

3,03

2,996

3,652

 

 

 

 

Зависимость качества и времени обучения от скорости обучения для метода градиентного спуска

Скорость обучения:

0,001

0,01

0,1

1

2

5

10

100

Процент ошибок

85,96

80,1

100

100

100

100

100

100

Время обучения

6,25

2,666

8,457

4,135

3,638

3,225

2,87

2,247

 

 

 

 

4.2. Логистическая регрессия.

Зависимость процента ошибок от размера выборки

Размер тестовой выборки:

1

10

100

10000

20000

30000

40000

50000

Градиентный спуск

91,08

71,08

68,09

33,30

34,94

34,54

34,93

34,94

Метод наискорейшего спуска

91,08

58,64

31,58

16,01

15,26

15,45

15,46

15,45

BFGS

91,08

58,39

30,68

14,24

13,69

13,59

13,71

13,53

CG

91,08

57,84

32,04

19,55

19,44

19,38

20,11

19,91

 

 

Зависимость процента ошибок от предела сходимости

Предел сходимости:

10

1

0,1

0,01

0,001

Градиентный спуск

31,20

31,20

31,20

43,94

25,81

Метод наискорейшего спуска

19,52

19,52

22,65

15,45

10,94

BFGS

90,20

90,20

59,77

13,53

8,34

CG

90,20

90,20

59,77

19,91

15,11

 

Зависимость времени обучения от размера тестовой выборки

Размер тестовой выборки:

1

10

100

10000

20000

30000

40000

50000

Градиентный спуск

0,607

0,624

0,657

2,355

4,336

6,198

7,766

9,453

Метод наискорейшего спуска

0,619

0,642

0,695

4,001

7,321

10,580

13,895

17,352

BFGS

0,701

1,744

3,166

5,182

6,413

8,280

9,468

10,932

CG

0,655

0,657

0,683

2,185

3,766

5,298

7,089

8,431

 

 

Зависимость времени обучения от величины предела сходимости

Предел сходимости:

10

1

0,1

0,01

0,001

Градиентный спуск

5,828

5,768

5,810

9,104

25,149

Метод наискорейшего спуска

8,910

9,203

10,116

18,083

52,975

BFGS

5,201

5,173

6,012

11,067

71,697

CG

4,710

5,002

5,533

8,072

27,218

 

 

 

 

 

 

 

 

 

 

 

 

Для градиентного спуска влияние скорости обучения на качество и время обучения

Скорость обучения:

0,001

0,01

0,1

1

2

5

10

100

Процент ошибок

85,96

80,1

100

100

100

100

100

100

Время обучения

7,342

4,143

10,565

5,047

4,425

3,882

3,42

2,665

 

 

6.5 Выводы.

Изучил принципы алгоритмов машинного обучения, в частности, линейную и логистическую регрессию. Подкрепил теоретические навыки практическими исследованиями зависимостей основных параметров.