Линейный одномерный регрессионный анализ

В целях исследований часто бывает удобно представить исследуемый объект в виде ящика, имеющего входы и выходы, не рассматривая детально его внутренней структуры. Конечно, преобразования в ящике (на объекте) происходят (сигналы проходят по связям и элементам, меняют свою форму и т. п.), но при таком представлении они происходят скрыто от наблюдателя.

Значения на входах и выходах черного ящика можно наблюдать и измерять. Содержимое ящика неизвестно.

Задача состоит в том, чтобы, зная множество значений на входах и выходах, построить модель, то есть определить функцию ящика, по которой вход преобразуется в выход. Такая задача называется задачей регрессионного анализа.

Проведем регрессионный анализ для двух переменных, которые имеют самую большую зависимость из всех исследуемых (определили посредством корреляционного анализа). Это П5 – Максимальное число оборотов холостого хода и П6– максимальная частота ударов.

Ставим задачу: Как максимальная частота ударов от максимального числа оборотов холостого хода П6(П5)?

Для начала предположим, что мы имеем дело с черным ящиком, имеющим один вход и один выход. Допустим для простоты, что зависимость между входом и выходом линейная или почти линейная. Тогда данная модель будет называться линейной одномерной регрессионной моделью. То есть выход Y зависит от входа X линейно, то есть гипотеза имеет вид:

Y = A1X + A0+S

Одномерная линейная модель представлена на рисунке

 

Рисунок 6.1 – Одномерная линейная модель

Результаты, полученные при корреляционном анализе, используем для построения линейных регрессионных моделей.

1 Шаг - на панели «Сценарии» выбираем соответствующий обработчик.

2 Шаг – в открывшемся окне для показателя П5 устанавливаем, как «Входное», для показателя П6 «Выходное», нажимаем «Далее»

3 Шаг – производим разбиение исходного набора данных на подмножества, нажимаем «Далее» (рисунок 6.1).

Рисунок 6.2 - Линейная регрессия (разбиение исходного набора данных на подмножества)

4 Шаг – при необходимости производим настройку диапазона выходных значений, нажимаем «Далее» (рисунок 6.2).

Рисунок 6.3 - Линейная регрессия (настройка диапазона выходных значений)

5 Шаг – производим настройку отбора переменных в регрессионную модель, для этого выбираем «Полное включение (Enter)», нажимаем «далее» (рисунок 6.3).

Рисунок 6.4 - Линейная регрессия
(настройка параметров отбора переменных в регрессионную модель)

6 Шаг – запускаем процесс построения линейной модели, нажимаем «Пуск» и ждем, пока в графе «Название процесса» не отобразится «Успешное завершение», а в графе «Процент выполнения текущего процесса» - 100%, после чего нажимаем «Далее».

7 Шаг – способы отображения данных «Коэффициенты регрессии», «Отчет по регрессии», «Диаграмма рассеяния), назначаем имя и метку, нажимаем «Готово».

Полученные коэффициенты регрессии отражены на рисунке 6.4 и в формуле (3), но нужно помнить, что значение коэффициента корреляции не близко к 1, следовательно, гипотеза о линейности не подтвердилась.

Рисунок 6.5 - Коэффициенты линейной регрессии

Вкладка «Отчет по регрессии» (рисунок 6.5) позволяет увидеть значение коэффициента детерминации, равного 0,9843. Это говорит о том, что качество регрессионной модели является высоким.


Рисунок 6.6 - Отчет по линейной регрессии

 

Формула регрессии отражена в формуле (3):

Y = 2.22X-1887.3(3)

Вкладка «Диаграмма рассеяния» позволяет графически увидеть распределение данных согласно регрессионной модели (рисунок 6.6). Прямая диагональная синяя линия представляет собой ориентир (линию идеальных значений). Чем ближе точка к этой линии, тем меньше ошибка модели. Также на диаграмме рассеяния отображаются две пунктирные линии – верхняя и нижняя границы доверительного интервала. Его ширина определяется допустимой ошибкой, которая вводится в поле «Ошибка». Если она (величина в столбце <Имя_поля>_ERR) меньше допустимой, то точка попадает в доверительный интервал. [3]

Средняя часть расчётов отражает два источника дисперсии: дисперсию, которая описывается уравнением регрессии (сумма квадратов, обусловленная регрессией) и дисперсию, которая не учитывается при записи уравнения (остаточная сумма квадратов). Частное от суммы квадратов, обусловленных регрессией и остаточной суммы квадратов называется "коэффициентом детерминации". В таблице результатов это частное выводится под именем "R2". В нашем примере мера определённости равна:

 

235051114,59/238793070=0,9843

 

То есть построенная регрессия объясняет 98.43% разброса значения переменной Y относительно среднего.

Рисунок 6.7 - Диаграмма рассеяния линейной регрессии

Коэффициент детерминации измеряет долю разброса относительно среднего значения, которую «объясняет» построенная регрессия. Коэффициент детерминации лежит в пределах от 0 до 1. Он измеряет качество построенной регрессии. Чем ближе коэффициент детерминации к 1, тем лучше регрессия «объясняет» зависимость в данных. Значение коэффициента детерминации возрастает с ростом числа переменных в регрессии, что не означает улучшения качества предсказания.

Как видно из рисунка в поле, ограниченной линиями Y+S и YS не попадает 1 точка, что составляет 3,33% всех значений, соответственно попадают в эту область 96,66% (порог 95%), что говорит о том, что выдвинутая нами гипотеза о том, что зависимость максимальной частоты ударов от максимального числа оборотов холостого хода – верная.

6.2 Линейный многомерный регрессионный анализ

Предположим, что функциональная структура ящика снова имеет линейную зависимость, но количество входных сигналов, действующих одновременно на объект, равно m:

 

Y = A0 + A1 · X1 + … + Am · Xm.+ S

 

В таком случае модель черного ящика будет выглядеть следующим образом:

Рисунок6.8 – Модель черного ящика линейного многомерного регрессионного анализа

Построим линейную двумерную регрессионную модель зависимости .

Работаем также в Мастере обработки Линейная регрессия.

1 шаг. В качестве входных параметров выберем П5 и П11 , в качестве выходного П6, остальные отметим как неиспользуемые.

2 шаг. В качестве способа отображения выбираем диаграмму рассеяния, коэффициенты регрессии и отчет по регрессии. Рассмотрим визуализатор отчет по регрессии. Здесь видим коэффициент регрессии А1 = 2,1962, А2 = 0,5828 и смещение по оси ординат А0 под именем "константа" =1648,51. То есть, уравнение регрессии выглядит следующим образом:

Рисунок 6.9 – Отчет по многомерной линейной регрессии

 

Y = 2,1962 • X1+,5828• X2+1648,51

Коэффициент детерминации равен 0,985

То есть построенная регрессия объясняет 98,5% разброса значения переменной Y относительно среднего.

.

Рисунок 6.10 Диаграмма рассеяния

Как видно из рисунка в поле, ограниченной линиями Y+S и YS не попадает 1 точка, что составляет 3% всех значений, соответственно попадают в эту область 97% (порог 68,27%), что говорит о том, что выдвинутая нами гипотеза о том, что зависимость максимальной частоты ударов П6 от максимального числа оборотов холостого хода П5 и длины перфоратора П11– верная.

Построим линейную трехмерную регрессионную модель зависимости максимальной частоты ударов П6 от максимального числа оборотов холостого хода П5, длины сетевого кабеля П11 и длины перфоратора П12.

Работаем также в Мастере обработки Линейная регрессия. На первом шаге в качестве входных параметров выберем П5, П11 и П12, в качестве выходного П6, остальные отметим как неиспользуемые.

В качестве способа отображения выбираем диаграмму рассеяния, коэффициенты регрессии и отчет по регрессии.

Рассмотрим визуализатор отчет по регрессии:

Рисунок 6.11 – Отчет по регрессии

Здесь видим коэффициент регрессии А1 = 2,27, А2 = 36,72, А3 = 0,66 и смещение по оси ординат А0 под именем "константа" = 1440,8. То есть, уравнение регрессии выглядит следующим образом:

Y = 2,27 • X1+36,72• X2+0,66• X2 +1440,8

Коэффициент детерминации равен 0,9882

То есть построенная регрессия объясняет 98,82% разброса значения переменной Y относительно среднего.

На рисунке 6.12 представлена диаграмма рассеяния:

Рисунок 6.12 – Диаграмма рассеяния

Как видно из рисунка в поле, ограниченной линиями Y+S и YS не попадает 2 точки, что составляет 6,67% всех значений, соответственно попадают в эту область 93% (порог 68,27%), что говорит о том, что выдвинутая нами гипотеза о том, что зависимость максимальной частоты ударов П6 от максимального числа оборотов холостого хода П5, длины сетевого кабеля П11 и длины перфоратора П12 имеет линейную зависимость – верная.

 

6.3 Нелинейная регрессия

 

В общем случае в регрессионный анализ вовлекаются несколько независимых переменных и необходимо оценить коэффициенты уравнения.

Переменные, объявленные независимыми, могут сами коррелировать между собой; этот факт необходимо обязательно учитывать при определении коэффициентов уравнения регрессии для того, чтобы избежать ложных корреляций.

При работе с множественной регрессией, в отличие от парной, необходимо определять алгоритм анализа. Стандартный алгоритм включает в итоговую регрессионную модель все имеющие предикторы. Пошаговый алгоритм предполагает последовательное включение (исключение) независимых переменных, исходя, из объяснительного «веса». Пошаговый метод хорош, когда имеется много независимых переменных; он «очищает» модель от откровенно слабых предикторов, делая ее более компактной и лаконичной.

Дополнительным условием корректности множественной регрессии (наряду с интервальностью, нормальностью, линейностью) является отсутствие мультиколлинеарности – наличия сильных корреляционных связей между независимыми переменными. [6]