6 Моделирование и анализ зависимостей между количественными признаками

Если расчёт корреляции характеризует силу связи между двумя переменными, то регрессионный анализ служит для определения вида этой связи и дает возможность для прогнозирования значения одной (зависимой) переменной отталкиваясь от значения другой (независимой) переменной.

Для проведения линейного регрессионного анализа зависимая переменная должна иметь порядковую шкалу. В то же время, бинарная логистическая регрессия выявляет зависимость дихотомической переменной от некой другой переменной, относящейся к любой шкале. Те же условия применения справедливы и для пробит-анализа. Если зависимая переменная является категориальной, но имеет более двух категорий, то здесь подходящим методом будет мультиномальная логистическая регрессия. И, наконец, можно анализировать и нелинейные связи между переменными, которые относятся к интервальной шкале. Для этого предназначен метод нелинейной регрессии.

Простая линейная регрессия:

Этот вид регрессии лучше всего подходит для того, чтобы продемонстрировать основополагающие принципы регрессионного анализа. В таком случае говорят о линейной связи:

,

где b — регрессионные коэффициенты, a — смещение по оси ординат.

Смещение по оси ординат соответствует точке на оси у (вертикальной оси), где прямая регрессии пересекает эту ось. Коэффициент регрессии b через соотношение

b=tg(a),

указывает на угол наклона прямой.

При проведении простой линейной регрессии основной задачей является определение параметров b и а. Оптимальным решением этой задачи является такая прямая, для которой сумма квадратов вертикальных расстояний до отдельных точек данных является минимальной.

Множественная линейная регрессия:

В общем случае в регрессионный анализ вовлекаются несколько независимых переменных. Это, конечно же, наносит ущерб наглядности получаемых результатов, так как подобные множественные связи, в конце концов, становится невозможно представить графически.

В случае множественного регрессионного анализа речь идѐт необходимо оценить коэффициенты уравнения

y = b 1 - x 1 + b 2 - x 2 +….+ bn - xn + a,

Регрессионный анализ используется для нахождения уравнения, которое связывает зависимую переменную (отклик) с одной или несколькими независимыми переменными (предикторами).

Суть регрессионного анализа заключается в нахождении наиболее важных факторов, которые влияю на зависимую переменную.

 

где n — количество независимых переменных, обозначенных как х1 и хn, — некоторая константа.

Переменные, объявленные независимыми, могут сами коррелировать между собой; этот факт необходимо обязательно учитывать при определении коэффициентов уравнения регрессии для того, чтобы избежать ложных корреляций.

Для множественного анализа с несколькими независимыми переменными не рекомендуется оставлять метод включения всех переменных, установленный по умолчанию. Этот метод соответствует одновременной обработке всех независимых переменных, выбранных для анализа, и поэтому он может рекомендоваться для использования только в случае простого анализа с одной независимой переменной. Для множественного анализа следует выбрать один из пошаговых методов. При прямом методе независимые переменные, которые имеют наибольшие коэффициенты частичной корреляции с зависимой переменной, пошагово увязываются в регрессионное уравнение. При обратном методе начинают с результата, содержащего все независимые переменные, и затем исключают независимые переменные с наименьшими частичными корреляционными коэффициентами, пока соответствующий регрессионный коэффициент не оказывается незначимым.

Наиболее распространенным является пошаговый метод, который устроен так же, как и прямой метод, однако после каждого шага переменные, используемые в данный момент, исследуются по обратному методу. При пошаговом методе могут задаваться блоки независимых переменных; в этом случае заданные блоки на одном шаге обрабатываются совместно.

Нелинейная регрессия:

Многие связи по своей природе, то есть в реальной жизни, либо являются строго линейными, либо их можно привести к линейному виду.

Бинарная логистическая регрессия:

С помощью метода бинарной логистической регрессии можно исследовать зависимость дихотомических переменных от независимых переменных, имеющих любой вид шкалы.

Как правило, в случае с дихотомическими переменными речь идѐт о некотором событии, которое может произойти или не произойти; бинарная логистическая регрессия в таком случае рассчитывает вероятность наступления события в зависимости от значений независимых переменных.

Вероятность наступления события для некоторого случая рассчитывается по формуле

,

где , X 1— значения независимых переменных, b1 — коэффициенты, расчёт которых является задачей бинарной логистической регрессии, a— некоторая константа.

Если для p получится значение меньшее 0,5, то можно предположить, что событие не наступит; в противном случае предполагается наступление события.

Мультиномиальная логистическая регрессия:

Этот метод является вариантом логистической регрессии, при которой зависимая переменная не является дихотомической, как при бинарной логистической регрессии, а имеет больше двух категорий. В то время как, при бинарной логистической регрессии не-зависимая переменная может иметь интервальную шкалу, то мультиномиальная логисти-ческая регрессия пригодна только для категориальных независимых переменных, причѐм имеет значение, относятся ли они к шкале наименований или к порядковой шкале. Конеч-но же, не исключается возможность задания в качестве ковариат переменных, имеющих интервальную шкалу.

Порядковая регрессия:

Порядковая регрессия предназначена для целевой переменной, принадлежащей к порядковой шкале. Независимые переменные и здесь должны быть категориальными (то есть иметь номинальную или порядковую шкалу), однако в качестве ковариат допускается применение порядковой регрессии.

Коэффициент детерминации R2 – показатель, насколько качественными являются данные, изменяется от 0 до 1 и чем ближе к 1, тем лучше регрессионная модель.

В общем виде регрессионная модель имеет вид уравнения (2):

Y = a0 + X1*a1 + X2*a2 +...+ Xn*an + ɛ (2)

где Y – зависимая переменная (отклик);

X 1 , X 2 ,… Xn – независимые переменные (регрессоры);

ɛ - ошибка, учитывающая суммарное влияние факторов на модель;

а0, а1,…а n - коэффициенты модели (параметры);

Таким образом, задача сводится к подбору коэффициентов ai. Он производится методом наименьших квадратом (МНК). [6]

6.1 Линейная регрессия

 

Для проведения линейного регрессионного анализа зависимая переменная должна иметь порядковую шкалу. В то же время, бинарная логистическая регрессия выявляет зависимость дихотомической переменной от некой другой переменной, относящейся к любой шкале. Те же условия применения справедливы и для пробитанализа. Если зависимая переменная является категориальной, но имеет более двух категорий, то здесь подходящим методом будет мультиномиальная логистическая регрессия. И, наконец, можно анализировать и нелинейные связи между переменными, которые относятся к интервальной шкале. Для этого предназначен метод нелинейной регрессии.