Для оценки качества регрессионных моделей целесообразно также использовать коэффициент множественной корреляции (индекс корреляции) R
R = =
(6)
Данный коэффициент является универсальным, так как он отражает тесноту связи и точность модели, а также может использоваться при любой форме связи переменных.
Важным моментом является проверка значимости построенного уравнения в целом и отдельных параметров.
Оценить значимость уравнения регрессии – это означает установить, соответствует ли математическая модель, выражающая зависимость между Y и Х, фактическим данным и достаточно ли включенных в уравнение объясняющих переменных Х для описания зависимой переменной Y
Оценка значимости уравнения регрессии производится для того, чтобы узнать, пригодно уравнение регрессии для практического использования (например, для прогноза) или нет.
Для проверки значимости модели регрессии используется F-критерий Фишера. Если расчетное значение с n 1 = k и n 2 = (n - k - 1) степенями свободы, где k – количество факторов, включенных в модель, больше табличного при заданном уровне значимости, то модель считается значимой.
(7)
В качестве меры точности применяют несмещенную оценку дисперсии остаточной компоненты, которая представляет собой отношение суммы квадратов уровней остаточной компоненты к величине (n- k -1), где k – количество факторов, включенных в модель. Квадратный корень из этой величины ( ) называется стандартной ошибкой:
(8)
з начимость отдельных коэффициентов регрессии проверяется по t-статистике путем проверки гипотезы о равенстве нулю j-го параметра уравнения (кроме свободного члена):
, (9)
где — это стандартное (среднеквадратическое) отклонение коэффициента уравнения регрессии aj. Величина
представляет собой квадратный корень из произведения несмещенной оценки дисперсии
и j -го диагонального элемента матрицы, обратной матрице системы нормальных уравнений.
где - диагональный элемент матрицы
.
Если расчетное значение t-критерия с (n - k - 1) степенями свободы превосходит его табличное значение при заданном уровне значимости, коэффициент регрессии считается значимым. В противном случае фактор, соответствующий этому коэффициенту, следует исключить из модели (при этом ее качество не ухудшится).
Уравнение регрессии применяют для расчета значений показателя в заданном диапазоне изменения параметров. Оно ограниченно пригодно для расчета вне этого диапазона, т.е. его можно применять для решения задач интерполяции и в ограниченной степени для экстраполяции.
Прогноз, полученный подстановкой в уравнение регрессии ожидаемого значения параметра, является точечным. Вероятность реализации такого прогноза ничтожна мала. Целесообразно определить доверительный интервал прогноза.
Для того чтобы определить область возможных значений результативного показателя, при рассчитанных значениях факторов следует учитывать два возможных источника ошибок: рассеивание наблюдений относительно линии регрессии и ошибки, обусловленные математическим аппаратом построения самой линии регрессии. Ошибки первого рода измеряются с помощью характеристик точности, в частности, величиной . Ошибки второго рода обусловлены фиксацией численного значения коэффициентов регрессии, в то время как они в действительности являются случайными, нормально распределенными.
Для линейной модели регрессии при прогнозировании индивидуальных значений доверительный интервал рассчитывается по формуле (10) для этого оценивается величина отклонения от линии регрессии (обозначим ее U):
(10) где
.
Особенности практического применения регрессионных моделей
Одним из условий регрессионной модели является предположение о линейной независимости объясняющих переменных, т. е., решение задачи возможно лишь тогда, когда столбцы матрицы исходных данных линейно независимы. Для экономических показателей это условие выполняется не всегда.
Под мультиколлинеарностью понимается высокая взаимная коррелированность объясняющих переменных, которая приводит к линейной зависимости нормальных уравнений.
Мультиколлинеарность может возникать в силу разных причин. Например, несколько независимых переменных могут иметь одинаковый временной тренд, относительно которого они совершают малые колебания.
Существует несколько способов для определения наличия или отсутствия мультиколлинеарности.
Один из подходов заключается в анализе матрицы коэффициентов парной корреляции. Считают явление мультиколлинеарности в исходных данных установленным, если коэффициент парной корреляции между двумя переменными больше 0,8.
Другой подход состоит в исследовании матрицы Х'Х. Если определитель матрицы Х'Х близок к нулю, то это свидетельствует о наличии мультиколлинеарности.
Для устранения или уменьшения мультиколлинеарности используется ряд методов.
Наиболее распространенные в таких случаях следующие приемы: исключение одного из двух сильно связанных факторов, переход от первоначальных факторов к их главным компонентам, число которых быть может меньше, затем возвращение к первоначальным факторам.
Самый простой из них (но не всегда самый эффективный) состоит в том, что из двух объясняющих переменных, имеющих высокий коэффициент корреляции (больше 0,8), одну переменную исключают из рассмотрения. При этом какую переменную оставить, а какую удалить из анализа, решают в первую очередь на основании экономических соображений. Если с экономической точки зрения ни одной из переменных нельзя отдать предпочтение, то оставляют ту из двух переменных, которая имеет больший коэффициент корреляции с зависимой переменной.
Более сложным приемом в таких случаях является переход от первоначальных факторов к их главным компонентам, число которых быть может меньше, затем возвращение к первоначальным факторам
Еще одним из возможных методов устранения или уменьшения мультиколлинеарности является использование стратегии шагового отбора, реализованную в ряде алгоритмов пошаговой регрессии.
Наиболее широкое применение получили следующие схемы построения уравнения множественной регрессии: метод включения факторов и метод исключения – отсев факторов из полного его набора.
В соответствии с первой схемой признак включается в уравнение в том случае, если его включение существенно увеличивает значение множественного коэффициента корреляции, что позволяет последовательно отбирать факторы, оказывающие существенное влияние на результирующий признак даже в условиях мультиколлинеарности системы признаков, отобранных в качестве аргументов из содержательных соображений. При этом первым в уравнение включается фактор, наиболее тесно коррелирующий с Y, вторым в уравнение включается тот фактор, который в паре с первым из отобранных дает максимальное значение множественного коэффициента корреляции, и т.д. Существенно, что на каждом шаге получают новое значение множественного коэффициента (большее, чем на предыдущем шаге); тем самым определяется вклад каждого отобранного фактора в объясненную дисперсию Y.
Вторая схема пошаговой регрессии основана на последовательном исключении факторов с помощью t -критерия. Она заключается в том, что после построения уравнения регрессии и оценки значимости всех коэффициентов регрессии из модели исключают тот фактор, коэффициент при котором незначим и имеет наименьшее значение t - статистики . После этого получают новое уравнение множественной регрессии и снова производят оценку значимости всех оставшихся коэффициентов регрессии. Если среди них опять окажутся незначимые, то опять исключают фактор с наименьшим значением t -критерия. Процесс исключения факторов останавливается на том шаге, при котором все регрессионные коэффициенты значимы.
Ни одна их этих процедур не гарантирует получения оптимального набора переменных. Однако при практическом применении они позволяют получить достаточно хорошие наборы существенно влияющих факторов.
При отборе факторов также рекомендуется пользоваться следующим правилом: число включаемых факторов обычно в 6–7 раз меньше объема совокупности, по которой строится регрессия. Если это соотношение нарушено, то число степеней свободы остаточной дисперсии очень мало. Это приводит к тому, что параметры уравнения регрессии оказываются статистически незначимыми, а -критерий меньше табличного значения.
Особым случаем мультиколлинеарности при использовании временных выборок является наличие в составе переменных линейных или нелинейных трендов. В этом случае рекомендуется сначала выделить и исключить тренды, а затем определить параметры регрессии по остаткам.
Игнорирование наличия трендов в зависимой и независимой переменных ведет к завышению степени влияния независимых переменных на результирующий признак, что получило название ложной корреляции.
Наиболее часто в практических исследованиях возникает вопрос: сколько надо наблюдений для надежного определения параметров регрессии?
Выбор числа наблюдений определяется требованиями к точности и надежности оценок параметров. Из требований к точности прогноза и вытекает требование на число наблюдений. Обозначим требуемый размер половины доверительного интервала через , где
— оценка дисперсий случайной составляющей. Достижение этой желаемой точности определяется как объемом выборки, так и расположением прогностических значений факторов. Чем более разнесены последние от средних выборочных значений, тем меньше точность прогноза .
Большим препятствием к применению регрессии является ограниченность исходной информации, при этом наряду с указанными выше затрудняющими обстоятельствами (мультиколлинеарность, зависимость остатков, небольшой объем выборки и т. п.) ценность информации может снижаться за счет ее «засоренности», т. е. проявления новых обстоятельств, которые ранее не были учтены.
Резко отклоняющиеся наблюдения могут быть результатом либо действия большого числа сравнительно малых случайных факторов, которые в редких случаях приводят к большим отклонениям, либо это действительно случайные один или несколько выбросов, которые можно исключить как аномальные. Однако при наличии не менее трех аномальных отклонений на несколько десятков наблюдений их приписывают наличию одного или нескольких неучтенных факторов, которые проявляются только в виде аномальных наблюдений.
Задание
Для 29 однотипных предприятий получены данные о приросте прибыли, затратах на модернизацию производства, затратах на рекламу, затратах на премирование работников:
№ п/п | Прирост прибыли, тыс. руб. | Затраты на модернизацию производства, тыс. руб. | Затраты на рекламу, тыс. руб. | Затраты на премирование работников, тыс. руб. |
1 | 113 | 77 | 10 | 4 |
2 | 124 | 64 | 5 | 2 |
3 | 124 | 77 | 10 | 3 |
4 | 122 | 66 | 13 | 2 |
5 | 128 | 71 | 9 | 3 |
6 | 140 | 81 | 14 | 6 |
7 | 117 | 58 | 12 | 1 |
8 | 113 | 66 | 15 | 3 |
9 | 122 | 73 | 13 | 5 |
10 | 139 | 81 | 27 | 14 |
11 | 126 | 73 | 8 | 6 |
12 | 120 | 65 | 8 | 2 |
13 | 125 | 66 | 24 | 6 |
14 | 118 | 74 | 8 | 4 |
15 | 122 | 64 | 8 | 3 |
16 | 133 | 79 | 15 | 6 |
17 | 136 | 71 | 12 | 4 |
18 | 146 | 68 | 16 | 3 |
19 | 148 | 78 | 23 | 5 |
20 | 136 | 74 | 16 | 5 |
21 | 138 | 64 | 10 | 2 |
22 | 124 | 74 | 12 | 6 |
23 | 123 | 71 | 8 | 5 |
24 | 149 | 87 | 29 | 10 |
25 | 130 | 56 | 9 | 1 |
26 | 117 | 65 | 91 | 2 |
27 | 126 | 61 | 12 | 0 |
28 | 110 | 35 | 7 | 0 |
29 | 98 | 26 | 6 | 0 |
· Определить результативный и факторные признаки;
· Проверить наличие коллинеарности и мультиколлинеарности;
· Отобрать неколлинеарные факторы;
· Получить линейное уравнение множественной регрессии;
· Получить уравнение регрессии в стандартизированном виде;
· Найти средние коэффициенты эластичности;
· Найти множественный коэффициент корреляции;
· Найти коэффициент детерминации и скорректированный коэффициент детерминации;
· Оценить значимость параметров уравнения множественной регрессии и значимость присутствия каждого из факторов в уравнении множественной регрессии;
· Получить частные уравнения регрессии;
· Найти частные коэффициенты корреляции;
· Проверить остатки на гомоскедастичность.
Выполнение работы
Внимание! При создании таблиц используйте в качестве образца таблицы, приведённые на рисунках, при этом вы должны вводить данные в те же ячейки, что и на рисунке (столбцы и номера строк должны совпадать). В противном случае вычисления по формулам, данным в работе, будут неверными.