2. Проста вибіркова лінійна регресія

 

Прості лінійні регресійні моделі встановлюють лінійну залежність між двома змінними, наприклад, витратами на відпустку та складом родини; витратами на рекламу та обсягом продукції, що випускається; витратами на споживання та валовим національним продуктом (ВНП), зміною ВНП залежно від часу, врожайністю культур та кількістю добрив, що вносяться під культури.

При цьому одна зі змінних вважається залежною змінною (y) та розглядається як функція від незалежної змінної (x).

У загальному вигляді проста вибіркова лінійна регресійна модель запишеться так:

(2.0)

де y — вектор спостережень за залежною змінною;

;

х — вектор спостережень за незалежною змінною;

;

b0,b1 — невідомі параметри регресійної моделі;

е — вектор випадкових величин (помилок);

. [5]

 

2.1. Оцінка параметрів лінійної регресії за допомогою

методу найменших квадратів

 

Щоб мати явний вид залежності, необхідно знайти (оцінити) невідомі параметри b0, b1 цієї моделі за допомогою критерію. Найпоширенішим є критерій мінімізації суми квадратів відхилень. Логічно, що треба проводити пряму таким чином, щоб сума квадратів помилок була мінімальною. В цьому і полягає критерій найменших квадратів: невідомі параметри b0 та b1 визначаються таким чином, щоб мінімізувати , тобто

(2.1.1)

 

Визначимо значення b0 та b1, котрі мінімізують вираз (2.1.1). Рішення системи двох лінійних нормальних рівнянь:

(2.1.2)

дозволяє одержати такі значення параметрів b1 та b0:

, (2.1.3)

де ; ;

. (2.1.4)

В явному вигляді регресія у від х, у якій параметри обчислені за методом найменших квадратів, виразиться так:

або . (2.1.5) [5]

Приклад 1. Побудувати лінійну регресійну модель, що характеризує залежність між обсягом продажу цукерок фабрики “Світоч” (млн. коробок) та витратами на рекламу (млн. грн.), на основі вихідних даних:

 

п/п Обсяг продажу, млн. коробок Витрати на рекламу, млн. грн.
1 2 3 4 5 25 30 35 45 65 5 6 9 12 18

 

Рішення:

В таблиці представимо результати попередніх розрахунків:

 

№ п/п Обсяг продажу, млн.коробок, yi Витрати на рекламу, млн. грн., xi ^ ^
1 2 3 4 5 25 30 35 45 65 5 6 9 12 18 125 180 315 540 1170 25 36 81 144 324 25 28 37 46 64 0 2 -2 -1 1
  200   40   50   10   2330   466   610   122   200   40   0   0

 

Розрахуємо параметри b1 та b0:

;

 

.

Таким чином, лінійна регресійна модель має вигляд:

або .

Зазначимо, що сума оцінених (розрахункових) значень обсягу продажу цукерок ( ) дорівнює сумі фактичних значень yi, а сума помилок дорівнює нулю.

 

Завдання 1. Припустимо, що ви зібрали дані про споживання домашніх господарств в Україні та їх доходів і оцінили таке рівняння: С = 120 + 0,75у

Визначити: а) яка змінна є залежною, а яка — незалежною;

б) пояснити взаємозв’язок між споживанням та доходом. На скільки зросте споживання, якщо доход зросте на 1 одиницю?

 

Завдання 2. Припустимо, ви зібрали дані про річний продаж фірмою “Україна” продукції (у) і суми, які використано на наукові дослідження (х). Ви маєте таку статистику:

коваріація:

варіація:

варіація: .

Середній річний продаж: ( )=1200.

Середня сума на наукові дослідження: ( )=895.

Визначити параметри регресії b0 та b1 і побудувати лінійну регресійну модель. Дати економічну інтерпретацію одрежаній моделі.

 

Завдання 3. Є такі дані:

 

  х   У
20 14 12 20 33 38 75 85 92 88 72 99        

 

Заповнити пропуски і знайти параметри регресії b0 та b1.

 

Завдання 4. Маємо дані про урожайність зернових (yi) і кількість внесених на 1 га мінеральних добрив (xi) під зернові за 10 років в ПОК “Зоря” Білозерського району Херсонської області:

 

Роки 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008
Урожайність, ц/га, yi 65,2 64,4 54,0 54,7 64,0 31,6 44,7 32,3 54,5 46,8
Внесено мін.добрив, ц.д.р. на 1 га, xi 2,6 2,5 2,1 2,2 2,3 1,6 1,8 2,1 2,0 1,9

 

Побудувати лінійну регресійну модель, що характеризує залежність між урожайністю зернових та кількістю внесених на 1 га мінеральних добрив.

 

2.2. Коефіцієнти кореляції та детермінації

 

Найпростішим критерієм, який дає кількісну оцінку зв’язку між двома показниками, є коефіцієнт кореляції:

r (2.2.1)

Значення коефіцієнта завжди розташовані між –1 та +1

Якщо rух = 0, зв’язок між ознаками відсутній;

|r yx| — щільність зв’язку низька;

0,3 <|r yx| — щільність зв’язку середня;

0,75 <|r yx|<1 — щільність зв’язку висока;

r yx= 1 — зв’язок переходить у функціональний;

r yx<0 — зв’язок зворотний;

r yx>0 — зв’язок прямий.

Поряд з коефіцієнтом кореляції використовується ще один критерій, за допомогою якого також вимірюється щільність зв’язку між двома або більше показниками та перевіряється адекватність (відповідність) побудованої регресійної моделі реальній дійсності. Таким критерієм є коефіцієнт детермінації ( R 2 ) :

. (2.2.2)

Частина дисперсії, котра пояснює регресію, називається коефіцієнтом детермінації.

Цей коефіцієнт показує, яка частина загальної варіації залежної (результативної) ознаки (у) обумовлена варіацією незалежної (факторної) ознаки (х), що включена в регресійну модель.

Коефіцієнт детермінації R2 завжди додатний і знаходиться в межах від 0 до 1 . [5]

Приклад 2. За даними прикладу 1 оцінити щільність зв’язку між обсягом продажу цукерок фірмою “Світоч” та витратами на рекламу.

 

Рішення: Розрахунки представимо в таблиці:

 

 

    №п/п Хі — витрати на рекламу, млн.грн. Уі — обсяг продажу, млн. коробок          
1 2 3 4 5 5 6 9 12 18 25 30 35 45 65 -5 -1 -1 2 8 -15 -10 -5 5 25 75 40 5 10 200 25 16 1 4 64 225 100 25 25 625
50   10 200   40 0   0 0   0 330   66 110   22 1000   200

 

Визначимо коефіцієнт кореляції:

r .

 

Визначимо коефіцієнт детермінації:

R2 = (r yx)2 = (0,995)2 = 0,990 або R2 = 99%.

Висновок: Коефіцієнт кореляції ryx=0,995 свідчить про високу щільність зв’язку між обсягом продажу цукерок та витратами на рекламу фірмою “Світоч”, оскільки 0,75<0,995<1. Коефіцієнт детермінації R2=99% показує, що 99% варіації (коливань) результативної ознаки — обсягу продажу цукерок на 99% обумовлено варіацією незалежної (факторної) ознаки — витратами на рекламу і лише 1% варіації обсягу продажу залежить від варіації факторів, що не включені в регресійну модель.

 

Завдання 5. За даними завдання 2 розрахувати коефіцієнт кореляції між обсягом продажу продукції та сумою, що використана на наукові дослідження в фірмі “Україна”. Визначити коефіцієнт детермінації для регресії. Дати економічну інтерпретацію одержаних результатів.

 

Завдання 6. За даними завдання 3 оцінити щільність зв’язку між залежною змінною (у) та незалежною змінною (х), розрахувавши коефіцієнти кореляції та детермінації. Зробити висновки.

 

Завдання 7. За даними завдання 4 дати кількісну оцінку зв’язку між урожайністю зернових та кількістю внесених мінеральних добрив під зернові в ПОК “Зоря” Білозерського району Херсонської області. Зробити висновки.

Завдання 8. Маємо статистику витрат родини залежно від кількості її членів:

 

Кількість членів родини, осіб, хі Витрати на відпустку, грош.одиниць, уі
1 2 2 4 6 17 11 23 19 30

 

1. Побудувати лінійну регресію і розрахувати параметри.

2. Розрахувати коефіцієнт кореляції та детермінації. Які висновки можна зробити щодо якості регресійної моделі?

 

Завдання 9. Є 4 динамічні ряди. Якщо ці дані апроксимувати простою лінійною регресією, то вони дадуть однакові результати. Побудувати графіки і проаналізувати їх зображення. Побудувати лінійну модель, оцінивши параметри за методом найменших квадратів. Оцінити щільність зв’язку між залежною (у) та незалежною (х) змінними. Пояснити отримані результати.

 

Х1 У1 Х2 У2 Х3 У3 Х4 У4
10 8,04 10 9,14 10 7,46 8 6,58
14 9,96 14 8,1 14 8,86 8 5,76
5 5,68 5 4,74 5 5,73 8 7,71
8 6,95 8 8,14 8 6,77 8 8,84
9 8,81 9 8,77 9 7,11 8 8,47
12 10,84 12 9,13 12 8,15 8 7,04
4 4,26 4 3,1 4 5,39 8 5,25
7 4,82 7 4,26 7 6,42 19 12,5
11 8,33 11 9,26 11 7,81 8 5,56
13 7,58 13 8,74 13 12,74 8 7,91
6 7,24 6 6,13 6 6,08 8 6,89

 

Завдання 10. Маємо дані про рівень звільнень на 100 робітників та рівень безробіття у виробничій сфері східного регіону України (дані умовні) протягом 1997-2009 рр.

 

Примітка: Дані про звільнення стосуються людей, що покинули роботу за власним бажанням.

 

Рік Рівень звільнень на 100 робітників, у Рівень безробіття (%), х
1997 1,3 6,2
1998 1,2 7,8
1999 1,4 5,8
2000 1,4 5,7
2001 1,5 5,0
2002 1,9 4,0
2003 2,6 3,2
2004 2,3 3,6
2005 2,5 3,3
2006 2,7 3,3
2007 2,1 5,6
2008 1,8 6,8
2009 2,2 5,6

 

 

1. Нанесіть дані на координатну площину.

2. Припустимо, що рівень звільнень (у) лінійно пов’язаний з рівнем безробіття (х) і цей зв’язок виражається моделлю . Обчисліть параметри .

3. Обчисліть коефіцієнт кореляції та детермінації.

4. Поясніть отримані результати.

 

Завдання 11. У таблиці подано дані про кількість телефонів на 1000 осіб (у) та валовий внутрішній продукт (ВВП) на душу населення (х) у західному районі України (дані умовні) за 1989-2009 рр. Чи є зв’язок між цими двома змінними? Довести, побудувавши лінійну регресійну модель та обчисливши коефіцієнти кореляції та детермінації. Зробити висновки.

 

Рік у х Рік у х
1989 36 1299 2001 102 3033
1990 37 1365 2002 114 3317
1991 38 1409 2003 126 3487
1992 41 1549 2004 141 3575
1993 42 1416 2005 163 3784
1994 45 1473 2006 196 4025
1995 48 1589 2007 223 4286
1996 54 1757 2008 269 4628
1997 59 1974 2009 291 5038
1998 67 2204      
1999 78 2462      
2000 90 2723      

 

2.3. Поняття про ступені вільності. Аналіз дисперсій

 

Тотожність, яка пов’язує загальну суму квадратів із сумою квадратів залишків та сумою квадратів, що пояснює регресію:

. (2.3.1)

 

Кожна сума квадратів пов’язана з числом, яке називають її “ступенем вільності”. Це число показує, скільки незалежних елементів інформації, що утворилися з елементів , потрібно для розрахунку даної суми квадратів.

У статистиці кількістю ступенів вільності певної величини часто називають різницю між кількістю різних дослідів і кількістю констант, установлених в результаті цих дослідів незалежно один від одного.

Суми квадратів пов’язані з певним джерелом варіації, а також із ступенями вільності і середніми квадратами. Зведемо їх у таблиці, яка називається базовою таблицею дисперсійного аналізу ( ANOVA — таблиця). [5]

 

ANOVA -таблиця

Джерело варіації Кількість ступенів вільності Сума квадратів Середні квадрати
Зумовлене регресією (модель)   1
Непояснюване за допомогою регресії (помилка)  
Загальне     Не розраховується

 

Приклад 3. За даними та результатами прикладу 1 побудувати ANOVA-таблицю дисперсійного аналізу.

Рішення: Попередні розрахунки представимо в таблиці.

 

i
1 2 3 4 5 25 30 35 45 65 25 28 37 46 64 225 144 9 36 576 0 4 4 1 1 225 100 25 25 625
    200   200   990   10   1000
  40   40   x   x   x

 

Побудуємо ANOVA-таблицю для прикладу про залежність між обсягами реалізації продукції та витратами на рекламу.

 

 

Джерело варіації Кількість ступенів вільності Сума квадратів Середні квадрати
Модель 1
Помилка n-2=5-2=3
Загальне n-1=5-1=4   Не розраховується

2.4. Перевірка простої регресійної моделі на адекватність.