Поле корреляции. Неколлинеарные факторы, их коэффициенты частной корреляции
Задача
1
По
территориям Южного федерального округа приводятся статистические данные за 2000
год:
Территории федерального округа
|
Валовой региональный продукт,
млрд. руб., Y
|
Кредиты, предоставленные
предприятиям, организациям, банкам и физическим лицам, млн. руб., X
|
1. Респ. Адыгея
|
5,1
|
60,3
|
2. Респ. Дагестан
|
13,0
|
469,5
|
3. Респ. Ингушетия
|
2,0
|
10,5
|
4. Кабардино-Балкарская Респ.
|
10,5
|
81,7
|
5. Респ. Калмыкия
|
2,1
|
46,4
|
6. Карачаево-Черкесская Респ.
|
4,3
|
96,4
|
7. Респ. Северная Осетия - Алания
|
7,6
|
356,5
|
8. Краснодарский край1)
|
109,1
|
2463,5
|
9. Ставропольский край
|
43,4
|
278,6
|
10. Астраханская обл.
|
18,9
|
321,9
|
11. Волгоградская обл.
|
50,0
|
782,9
|
12. Ростовская обл. 1)
|
69,0
|
1914,0
|
Итого
|
156,9
|
2504,7
|
Средняя
|
15,69
|
250,47
|
Среднее квадратическое отклонение,
|
16,337
|
231,56
|
Дисперсия, D
|
266,89
|
53620,74
|
Предварительный
анализ исходных данных выявил наличие двух территорий с аномальными значениями
признаков. Эти территории исключены из дальнейшего анализа. Значения
показателей в итоговых строках приведены без учёта указанных аномальных единиц.
Задание:
.
Расположите территории по возрастанию фактора X. Сформулируйте рабочую гипотезу
о возможной связи Y и X.
.
Постройте поле корреляции и сформулируйте гипотезу о возможной форме и
направлении связи.
3.
Рассчитайте параметры а1 и а0 парной линейной функции и
линейно-логарифмической функции 
. Оцените
тесноту связи с помощью показателей корреляции (ryx и ηylnx) и
детерминации (r2yx и η2ylnx),
проанализируйте
их значения.
Надёжность
уравнений в целом оцените через F -критерий Фишера для уровня значимости 0,05.
На основе
оценочных характеристик выберите лучшее уравнение регрессии и поясните свой
выбор.
. По лучшему
уравнению регрессии рассчитайте теоретические значения результата ( ), по ним
постройте теоретическую линию регрессии и определите среднюю ошибку
аппроксимации - ε'ср., оцените
её величину.
.
Рассчитайте прогнозное значение результата , если прогнозное значение фактора ( ) составит
1,037 от среднего уровня ( ).
.
Рассчитайте интегральную и предельную ошибки прогноза (для 0,05), определите
доверительный интервал прогноза ( ; ), а также диапазон верхней и нижней границ
доверительного интервала ( ), оцените
точность выполненного прогноза.
Решение:
Для
построения графика расположим территории по возрастанию значений фактора . См.
табл.2. Так как график строится в табличном процессоре EXCEL, то в исходной
таблице фактор должен находиться на первом месте, а результат - на втором. Из
графика может быть сделан вывод о возможной форме связи валового регионального
продукта (Y) с кредитами, предоставленными предприятиям, организациям, банкам и
физическим лицам (X). В этом случае для описания зависимости следует построить
несколько моделей разного вида и на основе оценочных характеристик выбрать
оптимальную форму модели.
Таблица 2
Территории федерального округа
|
Кредиты, предоставленные
предприятиям, организациям, банкам и физическим лицам, млн. руб.
|
Валовой региональный продукт,
млрд. руб.
|
А
|
Х
|
Y
|
1. Респ. Ингушетия
|
10,5
|
2
|
2. Респ. Калмыкия
|
46,4
|
2,1
|
3. Респ. Адыгея
|
60,3
|
5,1
|
4. Кабардино-Балкарская Респ.
|
81,7
|
10,5
|
5. Карачаево-Черкесская Респ.
|
96,4
|
4,3
|
6. Ставропольский край
|
278,6
|
43,4
|
7. Астраханская обл.
|
321,9
|
18,9
|
8. Респ. Северная Осетия - Алания
|
356,5
|
7,6
|
9. Респ. Дагестан
|
469,5
|
13
|
10. Волгоградская обл.
|
782,9
|
50
|
Итого,
|
2504,7
|
156,9
|
Средняя
|
250,47
|
15,69
|
|
231,56
|
16,337
|
Дисперсия, D
|
53620,74
|
266,89
|

Рис. 1
По данным
таблицы №2 видно, что с увеличением факторного признака (Х) увеличивается
результативный признак (Y).
По характеру
расположения точек на поле корреляции (по графику) можно сделать вывод о слабой
связи. Так как точки корреляционного поля почти не обнаруживают определенную
направленность в своем расположении, можно говорить о наличии очень слабой
связи (линейной или нелинейной).
Обычно
моделирование начинается в построения уравнения прямой: , отражающей
линейную форму зависимости результата Y от фактора X.
Расчёт
неизвестных параметров уравнения выполним методом наименьших квадратов (МНК),
построив систему нормальных уравнений и решая её, относительно неизвестных а0 и
а1. Для расчёта используем значения определителей второго порядка Δ, Δа0 и Δа1 Расчётные
процедуры представим в разработочной таблице, в которую, кроме значений Y и X,
войдут X2, X*Y, а также их итоговые значения, средние, сигмы и дисперсии для Y
и X. См. табл.3.
Таблица 3
№
|
       
|
|
|
|
|
|
|
|
А
|
1
|
2
|
3
|
4
|
5
|
6
|
7
|
8
|
1
|
10,500
|
2,000
|
110,250
|
21,000
|
2,921
|
-0,921
|
0,848
|
0,059
|
2
|
46,400
|
2,100
|
2152,960
|
97,440
|
4,831
|
-2,731
|
7,459
|
0,174
|
3
|
60,300
|
5,100
|
3636,090
|
307,530
|
5,571
|
-0,471
|
0,222
|
0,030
|
4
|
81,700
|
10,500
|
6674,890
|
857,850
|
6,709
|
3,791
|
14,369
|
0,242
|
5
|
96,400
|
4,300
|
9292,960
|
414,520
|
7,492
|
-3,192
|
10,187
|
0,203
|
6
|
278,600
|
43,400
|
77617,960
|
12091,24
|
17,187
|
26,213
|
687,129
|
1,671
|
7
|
321,900
|
18,900
|
103619,610
|
6083,910
|
19,491
|
-0,591
|
0,349
|
0,038
|
8
|
356,500
|
7,600
|
127092,250
|
2709,400
|
21,332
|
-13,732
|
188,570
|
0,875
|
9
|
469,500
|
13,000
|
220430,250
|
6103,500
|
27,345
|
-14,345
|
205,779
|
0,914
|
10
|
782,900
|
50,000
|
612932,410
|
39145,000
|
44,022
|
5,978
|
35,741
|
0,381
|
Итого
|
2504,700
|
156,900
|
1163559,63
|
67831,390
|
156,900
|
0,000
|
1150,651
|
4,587
|
Средняя
|
250,47
|
15,690
|
|
|
|
|
|
45,9%
|
Сигма
|
231,56
|
16,337
|
|
|
|
|
|
-
|
Дисперсия, D
|
53620,74
|
266,89
|
|
|
|
|
|
-
|
Δ=
|
5362074,210
|
-
|
-
|
-
|
-
|
-
|
-
|
-
|
Δа0=
|
12665223,41
|
2,362-----
|
|
|
|
|
|
|
Δа1=
|
285326,470
|
0,053-----
|
|
|
|
|
|
|
Расчёт
определителя системы выполним по формуле:
10*1163559,63
- 2504,7*2504,7 = 5362074,21
Расчёт
определителя свободного члена уравнения выполним по формуле:
156,9*1163559,63
-67831,39*2504,7 =
=12665223,41
Расчёт
определителя коэффициента регрессии выполним по формуле:
10*1163559,63
-156,9*2504,7 = 285326,47.
Расчёт
параметров уравнения регрессии даёт следующие результаты:
; .
В конечном
счёте, получаем теоретическое уравнение регрессии следующего вида:

В уравнении
коэффициент регрессии а1 = 0,053 означает, что при увеличении объема кредитов
на 1 млн. руб. (от своей средней) объём валового регионального продукта
возрастёт на 0,053 млрд. руб. (от своей средней).
Свободный
член уравнения а0 =2,362 оценивает влияние прочих факторов, оказывающих
воздействие на объём валового регионального продукта.
Построение
логарифмической функции предполагает предварительное выполнение процедуры
линеаризации исходных переменных. В данном случае, для преобразования
нелинейной функции в линейную
введём новую переменную , которая
линейно связана с результатом. Следовательно, для определения параметров модели
будут
использованы традиционные расчётные приёмы, основанные на значениях
определителей второго порядка. См. расчётную таблицу №4.
Таблица 4
|