Оценка значимости и адекватности множественной регрессии
(3.15)
Хо’ = (1 x10 x20 … xp0) — вектор значений объясняющих переменных.
На основе выражения (3.14) можно оценивать ошибку (конус) прогноза в среднем.
Однако индивидуальное значение прогноза имеет больший доверительный интервал. Ранее мы рассмотрели его для парной регрессии (см. формулу (2.28)). Аналогичный интервал для индивидуальных значений зависимой переменной множественной регрессии:
— t1-a, n-p-1 £ £ + t1-a, n-p-1k , |
(3.16) |
где . |
(3.17) |
Аналогично доверительному интервалу для s2 парной регрессии (2.31) строится доверительный интервал и для множественной регрессии с соответствующим изменением числа степеней свободы для c2:
. |
(3.18) |
3.5. Оценка значимости и адекватности множественной регрессии
Как и в случае парной регрессии оценить значимость множественной регрессионной модели — значит подтвердить или опровергнуть суждение о том, что эта модель соответствует наблюденным данным.
Для решения задачи также используется дисперсионный анализ, согласно которому для сумм квадратов отклонений справедливо равенство: Q = QR + Qe.
Для этих сумм квадратов нетрудно записать матричные выражения:
Q = å (yi —)2 = å yi2-(å yi)2/n = Y ‘ Y — n2, |
(3.19) |
Qe = å (yi —)2 = Y’Y – b’ X ‘Y, |
(3.20) |
QR = Q — Qe = b’X’Y — n2. |
(3.21) |
Гипотеза Но о равенстве нулю всех параметров модели (b1=b2= … = bр = 0) отвергается, если фактическое значение статистики Фишера-Снедекора больше ее табличного значения:
F = > Fa, p, n-p-1. |
(3.22) |
Ранее в выражении (2.36) для оценки адекватности, прогностической силы парной регрессионной модели вводился коэффициент детерминации:
R2 = QR / Q = 1 — Qe / Q.
Для множественной регрессии коэффициент R2 может быть рассчитан по формулам:
R2 = QR / Q = |
(3.23) |
или |
|
R2 = 1 — Qe / Q = |
(3.24) |
или |
|
R2 = |
(3.25) |
где e = Y — Xb, = (,, … ), y =(Y — ) — n — мерные векторы |
e’e = å ei2 = å (yi —)2 |
y’y = å (yi — )2. |
Несмотря на достоинства коэффициента детерминации R2, судить только по нему о качестве — адекватности — модели некорректно. Дело в том, что R2 растет с увеличением числа объясняющих переменных, включаемых в модель, что не всегда верно. Поэтому применяют скорректированный (адаптированный) коэффициент детерминации:
=. |
(3.26) |
или
=. |
(3.27) |
Как видно, чем больше объясняющих переменных р, тем меньше в сравнении с R2 при прочих равных условиях. Таким образом, в модель должны включаться только те объясняющие переменные, которые действительно информативны и существенно влияют на объясняемую переменную Y.
Вопросы для самоконтроля
1. Запишите произвольный числовой пример линейной модели множественной регрессии для р=2 и n=5.
2. Какая модель называется классической нормальной ЛММР?
3. В чем смысл оптимальности b из уравнения (3.4)?
4. Является ли оценка b по МНК в множественной регрессии эффективной?
5. Что показывает стандартизованный коэффициент регрессии bj’?
6. Что показывает средний коэффициент эластичности ?
7. Сколько элементов содержит ковариационная матрица для СВ (Х, Y)?
8. Что означает åb в выражении (3.10), приведите произвольный числовой пример такой матрицы.
9. На произвольном числовом примере раскройте смысл математических объектов: s2, e, e’, p, ei.
10. В чем состоит гипотеза Но при оценке значимости уравнения множественной регрессии?
11. В чем преимущество скорректированного коэффициента детерминации перед обычным коэффициентом?
4. Практические вопросы построения регрессионных моделей
4.1. Мультиколлинеарность и отбор значимых факторов
Мультиколлинеарностью называют высокую взаимную коррелированность объясняющих переменных. Покажем, какие неприятности алгебраического характера это влечет за собой.
Для определения вектора коэффициентов регрессии b используется выражение (3.7): b=(X’X)-1X’Y, в котором присутствует обратная матрица для X’X.
Пример 4.1.
Дана квадратная матрица А размером 2х2:
.
Найти обратную ей матрицу А-1.
Решение.
Формула обращения матрицы:
(4.1) |
где çA ç = 8×2,9 — 6×4 = 23,2 — 24 = — 0,8 — определитель матрицы А;
(Aij) — матрица, составленная из алгебраических дополнений матрицы А:
;
.