Главная > Математика > Прикладная статистика: Исследование зависимостей
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Глава 8. ОЦЕНИВАНИЕ ПАРАМЕТРОВ РЕГРЕССИИ В УСЛОВИЯХ МУЛЬТИКОЛЛИНЕАРНОСТИ И ОТБОР СУЩЕСТВЕННЫХ ПРЕДИКТОРОВ

8.1. Явление мультиколлинеарности и его влияние на мнк-оценки

Рассмотрим обычную модель линейной по параметрам регрессии с неслучайными переменными :

Оценки коэффициентов регрессии получаются из решения системы уравнений (см. п. 8.6.1)

где S — матрица ковариаций объясняющих переменных размера -мерный вектор оценок ковариаций между объясняющими переменными и у.

Пусть теперь — вектор, компоненты которого суть средние значения предсказывающих переменных

Тогда с учетом очевидного тождества для свободного члена , его оценка может быть записана в виде , где оценка среднего значения

Предсказанное значение у может быть вычислено по одной из следующих формул:

где — центрированный вектор X.

Матрица ковариаций между оценками параметров запишется

а ее оценка

где — несмещенная оценка (см. § 11.1).

Далее иногда будут использоваться и стандартизованные (нормированные) объясняющие переменные

где

— дисперсия переменной .

Оценки коэффициентов регрессии для стандартизованных переменных получаются из решения системы уравнений

где R — матрица корреляций объясняющих переменных, вектор оценок корреляций переменных

Явление мультиколлинеарности возникает, если между объясняющими переменными существуют почти точные линейные зависимости (в интервале их изменения, определяемого матрицей плана X). В случае существования точных линейных соотношений между переменными матрица S (а следовательно, и R) будет вырожденной и значит обычная обратная матрица не существует, а матрица X (мы рассматриваем случай будет матрицей неполного ранга. (Случай точной линейной зависимости иногда называют «мультиколлинеарностью в строгом смысле»).

В случае почти точных зависимостей матрицы S и R будут плохо обусловлены (см. п. 8.6).

Мультиколлинеарность в основном появляется в задачах пассивного эксперимента, когда исследователь, собирая данные, не может влиять на значения объясняющих переменных. В активном эксперименте матрица данных X планируется (см. [136]), причем таким образом, что либо матрица S хорошо обусловлена, либо априори точно известны линейные зависимости, имеющие место между строками (столбцами матрицы X), и, следовательно, ее ранг.

Применение обычного мнк в условиях мультиколлинеарности приводит к некоторым нежелательным последствиям (ниже используются нормированные переменные):

1) значения нормы вектора оценок параметров соответственно абсолютных величин отдельных его компонент могут быть очень велики; количественно оценить этот эффект можно, рассматривая величину среднего значения квадрата нормы вектора

где собственные числа матрицы R; если минимальное собственное число достаточно мало, то вклад второго слагаемого будет велик;

2) дисперсии компонент вектора 0 могут стать относительно столь большими, что оценки параметров будут статистически незначимыми; из (11.11) легко получить, что дисперсия оценки параметра 0 равна:

где — коэффициент множественной корреляции между переменной и остальными предсказывающими переменными; сама оценка параметра 0 распределена по нормальному закону ) (см. (11.13)); очевидно, если , что может произойти при величине достаточно близкой к 1, то вероятность того, что значение превзойдет некоторый уровень, выбранный для отвержения нулевой гипотезы (т.е. гипотезы ), будет мала;

3) абсолютные значения коэффициентов корреляции между оценками параметров и близки к 1, что делает, например, бессмысленным построение доверительных интервалов отдельно для каждой из этих оценок (в подобных ситуациях приходится строить совместную доверительную область для обеих оценок);

4) величины оценок существенно меняются при незначительном возмущении матрицы X (может измениться даже знак коэффициента ); здесь количественной характеристикой являются числа обусловленности матриц

(подробнее о числах обусловленности см, п. 8.6).

Все эти эффекты затрудняют и без того сложную задачу интерпретации коэффициентов регрессии или вообще делают невозможным ее решение без привлечения новых способов обработки и дополнительной информации. В этих условиях нельзя применять уравнение регрессии и для прогноза значений переменной у. В то же время если уравнение регрессии предполагается использовать для целей прогноза значений переменной у только в точках, близких к значениям объясняющих переменных из матрицы данных X, то оно может оказаться вполне удовлетворительным: независимо от степени связи между предсказывающими переменными качество уравнения регрессии определяется значением коэффициента множественной корреляции между переменной у и переменными X (хотя при этом может быть необходимо принять некоторые предосторожности чисто вычислительного характера). Таким образом, последствия мультиколлинеарности тем серьезнее, чем больше информации мы хотим получить из имеющейся совокупности наблюдений.

<< Предыдущий параграф Следующий параграф >>
Оглавление