Главная > Математика > Прикладная статистика: Исследование зависимостей
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

8.7.2. Критерии качества уравнения регрессии.

Любой алгоритм отбора существенных регрессоров выполняет следующую последовательность действий:

генерацию подмножеств переменных;

сравнение этих подмножеств по некоторому критерию качества уравнения регрессии, построенного по этим переменным;

проверку конца генерации (остановки алгоритма). Рассмотрим наиболее употребительные критерии качества уравнения регрессии. Почти все они основаны на измерении средней величины ошибки прогноза, на векторах X, не вошедших в обучающую выборку (матрицу данных X), при тех или иных предположениях о распределении или способе формирования этих векторов.

1. Коэффициент детерминации (квадрат коэффициента множественной корреляции)

Максимизация эквивалентна минимизации нормированной остаточной суммы квадратов В этом смысле можно рассматривать как меру согласия модели с данными.

Однако, поскольку в выражение для входит и дисперсия переменной у, при анализе двух различных совокупностей данных (матриц ) может иметь место ситуация, когда одна из регрессий имеет меньшее значение и в то же время меньшее значение за счет увеличения дисперсии . В случаях задачи отбора переменных это обстоятельство можно не учитывать, поскольку матрица данных не меняется и можно рассматривать как относительную меру качества уравнения регрессии.

Недостаток как критерия качества уравнения регрессии состоит в том, что значение коэффициента детерминации не убывает (по крайней мере) с ростом числа предсказывающих переменных, входящих в модель. Таким образом, модели, в которых больше переменных, будут более предпочтительными, если для сравнения использовать Однако для сравнения уравнений регрессии с одинаковым числом зависимых переменных величина является вполне подходящей. Некоторые из перечисленных ниже критериев являются монотонными функциями от которые в то же время зависят от числа включенных в модель регрессоров q и объема выборки и могут убывать с ростом

2. Скорректированный коэффициент детерминации. Чтобы ввести скорректированный коэффициент детерминации, вспомним, что при имеет место равенство или Для конечного объема обучающей выборки несмещенной оценкой для является величина (q — число регрессоров в модели), а для — величина

Определим теперь скорректированный коэффициент детерминации из равенства После несложных преобразований получаем связь между обычным и скорректированным коэффициентами детерминации:

В отличие от обычного скорректированный коэффициент дерерминации может уменьшаться с ростом числа предсказывающих переменных если в результате введения дополнительной переменной изменение оказывается недостаточным для компенсации увеличения отношения .

В отличие от обычного коэффициента детерминации скорректированный уменьшается с ростом числа предсказывающих переменных q, если в результате введения дополнительной переменной изменение оказывается недостаточным для компенсации увеличение отношения .

3. Статистика Мэллоуза . В [225] предложено использовать так называемую статистику как меру качества уравнения регрессии с q предсказывающими переменными. В принятых здесь обозначениях

4. Средний квадрат ошибки предсказания СКОП. Этот критерий предлагается в [24] (см. также [164, 42, 52]). При введении этого критерия предполагается, что переменные являются случайными величинами и имеют в совокупности -мерное распределение. Таким образом, матрица данных (X, Y) представляет собой выборку объема из -мерного нормального распределения.

Пусть теперь — функция регрессии, основанная на q из возможных предсказывающих переменных, и — мнк-оценка вектора регрессионных коэффициентов для набора из q переменных, -мерный вектор средних значений для переменных принадлежащих набору . Пусть теперь уравнение регрессии используется для предсказания значения переменной у для некоторого нового случайного вектора X.

Величина СКОП определяется как

где математическое ожидание берется по всем случайным пере менным, в том числе и по «новому» наблюдению X. Если использовать понятия обучающей и контрольной выборки, то можно сказать, что СКОП определяет среднюю квадратическую ошибку прогноза на контрольной выборке.

В [251] показано, что

где — условная дисперсия у относительно q переменных, входящих в уравнение регрессии. При применении этого критерия неизвестное значение дисперсии заменяете ее оценкой максимального правдоподобия:

Окончательно используемая как критерий оценка имеет вид

5. Несмещенная оценка коэффициента множественной корреляции. Если переменные имеют в совокупности многомерное нормальное распределение, то оценка квадрата коэффициента множественной корреляции является смещенной. Несмёщенная оценка (с точностью до членов ) определяется с помощью выражения

Эта величина также может быть использована как критерий качества уравнения регрессии.

<< Предыдущий параграф Следующий параграф >>
Оглавление