Главная > Математика > Прикладная статистика: Исследование зависимостей
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Глава II. ИССЛЕДОВАНИЕ точности СТАТИСТИЧЕСКИХ ВЫВОДОВ в РЕГРЕССИОННОМ АНАЛИЗЕ

После реализации этапов связанных с построением оценки (аппроксимации) для искомой регрессионной зависимости (см. § В.6), исследователю необходимо ответить на вопросы: какова точность полученной им оценки (аппроксимации) и, в частности, как определить ту гарантированную (с заданной доверительной вероятностью Р) величину погрешности, за пределы которой мы не выйдем, восстанавливая неизвестные нам значения параметров истинной функции регрессии или анализируемого результирующего показателя по значениям оценок соответственно .

Достаточно исчерпывающие и теоретически обоснованные ответы на эти вопросы мы в состоянии дать лишь в рамках схемы, постулирующей, что: а) выбор класса F допустимых решений (т. е. выбор общего параметрического вида функции регрессии ) осуществлен удачно, а именно: ; б) рмеется априорная информация о вероятностной природе например, о типе закона распределения) регрессионных остатков в моделях вида

Будем называть эту схему идеализированной. Если же у нас нет оснований рассчитывать на выполнение постулатов а) и б) (что, к сожалению, и бывает в большинстве реальных ситуаций, а потому будем называть эту схему реалистической), то получить сколько-нибудь законченные и теоретически обоснованные результаты по оценке точности статистических выводов в регрессионном анализе не удается. В этом случае можно предложить лишь некоторые полу эвристические приемы и рекомендации, нацеленные на приближенное решение данной. задачи.

11.1 Линейный (относительно оцениваемых параметров) нормальный вариант идеализированной схемы регрессионной зависимости

В данном параграфе рассматривается регрессионная модель зависимости случайного результирующего показателя от неслучайных объясняющих переменных вида

где — система известных (базисных) функций (в частном случае ) для неизвестные (подлежащие оцениванию) параметры, а остаточная случайная компонента подчиняется нормальному закону распределения со средним значением и с дисперсией (вообще говоря, неизвестной) т. е.

Отсюда, в частности, следует, что истинная функция регрессии имеет вид

т. е. является линейно зависящей от неизвестных параметров (форма ее зависимости от X определяется выбором системы базисных функций

Соотношение (11.1) определяет связи между имеющимися наблюдениями вида

где — вектор-столбец наблюденных значений результирующего показателя, вектор-столбец ненаблюдаемых регрессионных остатков, а

матрица плана, т. е. матрица значений базисных функций в наблюденных точках предикторной переменной. При этом постулируется, что нормально распределенные регрессионные остатки взаимно некор релированы, т. е. что их ковариационная матрица имеет вид

где как обычно, единичная матрица размерности . Из (11.2) и (11.5) имеем

Предполагается также, что этап выбора общего параметрического вида искомой зависимости (этап 4, см. § В.6) реализован удачно, а именно: в качестве класса допустимых решений F определено семейство, «накрывающее» истинную функцию регрессии (11.3), т. е.

и, следовательно,

Модель, определяемую соотношениями и условиями (11.1), (11.2), (11.4) и (11.5), будем называть линейным (относительно оцениваемых параметров) нормальным вариантом идеализированной схемы регрессионной зависимости (идеализация, как было отмечено, заключается в постулировании редко выполняющихся в статистической практике допущений (11.7) и (11.2)).

11.1.1. Основные свойства оценок метода наименьших квадратов.

Напомним (см. гл. 7—9, а также (14, п. 8.6.3]) что оценки неизвестных параметров , участвующих в аналитической записи искомой функции регрессии , определяются, в соответствии с методом наименьших квадратов, из условия минимизации (по ) выборочного критерия адекватности , построенного на базе квадратичной функции потерь (см. в § 5.2 формулу (5.4) и п. 1).

Применительно к рассматриваемой в данном параграфе схеме это приводит к задаче минимизации (по ) выражения:

При получении правой части (11.8) использовалось что Дифференцируя (11.8) по и приравнивая полученный вектор-столбец производных к вектору , состоящему из одних нулей, приходим к системе уравнений относительно

или

откуда получаем

Перед тем, как перейти к описанию основных свойств мнк-оценок , выразим их, подставляя в (11.9) значения У, представленные в виде (11.4), через истинные значения параметров и регрессионные остатки е:

(11.10)

Используя (11.10), легко получить следующие статистические характеристики для мнк-оценок .

Несмещенность мнк-оценок . Применяя оператор теоретического усреднения к левой и правой частям (11.10), получаем

что, если учесть и доказывает несмещенность оценок .

Ковариационная матрица мнк-оценок . Как известно, точность оценок, их эффективность [14, п. 8.1.5] определяются характером их выборочного распределения, и, в частности, мерой их случайного разброса относительно истинных значений оцениваемых параметров, который мы наблюдали бы при повторениях выборок и принятой процедуры оценивания. В свою очередь эта мера случайного разброса значений оценок относительно истинных значений определяется в первую очередь их дисперсиями и ковариациями, т. е. их ковариационной матрицей . Подсчитаем ковариационную матрицу используя (11.10) для выражения разности :

(при переходе к правой части мы воспользовались правилом транспонирования произведения матриц и симметричностью матрицы . Если теперь учесть, что ковариационная матрица регрессионных остатков пропорциональна единичной (см. (11.5)), то в конечном счете получим

(11.11)

где — определенная выше матрица плана

Оценка для дисперсии регрессионных остатков. Оценка для полученная с помощью метода максимального правдоподобия [14, п. 8.6.1], имеет вид [119, формула (4.8)]

однако она оказывается смещенной. В частности, можно показать [119, § 3.3], что, взяв в качестве оценки для величину

(11.12)

мы добьемся несмещенного оценивания этого параметра.

Состоятельность оценок В и . Она определяется структурой матрицы плана X. Пожалуй, наиболее удобным (для приложений) условием состоятельности оценок и является следующее [119, § 3.2]: оценки и состоятельны тогда и только тогда, когда наименьшее собственное значение матрицы ХХ стремится к бесконечности при

Оптимальность оценок Можно показать, что в условиях рассматриваемой идеализированной регрессионной схемы оценки определяемые соотношениями (11.9) и (11.12), являются эффективными [119, § 3.2], т. е. имеют минимальную дисперсию среди всех несмещенных оценок. Тем же свойством обладает и величина рассматриваемая как оценка истинной функции регрессии .

Распределение оценок регрессионных параметров. Характер случайного варьирования оценок и около оцениваемых ими величин соответственно описывается лишь приближенно их ковариационной матрицей и дисперсиями. Исчерпывающую же информацию о характере этого случайного варьирования доставляют соответствующие законы распределения вероятностей.

Нетрудно убедиться, что в рамках рассматриваемой в данном параграфе идеализированной схемы справедливы следующие утверждения:

а) оценки В подчиняются -мерному нормальному распределению с вектором средних значений и с ковариационной матрицей (11.11), т. е.

(11.13)

б) случайная величина подчиняется -распределению с степенями свободы, т. е.

(11.14)

в) оценки и являются статистически независимыми;

г) случайная величина подчиняется -распределению с степенями свободы, т. е.

(11.15)

Действительно, поскольку (см. (11.9)), а Y в силу (11.2) и (11.4) подчиняется -мерному нормальному распределению, то утверждение (11.13) следует непосредственно из того, что линейные комбинации нормально распределенных величин также распределены нормально [20, теорема 2.4.1]. Утверждение (11.14) является прямым следствием (11.11) и теоремы 3.3.3 из [201. Статистическая независимость оценок 0 и и утверждение (11.15) следуют, например, из теоремы 8.2.2 [201. Полное доказательство сформулированных результатов можно найти также в [119, § 3.41.

Замечание. Обращаем внимание читателя на тот факт, что допущение (11.2)-(11.2) о нормальном характере распределения регрессионных остатков используется лишь при выводе распределений оценок (11.9), т. е. при получении результатов (11.13)-(11.15). Остальные свойства рассматриваемых оценок: несмещенность, состоятельность, оптимальность (но только в классе линейных несмещенных оценок), вид ковариационной матрицы (11.11) — остаются в силе и при отказе от нормальности остатков (достаточно потребовать их одинаковой распределенности, независимости и существования конечных дисперсий ).

<< Предыдущий параграф Следующий параграф >>
Оглавление