Главная > Математика > Прикладная статистика: Исследование зависимостей
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

6.3.3. Статистические критерии проверки гипотез об общем виде функции регрессии.

Подчеркнем сразу, что описанные ниже критерии проверки справедливости сделанного выбора общего вида искомой функции регрессии не могут ответить на вопрос: является ли проверяемый гипотетичный вид зависимости наилучшим, единственно верным?

Они лишь либо подтверждают факт непротиворечивости проверяемого вида функции регрессии имеющимся у исследователя исходным данным (6.1), либо отвергают обсуждаемую гипотетичную форму зависимости как не соответствующую этим данным.

1. Общий приближенный критерий, основанный на группированных данных (или при наличии нескольких наблюдений при каждом фиксированном значении аргумента). Пусть высказана гипотеза об рбщем виде функции регрессии — известная функция, — неизвестные числовые параметры) и пусть вычислены (например, с помощью метода наименьших квадратов, см. гл. 7) оценки неизвестных параметров, входящих в описание уравнения регрессии. При группировке данных (или при проведении эксперимента) мы должны соблюдать требование, соответствии с которым число интервалов группирования (или число различных значений аргумента, в которых производились наблюдения) k должно обязательно превосходить число неизвестных параметров , т. е. .

Если высказанная гипотеза об общем виде зависимости является правильной, то статистика

должна приближенно подчиняться -распределению с числом степеней свободы числителя и знаменателя — . Все величины в формуле (6.16) соответствуют ранее введенным обозначениям. В частности, — середина гиперпараллелепипеда группирования (или значение аргумента, в котором было проведено наблюдений);

— значение гипотетической функции регрессии, вычисленное в точке — условное среднее из ординат, попавших в гиперпараллелепипед группирования (или из ординат, измеренных при фиксированном значении аргумента ); по счету значение ординаты из числа попавших в интервал группирования (или из числа измеренных при фиксированном значении аргумента X?).

Легко понять, что числитель в правой части (6.16) характеризует меру рассеивания экспериментальных данных вокруг аппроксимирующей выборочной регрессионной поверхности, а знаменатель — меру рассеивания экспериментальных данных около своих условных выборочных средних (т. е. меру, независимую от выбранного вида линии регрессии). Причем и числитель, и знаменатель являются практически независимыми (в некоторых частных случаях — точно независимыми) статистическими оценками одной и той же теоретической дисперсии

Соответственно получаем следующее правило проверки гипотезы об общем виде функции регрессии. Задаемся, как обычно, достаточно малым уровнем значимости критерия а (например, . С помощью табл. П. 5 находим -ную точку точку распределения. Если окажется, что величина подсчитанная по формуле (6.16), удовлетворяет неравенствам

то высказанная нами гипотеза об общем виде функции регрессии признается не противоречащей экспериментальным данным (6.1). Если же эти неравенства оказались нарушенными, то гипотеза об общем виде функции регрессии отвергается с уровнем значимости а. При этом если «слишком мало» (т.е. ) то, очевидно, при выборе общего вида регрессии мы неправомерно реагировали на случайные отклонения точек от истинной функции регрессии и тем самым необоснованно завысили число параметров , от которых зависит уравнение регрессии. Напротив, если «слишком велико» (т. е. ), то «гибкость» аппроксимирующей функции регрессии следует признать недостаточной, поэтому целесообразно увеличить число неизвестных параметров регрессии (например, повысить порядок аппроксимирующего полинома).

Для случая, когда условная дисперсия зависимой переменной пропорциональна некоторой известной функции аргумента, т. е. , формула (6.16) преобразуется:

где

Так, в примере дисперсионное отношение подсчитанное по формуле (6.16), равно 1,04, в то время как -ная точка -распределения Это свидетельствует о том, что гипотеза о линейном виде регрессионной зависимости в данном случае не противоречит имеющимся в нашем распоряжении экспериментальным данным.

При проверке линейности регрессии (так же, впрочем, как и при проверке гипотезы о полиномиальном характере регрессии заданного порядка в нормальных схемах зависимостей типа В и описанный общий критерий является точным. При этом в линейном случае статистика определенная соотношением (6.16), может быть выражена в более удобной форме, не требующей предварительного вычисления выборочной аппроксимирующей функции регрессии, а именно:

Здесь, как и прежде, и — соответственно выборочные корреляционные отношения по и коэффициент корреляции, вычисляемые по формулам (1.16) и (1.8). Логическая схема использования статистики (6.17) аналогична ранее изложенным критериям: задаются достаточно малым уровнем значимости а; находят по табл. П.5 -ную точку распределения сравнивают величину определенную с помощью (6.17), с процентной точкой если оказывается, что то гипотезу о линейном виде регрессии считают статистически необоснованной.

Воспользуемся данным критерием для статистической проверки линейности регрессии в примере В.3. Вычисления дают: так что Принимая во внимание, что величина 5%-ной точки F -распределения равна делаем вывод о непротиворечивости гипотезы линейности регрессии и данных нашего эксперимента в данном примере

2. Общий приближенный критерий, основанный на негруппированных данных (при известной величине дисперсии остаточной случайной компоненты).

Встречаются ситуации, когда в результате предварительных исследований или из других каких-либо соображений нам удается заранее определить величину дисперсии остаточной случайной компоненты в разложениях вида (В.14) и (В.16) (например, когда — ошибка измерения, и нам известны характеристики точности используемого измерительного прибора). В этом случае можно отказаться от стеснительного требования группированности данных и для проверки гипотезы об общем виде функции регрессии воспользоваться фактом -распределенности статистики

(который имеет место при условии справедливости нашей гипотезы)

Задавшись уровнем значимости критерия а и найдя с помощью табл. П.4 величины и -ных точек -распределения с степенями свободы, соответственно проверяем выполнение неравенства

где подсчитано по формуле (6.18). Если эти неравенства оказались нарушенными, то от гипотезы об общем виде функции регрессии следует отказаться. При этом если «слишком мало» (т. е. ), то, очевидно, при выборе общего вида мы неправильно реагировали на случайные отклонения экспериментальных точек и тем самым необоснованно завысили число параметров от которых зависит уравнение регрессии.

Напротив, если «слишком велико» (т. е. ), то «Гибкость» аппроксимирующей кривой регрессии следует признать недостаточной, поэтому целесообразно увеличить число неизвестных параметров регрессии (например, повысить порядок аппроксимирующего полинома).

Для случая, когда условная дисперсия зависимой переменной (или, что то же, дисперсия остаточной случайной компоненты) не остается постоянной при изменении X, а пропорциональна некоторой известной функции аргумента, т. е. , формула подсчета статистики несколько изменится:

где . В остальном схема проверки гипотезы об общем виде функции регрессии остается той же самой, что и в случае .

3. Оценка размерности модели регрессии. Предположим, что неизвестная истинная функция регрессии представима в виде разложения по заданной системе базисных функций

а регрессионные остатки в моделях — независимые нормальные случайные величины с нулевым математическим ожиданием и дисперсией Параметры не известны исследователю. Величину будем называть размерностью модели регрессии. Рассмотрим два способа оценивания и, следуя, [97], опишем статистические свойства такого оценивания.

Оба способа основаны на величине «подправленного» выборочного критерия адекватности

- оценки наименьших квадратов параметров (см. гл. 7).

В первом способе в качестве оценки необходимого числа базисных функций рекомендуется брать величину

Во втором способе с помощью критической статистики

которая при и сделанных выше предположениях подчиняется -распределению с числом степеней свободы числителя, равным 1, и знаменателя, равным [130, с. 133], последовательно для проверяется гипотеза и останавливаются на таком наименьшем при котором гипотеза впервые не отвергается.

В [97] выведены асимптотические (по ) распределения для оценок Показано, что для

где

В последнем соотношении точка -распределения.

Эти результаты позволяют, в частности, строить асимптотические доверительные интервалы для неизвестной размерности модели регрессии.

Существуют и другие различные способы оценки размерности модели регрессии, применимые при рассмотрении некоторых частных схем.

4. Анализ регрессионных остатков. Ряд статистических критериев проверки адекватности используемой аппроксимирующей модели регрессии основан на анализе регрессионных остатков (невязок) . В основе их конструирования — положение, в соответствии с которым правильный выбор модели предопределяет асимптотическую (по ) независимость остатков . Поэтому статистическая проверка правильности выбора общего вида функции регрессии сводится к проверке статистической независимости остатков, для чего могут быть использованы, например, критерии, описанные в [14, § 11.3].

На этом же основан и критерий определения порядка полиномиальной регрессии и критерии проверки независимости величин

<< Предыдущий параграф Следующий параграф >>
Оглавление