Главная > Математика > Прикладная статистика: Исследование зависимостей
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

6.3.2. Поиск модели, наиболее устойчивой к варьированию состава выборочных данных, на основании которых она оценивается.

Идея этого подхода к выбору общего вида исследуемой регрессионной зависимости основана на следующем простом соображении: если общий параметрический вид зависимости «угадан» правильно, то результаты оценивания параметра различным подвыборкам выборки будут мало отличаться друг от друга (а следовательно, не сильно будут различаться между собой и соответствующие значения

И, наоборот, при неудачном выборе общего вида искомой зависимости результаты ее восстановления по различным выборкам, как правило, будут сильно отличаться один от другого.

С проявлением указанного свойства аппроксимационных регрессионных моделей мы уже столкнулись в примере 6.2.

Рис. 6.12. Истинная полиномиальная регрессия и ее аппроксимации: кривая 1 — наилучшее приближение в классе полиномов пягой степени (); кривая 2 — полученная с помощью алгоритма структурной минимизации критерия адекватности

Рис. 6.13. Истинная кусочно-линейная регрессия и ее полиномиальная аппроксимация, полученная с помощью алгоритма структурной минимизации критерия адекватности

Действительно, поданным табл. 6.1 мы видим, что оценки коэффициентов апроксимационных вариантов анализируемой модели (вариантов 1 и 2), подсчитанные по различным выборкам сначала по всей выборке из 20 наблюдений, а затем по ее половине), могут отличаться не только на несколько порядков, но и по знаку . В то же время значение оценки коэффициента в модели, общий вид которой выведен из содержательных соображений (вариант 3), практически остается одним и тем же при расчете как по всей выборке, так и по ее части.

Предлагаются следующая реализация только что сформулированной идеи и ее экспериментально-вычислительная апробация. Рассмотрим систему В подвыборок выборки

Пусть на множестве X — области определения исследуемой функции регрессии — задана система линейно-независимых (базисных) функций

Моделью порядка s для функции , построенной по базису и подвыборке , назовем функцию вида

где коэффициенты являются решением задачи минимизации

Пусть — заданное число, а X — некоторое подмножество из X. Назовем множества - эквивалентными если они удовлетворяют условию

Таким образом, -эквивалентность множеств т. е. подмножеств] множества означает следующее: значение модели функции , определенной по подвыборке отличается от значения модели определенной по подвыборке , в любой точке X множества X по модулю на величину, небольшую, чем . Можно рассматривать - эквивалентность всей выборки и ее подвыборок, т. е. сравнивать модель с моделями построенными по отдельным частям выборки

Рассмотрим такие подвыборки b из которые содержат ровно а точек, и обозначим их совокупность через а их число через . Далее, определим число подвыборок для которых выполнено условие

Устойчивость модели порядка s на множестве X для заданного будем измерять величиной

Пусть задана последовательность

Величину назовем средней устойчивостью модели на множестве X для последовательности . Рассмотрим величину

максимальную по модулю разности моделей на множестве X. Таким образом, можно рассматривать распределение значений величины бтах на системе подвыборок В. В частности, можно оценить математическое ожидание величины и квантиль порядка Р распределения .

Для оценки качества модели можно использовать следующие характеристики:

— характеристику устойчивости для заданного — характеристику средней устойчивости для последовательности

— математическое ожидание величины

— квантиль порядка Р распределения величины

Для наилучшей модели характеристики достигают максимального, а характеристики Ебах и — минимального значений. Практическая реализация данного подхода, опирающегося на анализ величин требует привлечения ЭВМ и расчета необходимых статистических характеристик этих величин с помощью метода Монте-Карло [14, § 6.3].

Возможна и иная форма реализации данного подхода, не предусматривающая необходимости использования статистического моделирования на ЭВМ. Она основана на анализе критических статистик вида

где — непересекающиеся подвыборки объемов случайно и независимо извлеченные (без возвращения) из исходной выборки . В частности, в условиях справедливости гипотезы случайная величина (6.15) должна подчиняться приблизительно -распределению с числом степеней свободы числителя и знаменателя соответственно.

Для статистической проверки этого факта можно воспользоваться сравнением подсчитанного значения статистики у с процентной точкой -распределения (см. табл. П.5). А при достаточно больших объемах исходных выборок можно непосредственно проверять факт -распределенности случайных

величин у с помощью соответствующих критериев согласия [14, § 11.1]. Для этого, правда, следует образовать целую последовательность подвыборок из подсчитать для различных пар величины (6.15) и применить к ним критерий согласия.

<< Предыдущий параграф Следующий параграф >>
Оглавление