Главная > Математика > Прикладная статистика: Исследование зависимостей
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

5.2. Функция «дельта»-регрессии как решение оптимизационной задачи

В предыдущем параграфе обращается внимание читателя на то, что в статистической практике приходится ограничиваться поиском подходящих аппроксимаций для неизвестной истинной функции регрессии , поскольку исследователь не располагает точным знанием условного закона распределения вероятностей анализируемого результирующего показателя (при условии, что объясняющие переменные приняли «значение», равное X).

В данном параграфе будет уточнено, что значит «подходящая аппроксимация», т. е. будут описаны критерии адекватности модели, в соответствии с которыми естественно измерять качество предполагаемой аппроксимации искомой функции регрессии в том или ином случае.

Общий оптимизационный подход к построению статистических решающих процедур описан в [13] и кратко воспроизведен в [14, § 1.2].

Остановимся на конкретизации этого подхода применительно к задачам статистического исследования зависимостей и, в частности, к задаче наилучшего восстановления (по исходным статистическим данным вида (В.1)) условного значения результирующего показателя и неизвестной функции регрессии . С этой целью воспользуемся следующей схемой рассуждений.

а. Введем функцию потерь , измеряющую убытки от неточности восстановления значения с помощью функции ; здесь , а функция как правило, монотонно неубывающая, чаще всего выпуклая, функция аргумента и с неотрицательными значениями (см. различные варианты функции в § 7.2).

б. Определим теоретический и соответствующий ему выборочный критерии адекватности модели , используемой в качестве аппроксимации для неизвестного условного значения результирующего показателя

В (5.4) усреднение производится и по всем возможным значениям случайной величины (при каждом фиксированном X) и по всем возможным значениям X, а в (5.4) — по всем имеющимся наблюдениям.

в. Зададимся классом допустимых решений F, в рамках которого будем вести дальнейший поиск наилучшей, в смысле критериев или аппроксимации для . При этом если в качестве класса F задаются некоторым параметрическим семейством функций

то задача подбора наилучшей аппроксимации сводится к определению таких значений параметров (или , при которых некоторая агрегированная характеристика точности восстановления значений по значениям является наилучшей (подход, основанный на использовании в качестве класса допустимых решений F параметрических семейств вида (5.5) называют параметрическим).

г. Будем называть функцию функцией -регрессии, если она дает прогноз для условных значений результирующего показателя , являющийся наилучшим в смысле критерия адекватности . Другими словами:

Покажем (на примере квадратичной функции потерь, т. е. при , что задача минимизации функционала (5.4) содержит задачу наиболее точного восстановления регрессии. Действительно, для критерия (5.4) справедливо тождество (см. п. 1.3.1)

(здесь — соответственно условная функция плотности результирующего показателя ) при условии, что и частная функция плотности предикторной переменной

Так как первое слагаемое в правой части этого тождества не зависит от функции , то минимум функционала определяется величиной второго слагаемого и достигается на такой функции , на которой минимизируется погрешность описания истинной функции регрессии с помощью функций из класса

В дальнейшем, чтобы отличать теоретическую версию этого определения (которая соответствует функционалу (5.4)) от выборочной (функционал (5.4)) и с целью упрощения обозначений, будем полагать (если не требуется специальных пояснений, связанных с выбором критерия

и называть их соответственно теоретической и выборочной аппроксимациями истинной функции регрессии.

Основанием для подобной терминологии служат простые асимптотические соотношения, связывающие в ряде достаточно общих случаев функции и их выборочные аналоги (см. следующий параграф). Обратим внимание читателя на ряд частных случаев функции потерь , широко используемых в теории и практике статистического исследования зависимостей:

1) получаемая в соответствии с (5.6) регрессия называется среднеквадратической, а метод, реализующий минимизацию функционала принято называть методом наименьших квадратов (см. § 7.1);

2) получаемая в соответствии с (5.6) регрессия называется среднеабсолютной (или медианной), а метод, реализующий минимизацию функционала называют методом наименьших модулей (см. п.7.2.1);

3) где можно показать, что в этом случае минимизация критерия сводится к минимизации (по

поэтому соответствующую регрессию называют минимаксной.

Другие важные частные случаи -регрессии читатель найдет в § 7.2.

<< Предыдущий параграф Следующий параграф >>
Оглавление