Главная > Математика > Прикладная статистика: Исследование зависимостей
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Раздел II. ИССЛЕДОВАНИЕ ВИДА ЗАВИСИМОСТИ МЕЖДУ КОЛИЧЕСТВЕННЫМИ ПЕРЕМЕННЫМИ (регрессионный анализ)

Глава 5. ОСНОВНЫЕ ПОНЯТИЯ РЕГРЕССИОННОГО АНАЛИЗА

Предыдущий раздел (гл. 1—4) посвящен описанию математического аппарата, привлекаемого для реализации 3-го этапа статистического исследования зависимостей (см. «Корреляционный анализ» в п. В.6), на котором исследователь пытается проанализировать структуру связей между рассматриваемыми переменными и измерить степень их тесноты. После того как он убедится в наличии статистически значимых связей между анализируемыми переменными, он приступает к выявлению и математическому описанию конкретного вида интересующих его зависимостей: подбирает класс функций, в рамках которого будет вести свой дальнейший анализ (этап 4); производит, если это необходимо, отбор наиболее информативных предсказывающих переменных (этап 5); вычисляет оценки для неизвестных значений параметров, участвующих в записи уравнения искомой зависимости (этап 6); анализирует точность полученного уравнения связи (этап 7). Этапы 4—7 и составляют содержание регрессионного анализа, описанию которого посвящен данный раздел.

Но прежде чем переходить к изложению методов, составляющих аппарат регрессионного анализа, необходимо ввести и прокомментировать ряд основных понятий и определений.

5.1. Функция регрессии как условное среднее и ее интерпретация в рамках многомерной нормальной модели

Во введении при общей формулировке задачи статистического исследования зависимостей (п.В.1), при описании основных прикладных проблем, в решении которых используется аппарат статистического исследования зависимостей (п.В.4), и при классификации основных типов исследуемых зависимостей (п.В.5) мы, по существу, уже использовали понятие «функции регрессии».

Перед тем как сформулировать общее определение функции регрессии, вернемся к примерам В.1 и В.2

В примере В.1 мы исследовали, как меняется средняя величина удельных денежных сбережений семьи в зависимости от ее среднедушевого дохода , причем усреднение денежных сбережений производилось по всем семьям данной группы по доходам (т. е. при ). Другими словами, анализировалась зависимость условного среднего значения удельных семейных сбережений от среднедушевого дохода (см. табл. В.1 и рис. В.2).

В примере В.2 анализировалось поведение показателя средней долговечности испытуемого образца в зависимости от величины характеристики эксплуатационного напряжения где усреднение величины производилось по всем образцам, испытанным при заданном значении характеристики эксплуатационного напряжения Таким образом, речь опять идет об исследовании зависимости условного среднего значения результирующего показателя (вычисленного при условии, что объясняющая переменная приняла заданное значение ) от текущего значения объясняющей переменной (см. табл. В.4 и рис. В.5).

Рассмотрим общую схему. Пусть значение исследуемого результирующего показателя при данных фиксированных величинах объясняющих переменных случайным образом флюктуирует вокруг некоторого (вообще говоря, неизвестного) уровня зависящего от конкретных значений предикторов т. е.

где остаточная компонента определяет случайное отклонение значения от постоянного (при фиксированных ) уровня При этом наличие флюктуации может быть присуще самой природе эксперимента или наблюдения (как в примерах В.1 и В.2), а может объясняться случайными ошибками в измерении величины (тогда является результатом несколько искаженного измерения значения ). Когда говорят, что «некоторая величина случайным образом флюктуирует вокруг определенного (неслучайного) уровня то, как правило, имеют в виду, что среднее значение такой флюктуирующей случайной величины должно быть равно

Поскольку условия эксперимента и, в частности, уровень, около которого флюктуирует зависят от конкретных значений некоторого набора объясняющих переменных, соответственно то из (5.1) и только что сказанного непосредственно следует

Функция описывающая зависимость условного среднего значения результирующего показателя (вычисленного при условии, что величины предсказывающих переменных зафиксированы на уровнях ), от заданных фиксированных значений предсказывающих переменных, называется функцией регрессии.

В общем случае для точного описания функции регрессии необходимо точное знание условного закона распределения результирующего показателя (при условии, что Поскольку в статистической практике мы никогда не располагаем такой информацией, то обычно ограничиваются поиском подходящих аппроксимаций для , основанных на исходных статистических данных вида (В.1) (о методах построения таких аппроксимаций см. гл. 7—10).

Однако в жестких теоретических рамках модельных допущений о типе распределения исследуемого вектора показателей может быть получен общий вид функции регрессии (здесь, как и ранее, ). Так, например, если предположить, что исследуемый вектор переменных подчиняется -мерному нормальному распределению с вектором средних значений

и с ковариационной матрицей

где

а

то из (1.3) непосредственно следует

Таким образом, если анализируемый многомерный признак подчинен (-мерному нормальному закону, то функция регрессии результирующего показателя по объясняющим переменным имеет линейный (по X) вид, а ее коэффициенты выражаются в терминах первых двух моментов анализируемых случайных величин.

Происхождение термина «регрессия» (лат. «regression» — отступление, возврат к чему-либо) связано только с прикладной спецификой одного из первых конкретных примеров, в котором это понятие было использовано, но никак не с его общесмысловым наполнением. Этот термин был введен английским психологом и антропологом Ф. Гальтоном в связи с вопросом о наследственности роста. Обрабатывая статистические данные, Гальтон нашел, что сыновья отцов, отклоняющихся по росту на дюймов от среднего роста всех отцов, сами отклоняются от среднего роста всех сыновей меньше, чем на дюймов. Гальтон назвал выявленную тенденцию «регрессией к среднему состоянию» («regression to mediocrity»). Однако термин столь прочно внедрился в статистическую литературу, что мы не делаем попытки заменить его более подходящим для выражения существенных свойств понятия статистической зависимости.

<< Предыдущий параграф Следующий параграф >>
Оглавление