Главная > Математика > Прикладная статистика: Исследование зависимостей
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

1.3.3. Вычисление и свойства множественного коэффициента корреляции в рамках линейных нормальных моделей.

Если предположить, что исходные статистические данные могут интерпретироваться как выборка объема из -мерной нормальной генеральной совокупности с вектором средних значений

и ковариационной матрицей (см. сноску перед формулой (1.3))

то из сразу следует:

а) функция регрессии по линейна по аргументам, а именно:

где — ковариации анализируемых переменных (мы полагаем, для единообразия записи, — элементы матрицы

б) условная (остаточная) дисперсия результирующего показателя не зависит от того, на каких уровнях X фиксируются значения объясняющих переменных , в частности

Условимся относить подобные ситуации к первому типу линейных нормальных моделей.

Разрешая выражение (1.26) относительно мы приходим (с учетом постоянства по X величины в данном случае) к ранее введенному определению множественного коэффициента корреляции (1.24).

Отнесем ко второму типу линейных нормальных моделей тот частный случай «схемы В» (т. е. зависимости случайного результирующего показателя от неслучайных объясняющих переменных X, см. § В.5), в котором функция регрессии линейна по X, а остаточная случайная компонента подчиняется нормальному закону с постоянной (не зависящей от X) дисперсией В этом случае линейность регрессии, гомоскедастичность (постоянство условной дисперсии ) и формула (1.26) следуют непосредственно из определения модели и из (1.24).

Можно показать (см. например, [65, гл. ), что при статистической обработке выборок, извлеченных из линейнонормальных генеральных совокупностей, множественный коэффициент корреляции R. и его выборочное значение обладают рядом дополнительных свойств (приведенные ниже формулы и свойства теоретического множественного коэффициента корреляции автоматически переносятся на выборочный заменой участвующих в них теоретических характеристик соответствующими выборочными значениями).

1. Вычисление матрице парных коэффициентов корреляции. Обозначая, как и прежде, -корреляционную матрицу через R, а алгебраическое дополнение элемента в ее определителе через имеем

2. Вычисление по частным коэффициентам корреляции

3. Множественный коэффициент корреляции мажорирует любой парный или частный коэффициент корреляции, характеризующий статистическую связь результирующего показателя, т. е.

где — любое подмножество множества индексов не содержащее индекса (соотношение (1.29) следует из (1.28)). Напоминаем, что

4. Присоединение каждой новой предсказывающей переменной может уменьшить величины R (независимо от порядка присоединения), т. е.

5. Множественный коэффициент корреляции быть определен как максимальное значение обычного парного коэффициента корреляции между и линейной комбинацией (максимум — по всевозможным линейным комбинациям) либо как обычный парный коэффициент корреляции между и условным математическим ожиданием

6. Статистические свойства выборочного множественного коэффициента корреляции -распределение, моменты, доверительные интервалы) состоят в следующем.

Для проверки гипотезы т. е. для выяснения вопроса, можно ли считать выборочное значение множественного коэффициента корреляции статистически значимо отличающимся от нуля, пользуются фактом -распределенности случайной величины

справедливым в рамках обоих рассмотренных выше типов линейно-нормальных моделей при условии, что истинное значение множественного коэффициента корреляции равно нулю.

Если окажется, что , то гипотеза об отсутствии множественной корреляционной связи между отвергается при уровне значимости критерия, равном а (здесь, как и ранее, -ная точка F-распределения с числом степеней свободы числителя и знаменателя находится из табл. П.5).

Можно показать (см. [65, гл. 27]), что в условиях второго типа линейно-нормальных моделей (объясняющие переменные X неслучайны) описанный критерий является равномерно наиболее мощным. Это вытекает из того, что при величина подчинена нецентральному ; - распределению с параметром нецентральносьти, равным

Последним обстоятельством можно воспользоваться и при приближенном построении доверительных интервалов для неизвестного истинного значения В точности повторяя рассуждения п. 1.1.5, относящиеся к построению доверительных интервалов для неизвестной величины квадрата корреляционного отношения (см. формулы (1.17)-(1.20)), мы придем к следующей рекомендации по построению интервальной оценки для справедливой, правда, лишь при : с доверительной вероятностью, приблизительно равной (величина а задана), выполняется неравенство

(1.31)

в котором — 100%-ная точка центрального F-распределения с числом степеней свободы числителя

и знаменателя (в (1.32) символ обозначает ближайшее целое число к а).

Однако в условиях первого типа линейно-нормальных моделей (наблюдения ) извлечены из -мерной нормальной генеральной совокупности; соответственно объясняющие переменные случайные величины) распределение величины при и конечных объемах выборки существенно отличается от того распределения которое мы имели при неслучайных объясняющих переменных (можно, правда, показать, что при распределение случайной величины сходится в линейно-нормальных моделях и первого и второго типа к нецентральному -распределению с числом степеней свободы, равным , и с параметром нецентральности равным

Р. Фишер [183] и ряд других исследователей занимались изучением распределения величины в условиях первого типа линейно-нормальных моделей (различные представления соответствующей функции плотности вероятности можно найти, например, в [65, гл. 27]).

Приведем здесь лишь выражения для первых двух моментов интересующей нас величины.

Случай

Случай

Скорректированная (на несмещенность) оценка По формулам (1.33), (1.33) мы видим, что при вычислении выборочных значений в соответствии с рекомендациями (1.27), (1.28), относящимися к условиям линейно-нормальных моделей, получаются смещенные (а при ограниченных объемах выборок и большом числе предсказывающих переменных — существенно смещенные) оценки для неизвестного истинного значения . Поэтому желательно попытаться перейти к некоторой другой оценке неизвестного теоретического значения путем такой коррекции оценки которая позволила бы устранить это смещение.

В [233] показано, что несмещенной оценкой коэффициента служит статистика

где , а — гипергеометрическая функция (см., например, [1, с. 370]).

Простая аппроксимация правой части (1.35) дает:

Из последней формулы видно, что «подправленная» оценка всегда меньше смещенной оценки .

Отметим, что при малых истинных значениях и при «не слишком малых» величинах отношения подправленные оценки, подсчитанные по формулам (1.35) и (1.35), могут принимать отрицательные значения. Можно устранить абсурдность отрицательных значений оценки, используя в качестве «еще раз подправленной» оценки величину

(правда, уже не будет несмещенной оценкой).

<< Предыдущий параграф Следующий параграф >>
Оглавление