Главная > Математика > Прикладная статистика: Исследование зависимостей
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

1.1.5. Измерение степени тесноты связи при нелинейной зависимости.

При отклонениях исследуемой зависимости от линейного вида, как уже отмечалось, коэффициент корреляции теряет свой смысл как характеристика степени тесноты связи. В этих случаях исследователь должен воспользоваться имеющимися у него двумерными выборочными данными с целью построения оценок для определенной выше, в некотором смысле универсальной теоретической характеристики степени тесноты связи — индекса корреляции (см. формулу (1.6)). Способ построения таких оценок выбирается в зависимости от природы имеющихся у нас выборочных данных и от характера некоторых дополнительных допущений.

Корреляционное отношение. Наиболее привлекательной в этом смысле является ситуация, в которой характер выборочных данных (их количество, «плотность» расположения на плоскости) допускает их группировку по оси объясняющей переменной и возможность подсчета так называемых «частных» средних ординат внутри каждого интервала группирования.

Пусть такое группирование данных произведено. При этом, как обычно, k — число интервалов группирования по оси абсцисс; (i = 1, 2, ..., k) — число выборочных точек, попавших интервал группирования; — среднее значение ординат точек, попавших в i-й интервал группирования. Тогда, как легко понять, выборочным аналогом (оценкой) введенной ранее дисперсии of будет величина

где общее среднее .

Соответственно получаем оценку для в виде

где выборочная дисперсия индивидуальных результатов наблюдения около общего среднего у вычисляется по формуле

Величину принято называть корреляционным отношением зависимой переменной по независимой переменной Его вычисление не обременено никакими дополнительными допущениями относительно общего вида регрессионной зависимости (1.1). Однако, в отличие от коэффициента корреляции, корреляционное отношение несимметрично по отношению к исследуемым переменным, т. е., вообще говоря, . Кроме того, корреляционное отношение, по определению, является величиной неотрицательной, так как под ним подразумевается результат извлечения арифметического значения корня квадратного из .

В остальном свойства корреляционного отношения во многом похожи на свойства коэффициента корреляции.

Из (1.5) и (1.6), в частности, немедленно следует, что подобно коэффициенту корреляции корреляционное отношение не может быть больше единицы. Из следует наличие однозначной функциональной связи между , и, наоборот, однозначная функциональная связь между свидетельствует о том, что . Далее, отсутствие корреляционной связи между означает, что условные средние сохраняют постоянное значение, равное общему среднему у, а потому Наоборот, если и следовательно, частные средние не зависят от т. е. соответствующая линия регрессии параллельна горизонтальной оси.

Отметим, что между нет какой-либо простой зависимости. Некоррелированность с (т. е. равенство нулю величины ) не влечет за собой непосредственно некоррелированности с . Возможны ситуации, в которых один из этих показателей принимает нулевое значение, в то время как другой равен единице. Допустим, например, что принимает значения: с вероятностями 1/3 каждое. В этом случае (в силу симметрии параболы относительно оси и симметричности распределения ).

Можно показать, что корреляционное отношение не может быть меньше абсолютной величины коэффициента корреляции , характеризующего зависимость между теми же переменными. В случае линейной зависимости эти две характеристики связи совпадают. Это позволяет использовать величину разности в качестве меры отклонения регрессионной зависимости от линейного вида (см. п. 6.3.3).

И наконец, все замечания относительно смысловой интерпретации коэффициента корреляции (в частности, о логическом соотношении понятий «корреляционная зависимость, связь между переменными, их причинная взаимообусловленность») остаются в силе и для корреляционного отношения.

Проверка гипотезы об отсутствии корреляционной связи Какую величину корреляционного отношения можно признать статистически значимо отличающейся от нуля, т. е.достаточной для статистически обоснованного вывода о наличии корреляционной связи между исследуемыми переменными? Ведь так же, как и в случае прямолинейного типа зависимости, принципиально возможны ситуации, когда отклонение от нуля полученной величины корреляционного отношения является статистически незначимым, т. е. обусловленным лишь неизбежными случайными колебаниями выборки.

Для построения соответствующего критерия воспользуемся фактом приближенной -распределенности случайной величины

справедливым в предположении, что (или, что то и что условные распределения зависимой переменной при любом фиксированном описываются нормальным законом с постоянной дисперсией (см., например, [65, с. 401]).

Поэтому, если окажется, что

то гипотеза об отсутствии корреляционной связи между отвергается с уровнем значимости а (здесь, как и ранее, - -ная точка -распределения с числом степеней свободы числителя и знаменателя находится из табл. П.5). При выполнении обратного неравенства значение корреляционного отношения признается статистически незначимым, т. е. делается вывод об отсутствии корреляционной связи между и

Доверительные интервалы для истинного значения корреляционного отношения можно построить, опираясь на тот факт, что статистика

приближенно подчиняется так называемому «нецентральному -распределению», который оказывается справедливым в предположении -нормальности случайных величин и при любом отличном от нуля истинном значении корреляционного отношения

Действительно, как известно (см., например, [14, гл. 61), случайная величина

подчиняется нецентральному -распределению с числами степеней свободы числителя и знаменателя соответственно параметром нецентральности а, если суть взаимно независимые нормальные случайные величины, обладающие одинаковыми дисперсиями, причем а

Намечая доказательство сформулированного выше утверждения о статистике определенной формулой (1.17), заметим, что в нашем случае в роли случайных величин грубо говоря, выступают значения а в роли случайных величин — значения Отметим также следующие соотношения, в справедливости (в некоторых случаях приближенной) которых нетрудно убедиться:

(здесь ) — неизвестная нам функция регрессии по — средняя точка интервала группирования по оси асбцисс, а — среднее значение функции регрессии):

И наконец, параметр нецентральности в соответствии с (1.18) и с учетом (1.6) в нашем случае имеет вид

Далее воспользуемся тем (см., например, [30, с. 99]), что распределение статистики при достаточно хорошо аппроксимируется обычным (центральным) -распределением с числом степеней свободы числителя, приблизительно равным числом степеней свободы знаменателя, равным Поэтому в нашем случае распределение статистики

приближенно описывается -распределением с числом степеней свободы числителя

и числом степеней свободы знаменателя

Таким образом, получаем следующее правило построения приближенных доверительных интервалов для истинного значения корреляционного отношения

1) пользуясь формулой (1.16), вычисляем точечную оценку для истинного значения корреляционного отношения

2) по формуле (1.19) подсчитываем вспомогательное число степеней свободы v числителя для аппроксимирующего центрального -распределения;

3) задавшись уровнем доверия , с помощью табл. П.5 находим 100 -ную точку и -ную точку -распределения с числом степеней свободы числителя и знаменателя

4) утверждаем, что приблизительно с вероятностью истинное значение корреляционного отношение удовлетворяет неравенствам

Проиллюстрируем работоспособность описанного метода на следующем примере. Пусть в результате обработки 132 экспериментальных точек получено выборочное значение корреляционного отношения . При этом мы воспользовались разбиением диапазона изменения независимой переменной на равных интервалов группирования. Соответственно получаем в качестве вспомогательного числа степеней свободы числителя величину (частное округляем до целого числа). Задавшись доверительной вероятностью , из табл. П.5 находим (полагая ):

И наконец, в соответствии с формулой (1.20) находим левый () и правый () концы доверительного интервала для истинного значения

Таким образом, при точечной оценке истинное значение заключено в пределах от до с вероятностью, приблизительно равной 0,9, т. е. .

В этом примере хорошо видна существенная несимметричность концов интервальной оценки относительно точечной оценки (правый конец интервальной оценки отстоит от точечной оценки на 0,33, в то время как левый конец — всего лишь на

Для значений точечных оценок , близких к нулю или к единице, левый или правый конец интервальной оценки может терять содержательный смысл, выходя за пределы отрезка [0, 1]. В этом случае в качестве левого или правого конца интервальной оценки следует брать соответствующее граничное значение — нуль или единицу (причина подобных нежелательных ситуаций — в аппроксимационном подходе к решению данной задачи). Однако описанный прием все-таки следует признать гораздо более точным, чем применяемый иногда метод построения интервальных оценок для необоснованно использующий приблизительную -нормальность статистики

Оценка индекса корреляции по несгруппированным данным. Если характер имеющихся у нас выборочных данных таков, что не допускает их сколько-нибудь удовлетворительной группировки по оси объясняющей переменной (недостаточно велико , точки ) слишком «разрежены» на плоскости), то построению оценок для мы вынуждены предпослать принятие той или иной гипотезы об общем виде регрессионной функции (1.1). О статистических методах проверки подобного рода гипотез см. ниже, гл. 6. Пусть, например, в результате анализа, описанного в гл. 6, нами принята гипотеза о том, что интересующая нас регрессионная зависимость имеет вид алгебраического полинома второго порядка, т. е. Тогда для оценки введенной ранее характеристики степени тесноты связи между исследуемыми переменными — коэффициента детерминации (или индекса корреляции ) исследователю приходится вначале вычислить оценки для неизвестных параметров — коэффициентов , входящих в уравнение регрессии (см. гл. 7). И лишь после этого, ориентируясь на правую часть формулы (1.6), мы получим в качестве оценки для величину:

так как нетрудно показать [65], что величина

является в данном случае выборочным аналогом (оценкой) теоретической дисперсии участвующей в (1.6).

Пусть в общем случае нами принята гипотеза об общем виде интересующей нас зависимости , где — некоторая известная функция аргумента зависящая от неизвестного параметра .

Тогда, пользуясь рекомендациями гл. 7, строим оценки неизвестных параметров, входящих в описание функции регрессии, после чего вычисляем оценку коэффициента детерминации по формуле

Замечание. Можно показать, что, как и следовало ожидать, в частном случае оценка, определяемая соотношением (1.21), совпадает с квадратом выборочного коэффициента корреляции

Следует отметить, что вычисление и использование выборочных характеристик степени тесноты связи типа (1.21) затруднено по меньшей мере тремя обстоятельствами: 1) необходимостью предварительного выбора общего вида регрессионной зависимости; 2) необходимостью предварительного вычисления оценок для входящих в уравнение регрессии неизвестных параметров; 3) отсутствием строгих рекомендаций по их проверке на статистическую значимость и по построению соответствующих интервальных оценок.

<< Предыдущий параграф Следующий параграф >>
Оглавление