Главная > Математика > Прикладная статистика: Исследование зависимостей
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

1.1.2. Коэффициент корреляции как измеритель степени тесноты связи в двумерных нормальных схемах.

Пусть исследуется парная зависимость между случайными переменными типа С (или между и типа D), см. § В.5. Предположим, что имеющиеся в нашем распоряжении результаты наблюдения представляют собой выборку из двумерной нормальной генеральной совокупности (см. [14, с. 171]) В этом случае введенный ранее (1.6) индекс корреляции просто выражается через коэффициент корреляции , участвующий в записи уравнения соответствующей двумерной нормальной плотности.

Воспользовавшись соотношением (1.6) с учетом (1.4), получаем

С помощью непосредственных вычислений, опирающихся на формулу для плотности двумерного нормального закона, можно показать, что

где ковариация — второй центральный смешанный момент двумерной случайной величины — среднеквадратические (безусловные) отклонения соответственно компонент ). Величина , определенная соотношением (1.8), называется коэффициентом корреляции и характеризует (в силу (1.7)) степень тесноты связи между случайными компонентами При этом лишь в данном частном случае характеристика степени тесноты связи симметрична относительно переменных и имеет поддающийся содержательной интерпретации знак «плюс» или «минус». Положительность коэффициента корреляции означает одинаковый характер тенденции взаимосвязанного изменения случайных компонент с увеличением мы наблюдаем тенденцию увеличения соответствующих индивидуальных значений и, следовательно, увеличивается условное математическое ожидание Отрицательное значение говорит о противоположной тенденции взаимосвязанного изменения компонент (с увеличением уменьшается ).

Выборочное значение коэффициента корреляции (т. е. статистическая оценка неизвестного значения ) подсчитывается по исходным статистическим данным по формуле

Определенные соотношениями (1.8) и (1.8) соответственно теоретический и выборочный коэффициенты корреляции могут быть формально вычислены для любой двумерной системы наблюдений; они являются измерителями степени тесное ты линейной статистической связи между анализируемыми признаками. Однако только в случае совместной нормальной распределенности исследуемых случайных величин коэффициент корреляции имеет четкий смысл как характеристика степени тесноты связи между ними. В частности, в этом, случае соотношение подтверждает чисто функциональную линейную зависимость между исследуемыми величинами, а уравнение свидетельствует об их полной взаимной независимости. Кроме того, коэффициент корреляции вместе со средними и дисперсиями случайных величин составляет те пять параметров, которые дают исчерпывающие сведения о стохастической зависимости исследуемых величин, так как однозначно определяют их двумерный закон распределения (см. [14, с. 171, формула (6.9)]).

Во всех же остальных случаях (распределения отклоняются от нормального, одна из исследуемых величин не является случайной и т. п.) коэффициент корреляции можно использовать лишь в качестве одной из возможных характеристик степени тесноты связи. При этом, несмотря на то, что в общем случае пока не предложено характеристики линейной связи, которая обладала бы очевидными преимуществами по сравнению с , его интерпретация часто оказывается весьма ненадежной. Если же априори допускается возможность отклонения от линейного вида зависимости, то можно построить примеры, когда, несмотря на исследуемые переменные оказываются связанными чисто функциональным соотношением (следовательно, . Поэтому о величинах, для которых обычно говорят, что они некоррелированы, и только после дополнительного статистического и профессионального анализа (исследование степени отклонения распределения рассматриваемых величин от нормального и т. п.) можно сказать, следует ли отсюда их независимость. И, наоборот, из высокой степени коррелированности величин при сильных отклонениях распределения от нормального еще не следует их столь же тесная зависимость.

Приведем пример.

На рис. 1.1, а представлены данные, характеризующие численность населения и соответствующее число телевизионных точек в девяти городах США — Денвере, Сан-Антонио, Канзас-Сити, Сиэтле, Цинциннати, Буффало, Нью-Орлеане, Милуоки, Хьюстоне.

По формуле (1.8) получаем, что коэффициент корреляции это при свидетельствует о весьма малой степени коррелированности . Если же к этим данным присовокупить соответствующие сведения о Нью-Йорке см. рис. 1.1, б), то объем выборки увеличивается на единицу а соответственно пересчитанный коэффициент корреляции

Рис. 1.1. Корреляционное поле, характеризующее связь между численностью населения и числом установленных телевизионных точек в США в 1953 г.: а) в девяти городах; б) в десяти городах

Дело здесь в том, что последнее (десятое) наблюдение является «аномальным», резко выделяющимся, так что всю совокупность наблюдений мы уже не можем считать выборкой из одной и той же нормальной генеральной совокупности (в чем читатель сможет без труда убедиться, воспользовавшись одним из приемов, описанных в [14, § 11.5]).

И наконец, даже если удалось установить тесную зависимость между двумя исследуемыми величинами, отсюда еще непосредственно не следует их причинная взаимообусловленность. Например, при анализе большого числа наблюдений, относящихся к отливке труб на сталелитейных заводах, была установлена положительная корреляционная связь между временем плавки и процентом забракованных труб [10]. Дать какое-либо причинное истолкование этой стохастической связи было невозможно, а поэтому рекомендации ограничить продолжительность плавки для снижения процента забракованных труб выглядели малосостоятельными.

Действительно, спустя несколько лет обнаружили, что большая продолжительность плавки всегда была связана с использованием сырья специального состава. Этот вид сырья приводил одновременно к длительному времени плавки и большому проценту брака, хотя оба эти фактора взаимно независимы.

Таким образом, высокий коэффициент корреляции между продолжительностью плавки и процентом забракованных труб полностью обусловливался влиянием третьего, не учтенного при исследовании фактора — характеристики качества сырья. Если же этот фактор был бы с самого начала учтен, то никакой значимой корреляционной связи между временем плавки и процентом забракованных труб мы бы не обнаружили. За счет подобных эффектов (одновременного влияния неучтенных факторов на исследуемые переменные) может искажаться и смысл истинной связи между переменными, т. е., например, подсчеты приводят к положительному значению парного коэффициента корреляции, в то время как истинная связь между ними имеет отрицательный смысл. Такую корреляцию между двумя переменными часто называют «ложной». Более детально подобные ситуации — обнаружение и исключение «общих причинных факторов», расчет «очищенных», или частных, коэффициентов корреляции и т. п. — исследуют методами многомерного корреляционного анализа (см. § 1.2). Такого рода недоразумения с причинным толкованием статистических связей наиболее вероятны в ситуациях, когда исходными статистическими данными являются показатели работы действующего предприятия. Их обычно удается свести к минимуму при получении данных из искусственно поставленного эксперимента.

Выборочное значение коэффициента корреляции в примере В.3 между процентом забракованного стекла и соответствующей величиной вакуума в печи для его отжига . Оно, по-видимому, свидетельствует о наличии определенной зависимости между исследуемыми переменными. Однако утверждать, что повышение вакуума в печи причинно обусловливает понижение процента брака, преждевременно: предварительно следует провести дополнительный профессионально-статистический анализ, в частности выяснить, нет ли в технологических условиях данного эксперимента неучтенного фактора, изменения которого одновременно приводили бы к повышению вакуума и понижению брака производства.

Замечания о необходимости известной осторожности при толковании корреляционной связи никоим образом не обесценивают желательность проверки значимости любого кажущегося соотношения. При этом следует использовать характеристики степени тесноты связи: коэффициента корреляции и корреляционного отношения (см. ниже). Но не всегда знание этих характеристик оказывается достаточным для получения информации о степени тесноты физической связи между исследуемыми переменными и тем более об их причинной взаимообусловленности.

<< Предыдущий параграф Следующий параграф >>
Оглавление