1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324 325 326 327 328 329 330 331 332 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349 350 351 352 353 354 355 356 357 358 359 360 361 362 363 364 365 366 367 368 369 370 371 372 373 374 375 376 377 378 379 380 381 382 383
Макеты страниц
1.3. КОРРЕЛЯЦИЯ И РЕГРЕССИЯПроведение факторного анализа предполагает определенный базис статистических знаний, например умение вычислять среднее значение и стандартное отклонение, использовать статистические критерии, а также знакомство с корреляционным и регрессионным анализом. Большинство книг по статистике обсуждает эти вопросы. В этой главе кратко описываются основные понятия корреляционного и регрессионного анализа. Факторный анализ исходит в большинстве случаев непосредственно из коэффициентов корреляции, поэтому мы также начнем с обсуждения метода их вычисления. Предположим, у группы, состоящей из Если из контекста ясно, что Кроме среднего значения вычисляют меру отклонения значений каждой переменной от этой средней. Для этого сначала определяют так называемую сумму квадратов отклонений отдельных значений от среднего (сокращенно СКО). В табл. 1.1 в строке 3 приведено выражение суммы квадратов отклонений, обозначенное До этого момента каждая переменная рассматривалась отдельно, по значениям каждой были вычислены среднее значение и стандартное отклонение. Теперь поставим вопрос: как можно по одной из этих величин делать заключение о другой? Этот вопрос, заключающийся, по существу, в том, как по величине Таблица 1.1. Формулы корреляционного и регрессионного исчисления Теперь нужно провести через это скопление точек прямую так, чтобы исходя из х «как можно точнее» оценить значение у. Эти оценки у по принятому методу оценивания являются тогда наиболее точными, если сумма квадратов их вертикальных отклонений от действительных значений по возможности является наименьшей. Итак, требуется найти параметры прямой из условия Такая прямая изображена на рис. 1.2. Как и для любой прямой, параметр b здесь характеризует наклон прямой к оси 0, а параметр а является аддитивной постоянной. Условие (1.2) соответствует требованию метода наименьших квадратов, так как сумма квадратов отклонений должна обращаться в минимум. Применение этого метода дает оценки параметров а и b наилучшие в смысле метода наименьших квадратов. Метод наименьших квадратов может также служить для подбора любой кривой, его возможности не ограничиваются только применением к оценке параметров прямой. Изображенная на рис. 1.2 прямая называется прямой регрессии у по Рис. 1.2. Прямая регрессии у по х. х и у — средние значения переменных. Отклонения отдельных значений от линии регрессии обозначены пунктиром. Величина Формулы для вычисления указаны в табл. 1.1 (строка 10). Угловой коэффициент наклона прямой b называется коэффициентом регрессии. Теперь зададимся вопросом, можно ли исходя из тех же самых наблюдений Определить как можно точнее соответствующее значение Рис. 1.3. Прямая регрессии х по у. Поле корреляции построено для тех же самых пар значений На рис. 1.3 для тех же самых пар значений При определении взаимосвязи всегда предполагается, что известно, какая величина является исходной, а какая — целевой функцией. Прежде чем составлять уравнение регрессии, выясняют для себя, какую переменную выбрать в качестве аргумента, а какую — в виде функции. Допустима другая постановка задачи, при которой не интересуются направлением и формой зависимости, а хотели бы знать, как сильна связь между двумя рядами наблюдений, относящихся к одним и тем же объектам. Это уже задача корреляционного исчисления. Коэффициент корреляции служит мерой линейной взаимосвязи между двумя измеряемыми величинами. Он может принимать значения между +1 и -1. Если он равен нулю, то линейная связь между х и у отсутствует. Если он равен +1 или —1, то связь строго линейная. На рис. 1.4 схематично изображены возможные поля корреляций при различных значениях коэффициентов корреляции. На диаграмме А точки случайно разбросаны на координатной плоскости. По величине Допускается ошибка, если от одного уравнения переходят к другому путем перестановки аргумента и функции. Величина этой ошибки зависит от значения коэффициента корреляции. Диаграмма В, так же как и Б, отражает строгую линейную связь между х и у. Прямая, однако, не проходит через центр координат. Рис. 1.4. Схематичное изображение различных видов зависимостей с соответствующими значениями линейного коэффициента корреляции. Описание см. в тексте Кроме того, у увеличивается с уменьшением х, и наоборот. Поэтому коэффициент корреляции отрицателен. Итак, отрицательный знак у коэффициента корреляции свидетельствует об обратной линейной зависимости между х и у, а положительный знак — о прямой линейной зависимости, т. е. с увеличением х увеличивается и у. Крутизна линии регрессии не оказывает влияния на величину коэффициента корреляции или его знак. Знак коэффициента корреляции отражает лишь направление связи между обеими переменными. На диаграмме Д также схематично показано поле корреляции при отрицательном коэффициенте корреляции. Формулы для вычисления коэффициента корреляции приведены в табл. 1.1. При этом сначала определяется сумма произведений отклонений. Мы уже познакомились с суммой квадратов отклонений для каждой переменной. Вместо того, чтобы возводить в квадрат эти отклонения, а затем суммировать, как указано в строке 3 табл. 1.1, отклонение отдельного значения от средней арифметической одной переменной умножают на соответствующее отклонение другой переменной, а затем суммируют. Таким образом, получают сумму произведений отклонений По аналогии с дисперсией, которую получают делением суммы квадратов отклонений на В литературе на английском языке по регрессионному анализу полную дисперсию разлагают на две составляющие: дисперсию переменной, обусловленную регрессией, и остаточную дисперсию, вызванную ошибками наблюдений. Из рис. 1.2 видно, что расстояние Второе слагаемое в правой части равенства является удвоенным произведением систематической и случайной составляющих и при суммировании оно обращается в нуль, если ( или Левая часть равенства (1.3) называется полной дисперсией переменной у. Первый член правой части является дисперсией, связанной с регрессией. Эта дисперсия характеризует рассеивание за счет исследуемого фактора, т. е. является так называемой «объяснимой» дисперсией. Второй член правой части равенства является «необъяснимой» дисперсией, известной под названием остаточной дисперсии. Происхождение этих названий объясняется следующим образом. Отклонения Отклонения, изображенные на схеме А, входят в полную дисперсию величины у. На схеме Б изображены отклонения, которые носят систематический характер. Они соответствуют дисперсии, обусловленной регрессией. На схеме В представлены отклонения эмпирических точек от регрессионной прямой, которые носят несистематический характер. Частное от деления дисперсии, обусловленной регрессией, на полную дисперсию называют коэффициентом детерминации. Коэффициент детерминации используют как характеристику доли вариации в полной дисперсии, обусловленной влиянием фактора Коэффициент детерминации изменяется от 0 до 1. Извлекая квадратный корень из этого коэффициента, получим коэффициент корреляции Формулой (1.4) можно пользоваться также при нелинейной регрессионной модели. Дисперсия, обусловленная регрессией, вычисляется тогда относительно соответствующих линий регрессий. В случае линейной связи при вычислении коэффициента детерминации, а также коэффициента корреляции безразлично, из какого уравнения регрессии исходят — х по у или у по х. Важно, чтобы вычисленные коэффициенты корреляции дополнительно сверялись с линейной моделью. Рис. 1.5. Полная дисперсия; дисперсия, обусловленная регрессией; остаточная дисперсия На схеме А изображены отклонения отдельных значений от средней. На схеме В изображены отклонения оценок от наблюдаемых величин. Отклонения носят несистематический характер. Например, может встретиться случай, изображенный на диаграмме Е, рис. 1.4. Линейный коэффициент корреляции равен нулю, и налицо существование однозначной нелинейной связи. Следовательно, коэффициент корреляции измеряет также качество согласованности опытных данных с принятой гипотезой о линейности связи. Если коэффициент корреляции несущественно отличается от нуля, то это не означает отсутствие связи вообще, а только подтверждает отсутствие линейной связи. Таким образом, мы косвенно затронули вопрос о значимости коэффициента корреляции. Чтобы ответить на него, коротко рассмотрим принцип применения статистических критериев. Формулируется нулевая гипотеза Вероятность ошибки 1-го рода обозначается через а, ошибки 2-го рода — через превысит критическое значение, которое следует ожидать менее чем в 1% случаев при данном объеме выборки. Величина t при условии Если хотят проверить гипотезу о том, относятся ли оба вычисленных коэффициента корреляции к одной и той же совокупности, то используют имеет нормальное распределение со средним значением Это преобразование позволяет также построить доверительный интервал для коэффициента корреляции. Чтобы ответить на вопрос, различаются ли два коэффициента корреляции и полученных по выборкам объема Рис. 1.6. Геометрическая интерпретация коэффициента корреляции Затем вычисляют величину Величина и также нормально распределена со средним значением 0 и дисперсией 1. Из таблицы нормального распределения можно по вычисленному значению и определить соответствующий уровень значимости. Если и больше 2,58, то разность между двумя коэффициентами корреляции считаем значимой при вероятности допустить ошибку Обратимся еще раз к геометрической интерпретации коэффициента корреляции. На рис. 1.6 в системе координат Вычисление коэффициента корреляции удобно производить по схеме, приведенной в табл. 1.2. При этом сначала вычисляют среднее значение, сумму квадратов отклонений и стандартное отклонение для каждой переменной, а затем сумму произведений отклонений обеих переменных от своих средних. После этого вычисляются коэффициенты регрессии и корреляции. В качестве примера в табл. 1.2 использованы данные о систолическом и диастолическом кровяном давлении десяти лиц, находящихся под медицинским наблюдением. В первом блоке таблицы приведены исходные данные, во втором блоке производятся вычисления отдельно для каждой переменной, а в третьем блоке — вычисления, общие для обеих переменных. С помощью клавишной вычислительной машины весьма просто получить сумму отдельных значений переменных, а также сумму квадратов этих значений. Рис. 1.7. Прямые регрессии у по х и х по у, вычисленные в табл. 1.2 Полученные значения заносятся в строки (1) и (3) вычислительной схемы, причем в левой части этой схемы производятся вычисления для х, а в правой части — для у. В каждой строке выполняется соответствующая операция по определенной формуле. В строке (4) квадрат суммы отдельных значений делится на При оценке коэффициента корреляции кроме уровня значимости следует учитывать ряд других соображений, которые вытекают из определения коэффициента корреляции И иногда приводят к ошибочной интерпретации. Таблица 1.2. Схема вычислений коэффициента корреляции и уравнений регрессии (см. скан) Коэффициент корреляции является параметром двумерного нормального распределения. Но если случайные величины имеют другое совместное распределение, отличное от нормального, то коэффициент корреляции не входит непосредственно в выражение этого закона распределения и поэтому не имеет четкого истолкования. Но даже в этом случае его используют как общепринятый статистический показатель, наподобие стандартного отклонения, которое является параметром одномерного нормального распределения. Для альтернативных и качественных признаков такие показатели, как ковариация и коэффициент корреляции, должны применяться с большой осторожностью. Имеются другие показатели взаимосвязи между переменными, более подходящие в этом случае, которые тоже можно оценивать на значимость. Как это отражается на факторном анализе, если элементами исходной матрицы являются другие показатели взаимосвязи или неправильно вычисленные коэффициенты корреляции, — предмет особого разговора. Перед вычислением коэффициента корреляции следует проверить гипотезу о нормальности обоих распределений и линейности связи между ними. В общем достаточно внимательно всмотреться в поле корреляции. В крайнем случае линейность регрессии можно проверить по схеме, предложенной Б. Уолкером, которую можно найти также в [176; 3]. Проверку гипотезы о нормальности распределения производят с помощью критерия
|
Оглавление
|