1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324 325 326 327 328 329 330 331 332 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349 350 351 352 353 354 355 356 357 358 359 360 361 362 363 364 365 366 367 368 369 370 371 372 373 374 375 376 377 378 379 380 381 382 383
Макеты страниц
8.5. ПРОБЛЕМА НЕОДНОРОДНОСТИИзвестно, что наличие в совокупности двух групп индивидуумов (например, мужчин и женщин), средние значения изучаемых признаков которых различаются между собой, может привести к ложной корреляции. Ложная корреляция возникает тогда, когда неоднородность проявляется по тем признакам, между которыми определяют связь. На проблему неоднородности указывал Коллер [176; 1, 2]. Корреляция может быть вызвана, например, различием между полами, хотя при рассмотрении групп, состоящих только из мужчин или из женщин, связь между исследуемыми признаками отсутствует. На рис. 8.4 схематично изображен этот случай. Неоднородность данных может, наоборот, затушевать корреляцию или изменить ее знак. Рис. 8.4. Схематичный пример возникновения корреляции из-за неоднородности данных. Между изучаемыми признаками Так как факторный анализ исходит из корреляций между переменными, то неоднородность данных оказывает влияние также на факторное решение. На это обращал внимание уже Тэрстоун [286; 5]. Далее на нескольких примерах, сконструированных как модели, показывается влияние неоднородности на факторную структуру. Для этого привлекается числовой пример, с которым мы уже ранее имели дело (табл. 7.5 и 7.6). К матрице данных рассмотренного примера добавляется вторая матрица с данными, представляющими результат наблюдения над теми же самыми 10 переменными у 200 индивидуумов. Определяется корреляционная матрица по всем данным. При этом переменные и 2-й группы наблюдений приводятся к стандартной форме. Среднее значение стандартизованных переменных равно нулю, а стандартное отклонение — единице. Коэффициенты корреляции между этими переменными равны коэффициентам корреляции, указанным в табл. 7.6, т. е. факторная структура двух корреляционных матриц известна, и они идентичны. Если ко всем значениям переменных второй группы данных прибавить постоянную величину, то их средние значения станут равными этой постоянной величине. Коэффициенты корреляции между переменными для этой группы данных не изменятся. Если принять эту постоянную величину а равной 3, то объединенная совокупность данных будет отличаться своей неоднородностью. Можно показать, что если первоначальный коэффициент корреляции между двумя переменными, принадлежащими двум группам данных, равен где С помощью этих двух формул были вычислены соответствующие коэффиценты корреляции по элементам корреляционной матрицы, приведенной в табл. 7.6, причем вводились различные условия, вызывающие неоднородность данных. Затем по полученным корреляционным матрицам был проведен факторный анализ, включающий в себя варимакс-вращение, и было проведено сравнение с результатом варимакс-решения в табл. 7.5. Пример 1. Прибавляем ко всем значениям первой переменной во второй группе данных постоянную Пример 2. Включаем в матрицу данных 11-ю переменную, чтобы проследить влияние неоднородности данных на факторное решение. Маркировочная переменная принимает значение, равное нулю, для индивидуума, принадлежащего к первой группе данных, и значение, равное единице, для индивидуума, принадлежащего ко второй группе данных. Таблица 8.1. Коэффициенты корреляции, изменившиеся по сравнению с приведенными в табл. 7.6 из-за неоднородности данных Коэффициенты корреляции между этой переменной и остальными переменными, вычисленными по выборке, состоящей из 400 индивидуумов, также указаны в табл. 8.1. Результаты факторизации корреляционных матриц этих двух примеров с применением варимакс-вращения приведены в табл. 8.4, где они противопоставлены первоначальному факторному решению, полученному по однородным данным. Если причиной неоднородности является преобразование одной переменной, то факторное отображение изменяется лишь постольку, поскольку общность этой переменной уменьшается. Лишь во втором примере маркировочная переменная 11 вызывает появление третьего фактора, фактора неоднородности, и значительно его нагружает. В то время как отдельные коэффициенты корреляции при введении неоднородности уменьшились, факторное отображение изменилось незначительно. Неоднородность, обусловленная новой переменной, вызвала появление нового фактора. Пример 3. К значениям первых трех переменных второй матрицы исходных данных прибавляем постоянную Пример 4. Дополнительно к условиям примера 3 вводим маркировочную переменную 11. Корреляционная матрица этих двух примеров приведена в нижнем углу табл. 8.2. При сравнении с табл. 7.6. бросается в глаза, что из-за неоднородности данных некоторые коэффициенты корреляции изменяются очень сильно (например, коэффициент корреляции между 2-й и 3-й переменными изменил свое значение — 0,546 на + 0,524!). Несмотря на это, факторное отображение изменилось мало, что видно из табл. 8.4, так как наряду с неоднородностью еще действуют первоначальные связи между переменными и факторами. Но нагрузки переменных 1—3 на первый фактор уменьшились. В обоих последних примерах возникает третий фактор, вызванный неоднородностью данных. Он имеет значительные нагрузки от переменных 1—3, а также 11. Примеры 5 и 6. К значениям первых пяти переменных прибавляем постоянную величину Таблица 8.2. Корреляционные матрицы для примеров 3 и 4 (в нижнем левом углу) и для примеров 5 и 6 (в верхнем правом углу) (см. скан) Из табл. 8.4 видно, что в результате процедур факторного анализа Примеры 7 и 8. К значениям 1-й и 3-й переменных прибавляется постоянная Примеры 9 и 10. К значениям 1, 3 и 5-й переменных прибавляется постоянная Приведенные примеры, в которых моделировалась неоднородность, позволяют сделать следующие выводы: 1. Неоднородность данных может привести к появлению фактора, обусловленного только этой неоднородностью Таблица 8.3. Корреляционные матрицы для примеров 7 и 8 (в нижнем левом углу) и для примеров 9 и 10 (в верхнем правом углу) (см. скан) Таблица 8.4. Варимакс-решения, полученные для различных примеров (см. скан) Введение маркировочной переменной помогает выявить влияние фактора неоднородности. 2. Неоднородность данных изменяет факторное отображение. При больших изменениях в корреляционной матрице в факторном отображении совершенно неожиданно могут произойти лишь незначительные изменения. Факторный анализ менее чувствителен к влиянию неоднородности, чем отдельные коэффициенты корреляции, потому что неоднородность может появиться в факторном решении как отдельный фактор и его можно исключить. Но в некоторых случаях фактор неоднородности может совпадать с каким-либо действующим фактором. Тогда отображение этого фактора изменится. 3. Факторы, которые выделяются по матрице коэффициентов корреляций между переменными с помощью техники R, могут являться следствием как корреляции между переменными, так и неоднородностей в материале исследования. Это следует помнить при интерпретации факторов. Итак, имеются два типа факторов: факторы, которые определяются действием связей между переменными, и факторы, причиной которых является неоднородность данных. Кроме того, имеются смешанные факторы. В наших примерах процедуры факторного анализа осуществлялись вслепую, но мы смогли выявить все типы факторов и определить влияние неоднородности в каждом случае. Если бы анализировались связи между индивидуумами по выборке переменных (т. е. использовалась бы техника Q для определения независимых друг от друга группировок индивидуумов), то результаты были бы аналогичные, а именно получили бы факторы, характеризующие различные группировки, и фактор, вызванный неоднородностью данных. Такой результат не является неожиданным, так как матрица исходных данных для обеих техник одна и та же. В зависимости от постановки задачи неоднородность может рассматриваться как фактор, искажающий результаты исследования, который нужно исключать, либо, наоборот, как фактор, вводимый специально для того, чтобы проследить изменение факторного решения. В любом случае неоднородность в данных не является препятствием проведения факторного анализа. Неоднородность как раз может быть выявлена благодаря факторному анализу и исключена из решения, особенно если для признака неоднородности подобрать маркировочную переменную. В принципе оба типа факторов всегда присутствуют в экспериментальном материале.
|
Оглавление
|