1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324 325 326 327 328 329 330 331 332 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349 350 351 352 353 354 355 356 357 358 359 360 361 362 363 364 365 366 367 368 369 370 371 372 373 374 375 376 377 378 379 380 381 382 383
Макеты страниц
3.3. КРИТЕРИИ ОЦЕНКИ ЧИСЛА ФАКТОРОВ, ПОДЛЕЖАЩИХ ВЫДЕЛЕНИЮПри применении как метода главных факторов, так и центроидного метода возникает один и тот же вопрос: когда должен быть закончен процесс выделения факторов или каким числом факторов можно удовлетвориться? Имеются различные пути решения этого вопроса, которые отчасти приводят к новым способам решения, отчасти также связаны с проблемой общности, проблемой вращения и оценкой значений факторов, т. е. с теми проблемами, которые нами пока затрагивались поверхностно. Поэтому указанные далее идеи будут полностью понятны лишь после изучения последующих глав. Общепризнанного метода определения числа факторов, подлежащих выделению, не существует. Представители различных школ расходятся в мнении о том, какой метод является более достоверным и пригодным для практики. К настоящему времени разработано более двадцати способов определения числа выделяемых факторов. Все эти способы, естественно, не могут быть здесь разобраны. В основном различают три подхода при решении задачи о числе выделяемых факторов: 1) алгебраический подход, который сводится к определению ранга R; 2) статистический подход, при котором на передний план выдвигается возможность сделать заключение на определенном уровне значимости о всей генеральной совокупности индивидуумов; 3) психометрический подход, при котором добиваются обобщения на совокупность всех переменных, и отчасти этот подход аргументирован с общенаучных позиций. Каждый из этих подходов можно проследить в большинстве имеющихся способах оценки числа факторов, подлежащих выделению. Перечисленные подходы и их возможные комбинации определяют многообразие созданных вычислительных процедур, которые можно найти в литературе. 3.3.1. Изображение долей дисперсииГрафическое изображение долей дисперсии факторов позволяет дать в общих чертах обзор критериев выделения Для выражения дисперсии фактора в процентах от полной дисперсии служит отношение: Рис. 3.10. Доли дисперсии шести факторов, выраженные в процентах от полной дисперсии, расположены в порядке, соответствующем выделению этих факторов. Точками изображены накопленные значения долей дисперсий. Пунктирные линии соответствуют обычным границам, принятым при выделении факторов в компонентном анализе Эти доли часто очень малы и отражают содержание анализа. Для наглядности чертят график долей дисперсии факторов, располагая их в порядке уменьшения или в виде накопленного ряда, как это показано на рис. 3.10. На основе такого изображения можно произвольно установить правило — выделять такое число факторов, на которые приходится 90% полной дисперсии, или выделять только те факторы, дисперсия которых составляет более 5% полной дисперсии. Как показывает пример на рис. 3.10, оба критерия не согласуются между собой. Если остановиться на объяснении только 90% полной дисперсии, то в этом случае ограничились бы выделением трех факторов, так как только третья точка лежит выше пунктирной линии. Если бы выбирались все факторы с дисперсией более чем 5%, то пришлось бы выделить четыре фактора, так как уже пятый фактор имеет меньшую долю дисперсии. При применении модели факторного анализа часто рациональнее употреблять доли дисперсий общих факторов, отнесенных к суммарной общности, и указывать вклад каждого фактора в процентах. Такой подход представлен на рис. 3.11. Значения в процентах, которые указаны на шкале в левой стороне рисунка, неизбежно становятся больше, так как характерная дисперсия не входит более в знаменатель. При принятии решения о числе факторов, подлежащих выделению, недостаточно учитывать исключительно только эти значения в процентах, как это часто случается на практике. При небольшой суммарной общности доля, выраженная в процентах, часто очень велика, хотя это не отражает действительного положения вещей. Поэтому с правой стороны рис. 3.11 нанесена другая шкала, по которой можно считывать доли от полной дисперсии, выраженные в процентах. Дополнительно в правой части рисунка приведена шкала, по которой можно считывать абсолютные величины дисперсий в виде собственных значений. Рис. 3.11. Распределение долей дисперсии факторов, выраженных в процентах от суммарной общности и полной дисперсии. Слева указана шкала для долей дисперсий, выраженных в процентах от суммарной общности. Справа указана шкала для долей дисперсий, выраженных в процентах от полной дисперсии. Кроме того, справа приведена шкала для собственных значений. Доли дисперсии расположены в порядке убывания. Точками изображены накопленные значения долей дисперсий. Факторы, которые не должны выделяться, заштрихованы При определении числа выделяемых факторов надо учитывать в равной степени доли дисперсий факторов, отнесенных как к полной дисперсии, так и к суммарной общности, а также абсолютные значения дисперсий. В этой связи следует упомянуть один критерий, предложенный Кайзером и Дикманом [166]. Факторы, вклады которых (сумма квадратов факторных нагрузок) в полную дисперсию меньше единицы, имеют долю дисперсии, меньшую единичной дисперсии переменных. Такие факторы не должны выделяться. На рис. 3.11 они заштрихованы. Приведенный критерий, по которому следует выделять только факторы с собственными значениями больше единицы, широко распространен благодаря своей простоте. Так как этот критерий основан на величине собственных значений, а число собственных значений зависит от числа переменных, то при небольшом числе переменных будет выделяться мало факторов, при большом числе переменных соответственно много факторов. Исходя из этих соображений в примере на рис. 3.11 надо было бы ограничиться двумя факторами. Всегда рекомендуется дисперсии отдельных факторов вычислять в виде долей от полной дисперсии и от суммарной общности и графически их изображать, как это показано на рис. 3.11. Благодаря такому наглядному изображению получают возможность принять первое решение о числе факторов, подлежащих выделению, хотя такое решение является поверхностным и в определенной степени субъективным. В качестве критериев при этом следует учитывать обе доли дисперсий факторов, форму кривой (см. ниже) и абсолютные доли дисперсии. При этом не должна вводить в заблуждение высокая доля дисперсии, вычисленная относительно суммарной общности, если абсолютное ее значение мало. Указание на то, что 30% суммарной общности обеспечивается вторым фактором, ничего не дает, если не сообщается величина этой суммарной общности. Если, например, суммарная общность составляет одну треть от полной дисперсии, то на второй фактор приходится только 10% полной дисперсии. Рис. 3.12. Собственные значения корреляционной матрицы, построенной по случайным числам, имеющим нормальное распределение Рис. 3.13. Собственные значения матрицы выборочных коэффициентов корреляции (точки). Кружочками изображены собственные значения, приведенные на рис. 3.12 Изображение, подобное приведенному на рис. 3.11, где с левой стороны можно считывать долю дисперсии фактора, вычисленную относительно суммарной общности, а с правой — долю дисперсии фактора, вычисленную относительно полной дисперсии, а также собственные значения А., позволяет избежать таких ошибочных заключений. Такое изображение является очень наглядным и помогает завершить факторный анализ. При практической работе оправдала себя процедура, которая была разработана Каттеллом [35; 20] и названа им критерием отсеивания (scree-test). В этой процедуре исходят из графического изображения всех собственных значений корреляционной матрицы, которые наносятся на график в порядке их убывания. Рис. 3.11 соответствует подобному изображению, так как доли дисперсии можно рассматривать как собственные значения. На рис. 3.12 представлены все проранжированные собственные значения корреляционной матрицы с единицами на диагонали. Корреляционная матрица была вычислена для 16 переменных Как видно, собственные значения Лежат практически на прямой, наклон которой соответствует обратной зависимости. Если имеет место неслучайная корреляция, то возможна кривая, изображенная на рис. 3.13. На этом рисунке нанесены собственные значения корреляционной матрицы, построенной по данным заполнения анкет для 16 параметров Критерий Хорна [140; 2] также можно проиллюстрировать рисунком 3.13. Хорн предлагает для каждой исследуемой корреляционной матрицы определять по случайным нормально распределенным числам k корреляционных матриц, используя при этом один и тот же объем выборок. Затем вычисляются средние величины ранжированных собственных значений этих матриц. Полученная по усредненным величинам кривая собственных значений соответствует аналогичной кривой в генеральной совокупности при определенном объеме случайных выборок, определенном числе переменных и определенной случайной. корреляции. Там, где эта кривая пересекает кривую собственных значений, вычисленных по действительным наблюдениям, Хорн предлагает прекратить выделение факторов. Кривая собственных значений, заимствованная из рис. 3.12, на рис. 3.13 отмечена маленькими кружками. Согласно сформулированному правилу следовало бы ограничиться четырьмя факторами. Критерий Хорна в принципе сводится к правилу, по которому должны выделяться факторы с При принятии решения по критерию отсеивания о числе факторов, подлежащих выделению, исходят не из модели факторного анализа, а из главных компонент корреляционной матрицы. В этом случае процедура проведения факторного анализа состоит в следующем. Вначале определяют главные компоненты матрицы R, не проводя оценку общностей. Затем устанавливают по критерию отсеивания число факторов Лишь после этого принимают окончательное решение о числе факторов, которое следует оставить для объяснения рассчитанных корреляций. Графическое изображение долей дисперсии факторов дает возможность принять лишь предварительное решение, необходимое для дальнейшей процедуры. И только после завершения всего факторного анализа можно ответить на вопрос о числе факторов, которое должно было быть выделено. Трудность состоит в том, что в ходе анализа должно быть относительно рано принято решение, сколько факторов подвергать процедуре вращения. Критерий отсеивания позволяет в общем случае выделить больше факторов, чем другие критерии. Поэтому следует отдавать предпочтение этому критерию. На последующих этапах расчета число выделенных факторов сокращается. 3.3.2. Оценка остатков корреляций Как в методе главных факторов, так и в центроидном методе предусмотрено на каждом этапе выделения факторов вычисление остатков. Часто уже при рассмотрении остаточной матрицы ясно, что не имеет смысла продолжать процедуру выделения факторов. Если все остаточные коэффициенты корреляции незначительно отличаются от нуля, то нет необходимости в новом факторе. Употребленному выражению «незначительно отличаются от нуля» можно дать более точное истолкование. Распределение остаточных коэффициентов корреляции гост должно соответствовать распределению коэффициентов корреляции, вычисленных по результатам случайных выборок одного и того же объема из нормально распределенной генеральной совокупности. Распределение гост должно быть нормальным со средним значением, равным нулю, и стандартным отклонением Для проверки значимости гост нужно произвести точное сравнение фактического распределения остаточных коэффициентов корреляции с указанным эталонным распределением. Но обычно лишь устанавливается, насколько фактическое значение Таблица 3.25. Распределение остаточных коэффициентов корреляций На рис. 3.14 изображено распределение остаточных коэффициентов корреляции из табл. 3.25. Речь идет о модели кровяного давления, составленной по 24 переменным (см. с. 265). Все получившиеся остаточные коэффициенты корреляции не значимы при Барт [27; 7] предложил для оценки остатков употреблять величину При оценке остатков каждый коэффициент корреляции рассматривается в определенной степени сам по себе, вне связи с другими коэффициентами, либо из них составляется распределение. Для оценки значимости всей корреляционной матрицы Бартлет [15; 3] предложил критерий, усовершенствованный далее Уилксом [312]: с Тогда определитель матрицы R вычисляется по следующей формуле: В этом случае критерий Рис. 3.14. Распределение остатков по табл. 3.25 Лоули предложил еще более простой критерий, который был найден в результате аппроксимации (3.23): где Таким образом проверяется значимость корреляционной матрицы или матрицы остатков. Если проверка гипотезы дает отрицательные результаты, то это только означает, что не имеет смысла продолжать процедуру выделения факторов. Перечисленные критерии не дают оценки модели факторного анализа. Любые высказывания по этому вопросу с помощью этих критериев полностью произвольны и бессмысленны.
|
Оглавление
|