Главная > Математика > Факторный анализ (Иберла К.)
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

8.9. ЗАКЛЮЧИТЕЛЬНЫЕ ЗАМЕЧАНИЯ

Шестьдесят лет спустя после первого применения факторный анализ еще вызывает много споров. Поэтому в заключение нам хотелось бы сформулировать еще раз рекомендации по его использованию. Это является трудной задачей, так как никакой систематизации в этом направлении до сих пор еще не было проведено, а мнения специалистов по поводу области приложения и эффективности разных процедур очень противоречивы. Далее будем различать четыре области приложения факторного анализа. Разбиение на эти области основано на современном уровне знаний. Не исключено, что в будущем произойдет значительное перераспределение и расширение сфер применения фактбр ного анализа.

1. Методами факторного анализа исследуется структура малоизвестной области знания, при этом либо ищется подтверждение существующей гипотезы, либо формируется новая. Это классическая область применения факторного анализа, примером которой может служить исследование интеллектуальных возможностей. Вся область исследования покрывается гипотетическими переменными, отличными друг от друга, из которых затем отбирают типичные (или извлекают репрезентативную выборку). По этим переменным проводят факторный анализ, включая процедуру вращения для поиска простой структуры. Факторы, удовлетворяющие принципу простой структуры, представляют собой гипотезу о группировках наблюдаемых переменных в рассматриваемом пространстве. Все выделенные факторы должны соответствовать реальным факторам, определяющим механизм взаимодействия переменных в изучаемом явлении. Это составляет одну из целей анализа. Факторы можно выделять не только по переменным, но и по индивидуумам. Следует особо подчеркнуть, что факторный анализ применяется для генерирования новых гипотез, которые должны подтвердиться в ходе дальнейших экспериментов. Оценка значений факторов при этом не обязательна. Коэффициент множественной детерминации между переменными и факторами служит критерием оценки значений соответствующего фактора.

2. Факторный анализ может быть применен для оценки непосредственно не измеримых величин. По сравнению с предыдущей областью применения это соответствует более глубокому пониманию целей факторного анализа. В этом случае задачей факторного анализа является не только выявление структуры данных, но и определение значений факторов. Такие задачи возникают, например, при биологических исследованиях, когда про некоторую величину заранее известно, что она непосредственно не измерима, но коррелирует с несколькими измеримыми величинами. Оценки значений такой величины, полученные с помощью факторного анализа, являются более точными, чем оценки, полученные по отдельным, коррелированным с ней величинам. Процедура вращения здесь необходима для преобразования первого набора «сырых» факторных нагрузок в такой набор, который наилучшим образом соответствует проблематике изучаемого явления. Примером решения такой задачи является исследование функционального состояния поджелудочной железы, описанное в работе Оверолла и Вильямса [219]. С помощью моделированиягна ЭВМ в гл. 7.3 было показано, что оценка значений не известной заранее величины (фактора) производится достаточно точно.

3. Факторный анализ применяется для снижения размерности исходного набора признаков без интерпретации выделенных факторов. Эту задачу хорошо выполняет компонентный анализ. Процедура вращения в этом случае отпадает. Факторы являются математическими конструкциями с определенными оптимальными свойствами, которым в реальной действительности большей частью нельзя найти никакого аналога.

Для снижения размерности исследуемого факторного пространства кроме компонентного анализа можно применять и другие методы факторного анализа. При этом не требуется выявления однозначной простой структуры и подбора содержательно интерпретируемых факторов. Обычно при решении этой задачи следят только за соблюдением условия минимально возможной потери информативности исходных признаков. Если подбор переменных осуществляется произвольно, эксперименты не были тщательно подготовлены, имеются сомнения в подборе изучаемых групп при тестировании и присутствуют большие погрешности измерения, то следует отдавать предпочтение компонентному анализу, и при этом, конечно, может быть решена задача только снижения размерности. Если же эксперимент был организован правильно и подбор переменных и исследуемых объектов или индивидуумов заранее обдуман и спланирован для проведения факторного анализа, то можно по полученным данным решать и другие задачи. Снижение размерности факторного пространства достигается легче, чем две вышеназванные задачи факторного анализа.

4. Факторный анализ можно применять для решения специальных проблем. Успех при этом чаще всего зависит от интуиции и возможностей исследователя и достигается путем комбинации факторного и дисперсионного анализов, факторного и ковариационного анализов, а также факторного анализа и исследования временных рядов. Применение техники Р позволяет провести классификацию индивидуумов или объектов, выделяя наиболее типичные их группы. В настоящее время проблеме информативной, непротиворечивой классификации, максимально отвечающей естественной системе индивидуумов и объектов, уделяется большое внимание. Вопросам выделения типичных группировок и описания их целевыми функциями занимался Шеффер [251]. Вудбери и Клевланд [320] применяли факторный анализ для оценки отсутствующих данных в наборе исходных величин.

Из сказанного ясно, что факторный анализ решает разнообразные задачи и в каждой области его приложения приходится преодолевать свои трудности. Полного описания правил, как поступать в различных ситуациях, до сих пор нет. Мы здесь разберем ряд вопросов, связанных с практическим применением факторного анализа. Эти вопросы разбиты на четыре группй и для наглядности оформлены в виде таблицы (см. табл. 8.11). Расположение вопросов в таблице соответствует той последовательности, с которой они возникают при реализации процедур факторного анализа. Положительным ответом на последний вопрос должно заканчиваться правильно организованное исследование методами факторного анализа. Вопросы, представленные в таблице, далее кратко, в той же последовательности обсуждаются в тексте.

I. Вопросы, решаемые перед началом исследования.

1. Какова цель проведения факторного анализа? Ответ на этот вопрос связан с одной из названных областей применения факторного анализа: а) изучение структуры малоизвестной области знания; б) оценка непосредственно не измеримой величины; в) снижение размерности исходного набора признаков; г) решение специальных проблем.

Таблица 8.11. Вопросы, связанные с применением факторного анализа

(см. скан)

Цель проведения факторного анализа должна быть заранее сформулирована и формально отнесена к одной из четырех указанных областей. Четкая формулировка цели исследования является первым накладываемым ограничением.

2. Какие переменные должны включаться в анализ? Это является важным моментом факторного анализа, так как от выбора переменных зависит число, вид факторов и величина их нагрузок по отдельным переменным. Выбор переменных определяется целью анализа. Если изучается структура малоизвестной области и формулируются новые гипотезы об этой структуре, то нужно привлекать как можно более разнообразные переменные.

Их число должно быть велико, и они должны покрывать своей системой всю область исследования. Причем не следует отдавать предпочтения каким-либо определенным переменным. Если производится оценка непосредственно не измеримой величины, то в анализ включают те переменные, которые связаны в какой-либо мере с этой величиной. Эти связи между переменными заранее анализируются, чтобы исключить появление фактора, обусловленного только методом измерения. Чтобы избежать этого нежелательного эффекта, рекомендуется проводить факторный анализ с различным набором переменных, сравнивая между собой полученные результаты (см. вопрос 14). Можно в анализ вводить также маркировочные переменные или ориентироваться на имеющиеся предположения данной отрасли науки, либо руководствоваться стремлением к согласованности результатов, достигнутых другими методами (см. вопросы 3 и 20). Подбор переменных является серьезной проблемой в факторном анализе, и этой проблеме нужно уделять должное внимание. В настоящее время при практических исследованиях выбор переменных чаще всего зависит от искусства исполнителя.

3. Имеется ли какая-либо предварительная информация о данной области исследования? Что известно о переменных, которые входят в факторный анализ? Четкая формулировка условий эксперимента и наличие предварительной информации о данной области исследования помогают лучше поставить задачу. Результат факторного анализа должен сравниваться с результатами исследований, выполненных другими методами, либо ожидаемым результатом, который приводится в виде матрицы либо в виде схематического изображения, на котором указывается число факторов и крестиками отмечаются высокие нагрузки.

4. Проверено ли качество исходных данных? Ошибки в измерениях либо ошибки, допущенные при переписке данных, могут привести к искажению факторного решения или даже к появлению фактора, обусловленного только этими ошибками (см. 7.2.1). При практических исследованиях влияние такого типа ошибок часто недооценивается.

5. Какова надежность переменных? В качестве показателя надежности обычно используется квадрат коэффициента корреляции между оценками двух повторных групп измерений. Если надежность высокая, то относительная погрешность измерения (являющаяся дополнением до единицы по формуле (2.22) ) низкая, и наоборот. Квадрат коэффициента надежности по формуле (4.2) является верхней границей общности. Таким образом, оценивая надежность каждой переменной перед началом проведения факторного анализа, мы обеспечиваем правильный выбор общности.

6. Обрабатывались ли исходные данные методами одно- и двумерного статистического анализа? Эксперименты должны проводиться так, чтобы их результаты выявляли сущность данного явления. Факторный анализ не должен проводиться без статистического описания всех включенных в него переменных. Должна быть обязательно проведена оценка значимости коэффициентов корреляции.

Если распределение вычисленных коэффициентов корреляции является нормальным со средним значением, равным нулю, и стандартным отклонением, равным то по таким данным нельзя проводить факторный анализ.

7. Можно ли вместо факторного анализа применить другой метод многомерной статистики? Часто при соответствующих постановках задачи другие методы многомерного статистического анализа оказываются значительно эффективнее, чем факторный анализ. К этим методам относятся дисперсионный, ковариационный, дискриминантный анализ, множественный регрессионный анализ, использование частных коэффициентов корреляции. Поскольку факторный анализ по сравнению со всеми перечисленными является наиболее трудоемким, исследователь должен каждый раз четко представить себе задачу и серьезно обдумать, действительно ли для ее решения ему необходим математический аппарат факторного анализа.

8. Однороден ли материал? В гл. 8.5 на примерах было показано, что неоднородность может выявиться как отдельный фактор или в наиболее неблагоприятных случаях изменить факторную структуру. Если одна или несколько переменных замеряются у различных групп индивидуумов, то такие группы нужно анализировать отдельно либо включать в факторный анализ в качестве отдельного признака.

II. Вопросы, касающиеся технического осуществления факторного анализа.

9. Используется ли обычная техника факторного анализа? (Техника исходные данные являются количественными величинами, причем объем выборки должен быть больше числа переменных не менее чем в три раза; оценка общностей с помощью квадрата коэффициента множественной корреляции; выделение факторов методом главных факторов; определение числа факторов (см. 3.3.6); процедура вращения (см. гл. 5.3), обычно варимакс-вращение.) Если используется другая техника, то нужно проявлять осторожность при интерпретации результатов.

10. Какова доля дисперсии выделенных факторов в полной дисперсии наблюдаемых переменных? Какова доля дисперсии каждого фактора по сравнению с другими? Как велика относительная суммарная общность? (см. гл. 3.3.1 и 3.3.6)

11. Удовлетворяют ли факторы принципу простой структуры? Какие факторы являются значимыми по критерию Баргмана? Ответы на эти вопросы не всегда могут быть однозначными, но все равно их надо ставить. Факторы, не удовлетворяющие принципу простой структуры, не должны интерпретироваться за исключением частных случаев (такой пример приведен в гл. 7.2.2).

12. Как точно можно оценить отдельные значения факторов? В качестве критерия точности оценок значений факторов используется коэффициент множественной детерминации (см. (6.25)). Если коэффициент множественной корреляции окажется меньше критического значения на выбранных уровнях значимости, то следует отказаться от его содержательной интерпретации. (В табл. Б приложения приведены критические значения этого коэффициента на уровне значимости 1 и 5%).

13. Как точно воспроизводит полученное факторное решение матрицу исходных данных? По формуле (8.19) или (8.20), а еще лучше не-посредственно по значениям переменных вычислить коэффициент корреляции между действительными переменными и воспроизведенными через факторную модель. Плохое воспроизведение матрицы исходных данных свидетельствует о том, что выбранная модель неадекватно отражает действительные взаимосвязи между переменными.

14. Какое влияние на факторное решение оказывает исключение или добавление определенных переменных? В гл. 8.5 на примерах было показано, что добавление переменной может углубить наши знания о структуре данных. Такую процедуру можно моделировать на ЭВМ.

15. Как изменяются факторные нагрузки от добавления к матрице исходных данных матрицы, элементами которой являются случайные числа? Такое добавление иногда полезно рассматривать, так как можно проанализировать стабильность результатов и выявить границы применения метода. Но нужно учитывать, что эта процедура обладает ограниченными возможностями.

III. Вопросы, касающиеся интерпретации факторов.

16. Соответствует ли фактор связям между переменными, являющимися некоторыми комбинациями других переменных? Если, например, в анализ включены переменные, аддитивно составленные из других переменных, то можно получить фактор, отражающий эти связи. При интерпретации таких факторов нужно соответствующим образом учитывать эти связи переменных.

17. Выявляется ли фактор при повторных измерениях одной или нескольких переменных, включенных в анализ? На примере повторных измерений систолического и диастолического кровяного давления у группы студентов была продемонстрирована возможность выявления общих факторов (см. раздел 7.2.1).

18. Отражает ли фактор известную или тривиальную функциональную связь между переменными? Примером может служить выявление фактора, характеризующего вес и размер индивидуумов, если в анализ включены переменные, отражающие эти признаки. Такой фактор не представляет интереса для исследователя.

19. Не является ли фактор результатом неоднородности данных? При интерпретации должна учитываться возможность появления такого фактора. Неоднородность данных может привести не к появлению дополнительного фактора, а к искажению факторного отображения.

20. Идентифицируется ли фактор путем введения маркировочной переменной? В качестве маркировочной переменной выбирается такая переменная, которая в ранее выполненных аналогичных исследованиях высоко нагружала определенный фактор. Маркировочная переменная вводится для выявления фактора такого же типа в новых условиях эксперимента.

21. Выявлен ли важный фактор, отражающий сущность данного явления? Если исключается возможность такой интерпретации фактора, как указано в пунктах 16—19, и факторное отображение удовлетворяет критериям, приведенным в пунктах 10—15, то это означает, что выявлен важный фактор, отражающий сущность данного явления. Часто несколько предложений лучше описывают природу данного фактора, чем отдельный термин или название, которое обычно трудно подбирается. При подборе подходящего названия исследователь должен руководствоваться значениями факторных весов. Интерпретируя фактор, лучше всего пользоваться сослагательным наклонением, пока природа фактора не подтверждена последующими исследованиями.

IV. Вопросы проверки факторного решения путем проведения дополнительных исследований.

22. Воспроизводится ли фактор при повторной выборке из той же генеральной совокупности? Воспроизводимость является одним из условий интерпретации фактора. Проведение факторного анализа по результатам только одного исследования недостаточно для доказательства существования фактора. Правда, идентифицирование фактора путем проведения нескольких исследований тоже является недостаточным условием существования фактора. Для подтверждения объективного его существования полезно анализировать результаты экспериментов, выполненных в разных условиях, а именно: проводят два эксперимента с одними и теми же индивидуумами, но различными переменными либо с одними и теми же переменными, значения которых измеряются у различных индивидуумов. На практике обычно эксперименты бывают смешанного типа. Идентифицирование фактора на основе одинаковой или похожей интерпретации факторов не всегда правомерно. Необходима по крайней мере некоторая аналогия в нагрузках факторов, подлежащих идентифицированию (см. работы Амаваары ГЗ], Барлоу и Барта [14], Каттелла [35; 15], Каттелла и Баггалея [36; 2] Харли и Каттелла [149], Фишера и Ропперта [94], Мозье [209; 2] и Верделина [307].

23. Что известно об изменении фактора при различных условиях проведения эксперимента? Например, можно ожидать, что на биологические факторы оказывают влияние изменение в рационе питания, время года, время суток, возраст, пол. Колебание значений фактора в различных условиях эксперимента позволяет проверить гипотезу о наличии этого фактора в исследуемой области.

24. Можно ли воздействовать на изменение фактора в ходе эксперимента? Если условия эксперимента позволяют это осуществить, то исследователь еще больше приближается к окончательной интерпретации фактора. Однако с помощью только одного факторного анализа нельзя выявить причинную обусловленность фактора.

Будущее покажет, насколько приведенная система вопросов является всеобъемлющей. Основное затруднение при применении факторного анализа заключается в недостатке знаний о границах методов. Такие знания могут быть получены только путем накопления опыта.

Особенно это необходимо при решении частных проблем факторного анализа.

Уровень знаний исследователя оказывает влияние на качество результатов факторного анализа. Как показывает опыт, факторный анализ часто проводится без глубокого усвоения теории и без достаточного проникновения в сущность изучаемого явления, чему способствует наличие готовых программ на ЭВМ. Пока это происходит на стадии обучения и знакомства с библиотекой программ по факторному анализу, еще можно удовлетвориться хаотически собранным исходным материалом. В руках специалиста, накопившего большой практический опыт применения методов и одновременно знающего данную область исследования, факторный анализ превращается в очень чувствительное и мощное средство познания действительности. Отсутствие глубоких знаний характерных свойств отдельных методов факторного анализа приводит к неправильному их использованию и в итоге — к ошибочным методам, что не раз являлось источником разногласий между представителями различных школ.

Статистикам, занимающимся исследованием закономерностей в медицине, биологии, психологии и в других отраслях знаний, факторный анализ открывает новые возможности в постановках и решении задач. Факторный анализ позволяет определить структуру данной области исследования и представить наблюдаемые переменные в виде линейной комбинации факторов. В ходе дальнейших экспериментов такие гипотезы должны быть подтверждены и модифицированы. Факторный анализ нельзя рассматривать изолированно. Он является одним из методов многомерного статистического анализа. Применение факторного анализа немыслимо в настоящее время без использования ЭВМ, j что значительно расширило возможности статистической техники оценивания. Факторный анализ дает возможность совместно с другими методами многомерного статистического анализа создать комплексную модель исследуемого явления. Метод оказался особенно эффективным при большом наборе переменных.

<< Предыдущий параграф Следующий параграф >>
Оглавление