8.5. ПРОБЛЕМА НЕОДНОРОДНОСТИ

Макеты страниц

8.5. ПРОБЛЕМА НЕОДНОРОДНОСТИ

Известно, что наличие в совокупности двух групп индивидуумов (например, мужчин и женщин), средние значения изучаемых признаков которых различаются между собой, может привести к ложной корреляции. Ложная корреляция возникает тогда, когда неоднородность проявляется по тем признакам, между которыми определяют связь. На проблему неоднородности указывал Коллер [176; 1, 2]. Корреляция может быть вызвана, например, различием между полами, хотя при рассмотрении групп, состоящих только из мужчин или из женщин, связь между исследуемыми признаками отсутствует. На рис. 8.4 схематично изображен этот случай. Неоднородность данных может, наоборот, затушевать корреляцию или изменить ее знак.

Рис. 8.4. Схематичный пример возникновения корреляции из-за неоднородности данных. Между изучаемыми признаками и у как для группы мужчин, так и для группы женщин не существует связи. Но так как у группы мужчин все значения признаков и у больше, чем у женщин, то коэффициент корреляции, вычисленный в целом по обеим группам, получается значительным по величине

Так как факторный анализ исходит из корреляций между переменными, то неоднородность данных оказывает влияние также на факторное решение. На это обращал внимание уже Тэрстоун [286; 5]. Далее на нескольких примерах, сконструированных как модели, показывается влияние неоднородности на факторную структуру. Для этого привлекается числовой пример, с которым мы уже ранее имели дело (табл. 7.5 и 7.6).

К матрице данных рассмотренного примера добавляется вторая матрица с данными, представляющими результат наблюдения над теми же самыми 10 переменными у 200 индивидуумов. Определяется корреляционная матрица по всем данным. При этом переменные и 2-й группы наблюдений приводятся к стандартной форме. Среднее значение стандартизованных переменных равно нулю, а стандартное отклонение — единице. Коэффициенты корреляции между этими переменными равны коэффициентам корреляции, указанным в табл. 7.6, т. е. факторная структура двух корреляционных матриц известна, и они идентичны. Если ко всем значениям переменных второй группы данных прибавить постоянную величину, то их средние значения станут равными этой постоянной величине. Коэффициенты корреляции между переменными для этой группы данных не изменятся.

Если принять эту постоянную величину а равной 3, то объединенная совокупность данных будет отличаться своей неоднородностью. Можно показать, что если первоначальный коэффициент корреляции между двумя переменными, принадлежащими двум группам данных, равен , то коэффициент корреляции, вычисленный по объединенной совокупности данных при указанных выше условиях, будет равен

где являются постоянными, на величину которых смещаются средние значения переменных х и у. Через X и У обозначены переменные объединенной совокупности данйых. Введем новую переменную, обозначив ее через Y. Причем она будет принимать значение, равное нулю, для индивидуума, принадлежащего к первой группе данных, и принимать значение, равное единице, для индивидуума, принадлежащего ко второй группе данных . Коэффициент корреляции между этой новой переменной Y и переменной X для объединенной совокупности данных равен:

С помощью этих двух формул были вычислены соответствующие коэффиценты корреляции по элементам корреляционной матрицы, приведенной в табл. 7.6, причем вводились различные условия, вызывающие неоднородность данных. Затем по полученным корреляционным матрицам был проведен факторный анализ, включающий в себя варимакс-вращение, и было проведено сравнение с результатом варимакс-решения в табл. 7.5.

Пример 1. Прибавляем ко всем значениям первой переменной во второй группе данных постоянную . Коэффициенты корреляции между ней и другими переменными изменяются по сравнению со значениями, приведенными в табл. 7.6. В табл. 8.1 представлены лишь те коэффициенты корреляции, величина которых изменилась по сравнению с указанными в табл. 7.6.

Пример 2. Включаем в матрицу данных 11-ю переменную, чтобы проследить влияние неоднородности данных на факторное решение. Маркировочная переменная принимает значение, равное нулю, для индивидуума, принадлежащего к первой группе данных, и значение, равное единице, для индивидуума, принадлежащего ко второй группе данных.

Таблица 8.1. Коэффициенты корреляции, изменившиеся по сравнению с приведенными в табл. 7.6 из-за неоднородности данных

Коэффициенты корреляции между этой переменной и остальными переменными, вычисленными по выборке, состоящей из 400 индивидуумов, также указаны в табл. 8.1. Результаты факторизации корреляционных матриц этих двух примеров с применением варимакс-вращения приведены в табл. 8.4, где они противопоставлены первоначальному факторному решению, полученному по однородным данным. Если причиной неоднородности является преобразование одной переменной, то факторное отображение изменяется лишь постольку, поскольку общность этой переменной уменьшается. Лишь во втором примере маркировочная переменная 11 вызывает появление третьего фактора, фактора неоднородности, и значительно его нагружает. В то время как отдельные коэффициенты корреляции при введении неоднородности уменьшились, факторное отображение изменилось незначительно. Неоднородность, обусловленная новой переменной, вызвала появление нового фактора.

Пример 3. К значениям первых трех переменных второй матрицы исходных данных прибавляем постоянную , т. е. усиливаем неоднородность данных.

Пример 4. Дополнительно к условиям примера 3 вводим маркировочную переменную 11.

Корреляционная матрица этих двух примеров приведена в нижнем углу табл. 8.2. При сравнении с табл. 7.6. бросается в глаза, что из-за неоднородности данных некоторые коэффициенты корреляции изменяются очень сильно (например, коэффициент корреляции между 2-й и 3-й переменными изменил свое значение — 0,546 на + 0,524!). Несмотря на это, факторное отображение изменилось мало, что видно из табл. 8.4, так как наряду с неоднородностью еще действуют первоначальные связи между переменными и факторами. Но нагрузки переменных 1—3 на первый фактор уменьшились. В обоих последних примерах возникает третий фактор, вызванный неоднородностью данных. Он имеет значительные нагрузки от переменных 1—3, а также 11.

Примеры 5 и 6. К значениям первых пяти переменных прибавляем постоянную величину . Эти переменные нагружают первый фактор. Следовательно, неоднородность присуща тем переменным, которые определяют первый фактор. Такая ситуация осложняет обнаружение влияния неоднородности на этот фактор. В примере 6 дополнительно вводится маркировочная переменная. Корреляционная матрица для этих двух примеров приведена в правом верхнем углу табл. 8.2.

Таблица 8.2. Корреляционные матрицы для примеров 3 и 4 (в нижнем левом углу) и для примеров 5 и 6 (в верхнем правом углу)

(см. скан)

Из табл. 8.4 видно, что в результате процедур факторного анализа -деляются три фактора. Третий фактор определяется переменными 1—5 и его появление вызвано введением неоднородности. По сравнению с исходным факторным отображением нагрузки второго фактора остаются практически без изменения, а у некоторых нагрузок первого фактора изменяются знаки. Нагрузки факторов I и III от переменных 1—5 положительны и носят противоположный характер. Содержательная интерпретация первого фактора в данном примере вызвала бы значительные затруднения. Маркировочная переменная в примере 6 показывает, что неоднородность данных сыграла определенную роль в изменении нагрузок первого фактора.

Примеры 7 и 8. К значениям 1-й и 3-й переменных прибавляется постоянная к значениям 2-й переменной — постоянная Корреляционная матрица приведена в левом нижнем углу табл. 8.3. Некоторые коэффициенты корреляции в этой матрице значительно изменились по сравнению с элементами исходной матрицы и матрицы примеров 3 и 4. В примере 7 неоднородность данных полностью обусловливает появление третьего фактора, который имеет высокие положительные нагрузки от 1-й и 3-й переменных и высокую отрицательную нагрузку от 2-й переменной. Следовательно, неоднородность здесь выступает как отдельный фактор — фактор неоднородности 1. Маркировочная переменная показывает, что неоднородность данных почти не повлияла на факторы I и II.

Примеры 9 и 10. К значениям 1, 3 и 5-й переменных прибавляется постоянная а к значениям 2-й и 4-й переменных — постоянная Корреляционная матрица приведена в верхнем правом углу табл. 8.3. В этом случае фактор неоднородности совпадает с первым фактором. Следствием этого является усиление связи первых пяти переменных с первым фактором, и его нагрузки от этих переменных увеличиваются по сравнению с исходными. Структура фактора и знаки его нагрузок не изменяются. Факторное решение примера 10 после применения процедуры варимакс-вращения совпадает в основном с факторным решением примера 9 и из-за отсутствия места в таблице не приводится 2.

Приведенные примеры, в которых моделировалась неоднородность, позволяют сделать следующие выводы:

1. Неоднородность данных может привести к появлению фактора, обусловленного только этой неоднородностью Если он совпадает с каким-либо фактором, то нагрузки этого фактора увеличиваются по сравнению с исходными.

Таблица 8.3. Корреляционные матрицы для примеров 7 и 8 (в нижнем левом углу) и для примеров 9 и 10 (в верхнем правом углу)

(см. скан)

Таблица 8.4. Варимакс-решения, полученные для различных примеров

(см. скан)

Введение маркировочной переменной помогает выявить влияние фактора неоднородности.

2. Неоднородность данных изменяет факторное отображение. При больших изменениях в корреляционной матрице в факторном отображении совершенно неожиданно могут произойти лишь незначительные изменения. Факторный анализ менее чувствителен к влиянию неоднородности, чем отдельные коэффициенты корреляции, потому что неоднородность может появиться в факторном решении как отдельный фактор и его можно исключить. Но в некоторых случаях фактор неоднородности может совпадать с каким-либо действующим фактором. Тогда отображение этого фактора изменится.

3. Факторы, которые выделяются по матрице коэффициентов корреляций между переменными с помощью техники R, могут являться следствием как корреляции между переменными, так и неоднородностей в материале исследования. Это следует помнить при интерпретации факторов. Итак, имеются два типа факторов: факторы, которые определяются действием связей между переменными, и факторы, причиной которых является неоднородность данных. Кроме того, имеются смешанные факторы. В наших примерах процедуры факторного анализа осуществлялись вслепую, но мы смогли выявить все типы факторов и определить влияние неоднородности в каждом случае.

Если бы анализировались связи между индивидуумами по выборке переменных (т. е. использовалась бы техника Q для определения независимых друг от друга группировок индивидуумов), то результаты были бы аналогичные, а именно получили бы факторы, характеризующие различные группировки, и фактор, вызванный неоднородностью данных. Такой результат не является неожиданным, так как матрица исходных данных для обеих техник одна и та же. В зависимости от постановки задачи неоднородность может рассматриваться как фактор, искажающий результаты исследования, который нужно исключать, либо, наоборот, как фактор, вводимый специально для того, чтобы проследить изменение факторного решения. В любом случае неоднородность в данных не является препятствием проведения факторного анализа. Неоднородность как раз может быть выявлена благодаря факторному анализу и исключена из решения, особенно если для признака неоднородности подобрать маркировочную переменную. В принципе оба типа факторов всегда присутствуют в экспериментальном материале.

<< Предыдущий параграф

Следующий параграф >>

Оглавление