Главная > Математика > Факторный анализ (Окунь. Я.)
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

5. ОПРЕДЕЛЕНИЕ НАГРУЗОК СЛЕДУЮЩИХ ФАКТОРОВ

До настоящего момента из совокупности корреляции был выделен один «центроидный» фактор, общий для всех шести переменных. Мы уже знаем, что с геометрической точки зрения число факторов равно числу осей, необходимых для представления структуры совокупности корреляций. На данном этапе анализа определена одна ось. Каковы же алгебраические и расчетные операции, связанные с процедурой выделения следующих факторов?

Определяя нагрузки первого центроидного фактора, мы выделили из совокупности коэффициентов корреляции некоторую часть общей дисперсии, которая может быть приписана влиянию первого фактора. Поэтому первым шагом должен быть расчет новых коэффициентов корреляции, выражающих ту часть остающейся общей дисперсии, которая может быть отнесена на счет других факторов. Расчет этих «остатков», так обычно они называются для краткости, опирается на приводившуюся выше теорему о том, что корреляция двух переменных, вызванная каким-либо общим для них фактором, равна произведению нагрузок этого фактора для обеих переменных, т. е. произведения их корреляций с этим фактором.

Поэтому корреляция между обусловленная первым фактором, равна произведению его нагрузок по этим переменным, т. е.

Однако экспериментально рассчитанная корреляция равна 0,299. Для определения остатка нужно от первоначальной величины вычесть рассчитанную выше, т. е.

В нашем примере абсолютная величина вычитаемого больше, чем уменьшаемого. Следовательно, получается отрицательная корреляция —0,067, которая должна быть объяснена с помощью следующего фактора или факторов. Отрицательный знак перед «остатком» корреляции означает просто, что нагрузки второго фактора у переменных имеют противоположные знаки. Такие отрицательные остатки встречаются на практике весьма часто: примерно 50% остатков в матрице имеют отрицательный знак.

Вычитание произведения нагрузок из первоначальных значений осуществляется для каждой пары переменных. В результате получим:

Аналогично рассчитываются остатки во всех других столбцах с учетом алгебраических знаков. Для больших корреляционных матриц можно использовать удобный прием для построения таблицы

Произведений нагрузок первого фактора. Вверху и в левой части такой таблицы записываются факторные нагрузки всех переменных, а их произведения заносятся на пересечении строк и столбцов матрицы. В нашем случае матрица произведений будет иметь вид табл. 4.2.

Таблица 4.2. Матрица произведений факторных нагрузок, используемая для расчета остатков корреляций

Полученные произведения вычитаются из исходных коэффициентов корреляции.

Рассчитанные остатки записываются в новую матрицу, которая называется матрицей первых остатков корреляций. В нашем примере эта матрица имеет вид табл. 4.3.

Таблица 4.3. Матрица первых остатков корреляций шести переменных

Теперь нужно приступить к расчету нагрузок второго фактора - суммируя элементы столбцов для определения средней корреляции каждой переменной со всеми другими переменными. Оказывается, однако, что так поступать нельзя, поскольку сумма всех столбцов практически равна нулю в результате того, что положительные и отрицательные уравновешиваются. Чтобы выяснить причины этого, нужно обратиться к графической интерпретации проблемы. При этом следует учесть два обстоятельства. Во-первых, определяя нагрузки первого фактора, мы провели первую центроидную ось через центр тяжести (центроид) группы точек, являющихся концами векторов (рис. 4.1). Не предрешая вопрос о размерности задачи, можно сказать, что в окрестности этого центра тяжести векторы (или соответствующие им дисперсии) дают в сумме ноль.

Во-вторых, при расчете матрицы остаточных корреляций из исходных величин вычитается та часть их дисперсии, которая связана с фактором На языке геометрии это означает, что ось данного фактора устраняется из графика. Другими словами, начало координат (О) перемещается вдоль первой центроидной оси к точке

С учетом этого вторая центроидная ось перпендикулярная к первой оси, также должна проходить через точку которая теперь к тому же является началом координат. Если соединить пунктирными линиями концы векторов с новым началом координат (рис. 4.2), то получим менее длинные векторы, так как из расчета устранена дисперсия, связанная с фактором Новая конфигурация этих векторов, однако, по-прежнему размещается вокруг первого центроида (являющегося сейчас одновременно и началом координат) так, что дисперсии, соответствующие векторам, взаимно погашаются.

Рассчитывая матрицу первых остатков (табл. 4.3), мы пришли к такому же результату путем вычислений. Суммы элементов столбцов этой матрицы иллюстрируют ту же ситуацию, которая была представлена на рис. 4.2.

Эти суммы являются в то же самое время критерием правильности выполненных расчетов. Если эти расчеты были верны, ни одна сумма не может превышать 0,010.

Чтобы рассчитать нагрузки второго фактора, нужно каким-то способом получить положительные суммы элементов столбцов. Как это сделать?

Оказывается, что этого можно достичь с помощью процедуры обращения алгебраических знаков в матрице остатков. Что это значит?

Обратимся снова к графической иллюстрации задачи. Прежде всего необходимо подчеркнуть, что обращение алгебраических знаков всех коэффициентов корреляции данной переменной в соответствующих строке и столбце матрицы изменяет направление ее вектора на противоположное, не влияя на его длину. Изменение знаков не изменяет абсолютные значения коэффициентов корреляции, в результате чего конфигурация векторов сохраняет свой основной смысл, так как изменяется лишь направление изменений переменных.

Напомним, что на данном этапе анализа уменьшенные векторы располагаются вокруг центроида (рис. 4.2), совпадающего с началом координат. Для определения нагрузок второго фактора или нового центроида, который на сей раз будет лежать на оси нужно изменить знак некоторых переменных так, чтобы все точки, соответствующие окончаниям векторов, находились по одну сторону первого центроида. Результаты этой операции представлены на рис. 4.3, где новые векторы изображены пунктирными линиями. Теперь новый центроид лежит на оси . В результате получаем положительные суммы столбцов матрицы остаточной корреляции и можем определить нагрузки второго фактора. Здесь необходимо обратить внимание на интересное явление, заключающееся в том, что разброс точек вокруг второго центроида намного меньше, чем вокруг первого, так как из исходных корреляций устранена та часть, которая вызывалась первым фактором.

Забегая немного вперед, можно отметить, что разброс точек вокруг каждого нового «центра тяжести» будет уменьшаться по мере того, как последовательное выделение факторов уменьшает общность, содержащуюся в исходных корреляциях. Этот процесс схематично представлен на наших графиках.

Процедура обращения алгебраических знаков весьма трудоемка и требует большого внимания. Обращение знаков в столбце переменной требует обращения знаков в соответствующей строке. Существуют различные способы выполнения этой операции. Мы опишем один из них, часто применяемый на практике.

1. Начнем с расчета алгебраических сумм элементов по столбцам, опуская элементы главной диагонали. Результаты записываем в строку, следующую за строкой 20. Обозначим ее Складываем суммы столбцов и результат записываем в последней клетке указанной строки (табл. 4.4). В нашем примере он составит —0,618.

2. Берем столбец с наибольшей отрицательной суммой (это будет столбец ). Переписываем эту сумму в следующей строке с положительным знаком. Эту строку обозначаем номером столбца, элементы которого меняют знак на противоположный. Одновременно отмечаем звездочкой номера столбца и строки, элементы которых меняют знаки на противоположный.

3. Все элементы новой строки, за исключением того, который уже определен как наибольшая отрицательная сумма по столбцу с обратным знаком отыскиваются следующим образом: к сумме соответствующего столбца добавляется с противоположным знаком удвоенное значение элемента того же столбца, стоящего на пересечении с «обращаемой» строкой. Окончательный результат записывается в строке, обозначенной «Столбец 5». Например, значение первого элемента в строке, обозначенной «Столбец 5», получаем,

Рис. 4.2

Рис. 4.3

Таблица 4.4. Обращение знаков в матрице первых остатков корреляций шести переменных и расчет нагрузок второго фактора

удваивая величину, стоящую на пересечении строки 5 и столбца изменяя ее знак и складывая с итогом столбца 1, т. е.: .

4. Рассчитав указанным способом все элементы новой строки, определяем их сумму и записываем ее в последней клетке строки. Это дает нам важный критерий: сумма новой строки должна быть равна сумме предшествующей строки плюс четырехкратная сумма столбца, элементы которого изменили знак на противоположный. Для строки «Столбец 5» критерий будет следующим:

5. Теперь отыскивается следующий столбец с наибольшей отрицательной суммой. В нашем примере это будет столбец 4. Повторяем процедуру, описанную в пунктах 1—4, используя при этом изменившиеся итоги столбцов, записанные в предшествующей строке. В столбцах, элементы которых уже поменяли знаки (т. е. в тех, которые отмечены звездочкой), перед добавлением удвоенной величины они не меняются (пункт 3). Если процедура обращения знаков требует изменения знаков элементов какого-либо столбца и соответствующей строки более чем один раз, то в этом случае при первом и всех дальнейших нечетных изменениях знаков знак удвоенного значения должен меняться (пункт 3). При втором и всех четных изменениях знаков знак удвоенного значения не изменяется. Чтобы легче ориентироваться в номерах столбцов, элементы которых меняют знаки, нужно подчеркивать последовательные суммы столбцов, элементы которых меняют знаки на противоположный.

6. Процесс изменения знаков повторяется до тех пор, пока все суммы не будут положительными (или нулевыми). В нашем примере для получения положительных сумм потребовалось изменить знаки элементов столбцов 5, 4, 3 и 2. Критериями правильности вычислений, о которых шла речь в пункте 4, являются для последующих строк такие суммы:

7. Меняем алгебраические знаки в матрице остатков. Делается это следующим образом:

а) меняются на противоположные знаки всех коэффициентов в обращенных строках за исключением тех элементов, которые лежат на пересечении с обращаемыми столбцами;

б) изменяются знаки всех коэффициентов в обращаемых столбцах за исключением тех элементов, которые находятся на пересечении с обращаемыми строками.

В нашей матрице новые знаки указаны над первоначальными, заключенными в скобки. Чтобы приступить к определению нагрузок второго центроидного фактора, необходимо учесть общности, записанные на главной диагонали матрицы остатков (табл. 4.4). Эти величины, заключенные в скобки (табл. 4.3 и 4.4), были рассчитаны так же, как и все другие остаточные корреляции. Теперь их нужно заменить коэффициентами с максимальной для данного столбца абсолютной величиной, приписывая им положительный знак. Новые значения записаны жирным шрифтом над величинами в скобках. Такой метод оценки общности использовался уже при определении нагрузок первого фактора.

После этого новые значения общности добавляются к итогам столбцов, полученных по окончании процесса изменения знаков и записанных в строке, обозначенной номером последнего обращаемого столбца (столбец 3, табл. 4.4).

Результаты сложения записаны в строке . Следующие действия аналогичны описанным при расчете первого фактора. Складываются суммы столбцов. Результат, обозначаемый буквой Т, записывается справа от таблицы. В нашем случае он составляет 2,458. Затем определяется величина

2. Итоги столбцов делятся на для определения факторных нагрузок. Этой операции соответствует формула

где — нагрузка второго фактора у переменной а;

— итог столбца переменной

Т — общая сумма всех коэффициентов матрицы (сумма итогов по столбцам).

Рассчитанные нагрузки второго фактора записываются в строку (табл. 4.4).

3. Вычисляется критерий который должен быть

равен Вторым критерием является сумма факторных нагрузок которая должна быть приблизительно равна Критерии записываются справа под таблицей.

Остается еще определить алгебраические знаки нагрузок второго фактора. Эти знаки зависят от описанной процедуры. Здесь нужно соблюдать следующие правила:

а) переменная, которая обращалась нечетное число раз, будет в данной матрице остатков корреляции иметь знак, противоположный ее знаку при предыдущем факторе;

б) знак переменной, которая не обращалась или обращалась четное число раз, будет таким же, что и знак при предыдущем факторе. Таким образом, в случае четырех центроидных факторов переменная, знак которой менялся один раз в первой и один раз во второй матрице остатков, будет иметь такую систему знаков:

В нашем примере все нагрузки первого фактора были положительными, так как итоги всех столбцов в исходной корреляционной матрице были положительными и без процедуры изменения знаков. (Если в первой корреляционной матрице получаются отрицательные итоги столбцов, нужно использовать процедуру изменения знаков уже при определении первого фактора. В этом случае действует правило, в соответствии с которым нагрузки переменных, знаки которых были изменены, будут отрицательными, а нагрузки других переменных — положительными.) С учетом приведенных правил знаки нагрузок фактора в столбцах 1 и 6 будут положительными, так как знаки этих переменных не изменялись, а знаки нагрузок в столбцах 2, 3, 4 и 5 будут отрицательными, так как их знаки изменились.

Определением алгебраических знаков всех нагрузок второго фактора заканчивается процедура его выделения. Затем вычисляются корреляции, остающиеся после выделения второго фактора. Процедура здесь аналогичная, однако нужно обращать внимание на алгебраические знаки. Элементы первой матрицы остаточных корреляций сохраняют те знаки, которые они получили по окончании процедуры изменения знаков (табл. 4.4). При вычислении произведений факторных нагрузок знаки всех факторных нагрузок принимаются положительными, что дает положительные произведения. Эти положительные произведения вычитаются из остатков корреляции, получившихся после выделения первого фактора. Вычисленные величины записываются в новую «матрицу вторых остатков корреляций» (табл. 4.5), после чего можно приступить к расчету нагрузок третьего фактора. Эта процедура, так же как и расчет всех следующих факторов, осуществляется аналогично вышеизложенной: весь цикл охватывает изменение алгебраических знаков, определение общности, суммирование элементов столбцов и расчет факторных нагрузок.

Операции такого цикла показаны в табл. 4.5. Нагрузки третьего фактора записаны в ней в строке Знаки нагрузок определены в соответствии с вышеуказанными правилами. Вычисленные нагрузки выписаны в факторной матрице (табл. 4.6).

Остаточные корреляции после расчета нагрузок третьего фактора приведены в табл. 4.7.

Как видим, остатки в строке 20 этой таблицы снова близки к нулю.

Мы уже знаем, что это свидетельствует о правильности расчетов. В соответствии с правилом сумма элементов любого столбца не может превышать 0,010, если проведенные расчеты были достаточно точными. В нашем примере итоги всех столбцов удовлетворяют этому условию.

Теперь можно сформулировать важный вопрос: когда следует прекратить выделение очередных факторов, т. е. когда можно быть уверенным, что полученное число осей достаточно полно объясняет коэффициенты корреляционной матрицы?

В некоторых случаях для ответа на этот вопрос достаточно одного взгляда на матрицу остатков. Если все ее элементы очень малы, практически равны нулю, то сразу можно увидеть, что весь запас корреляции исчерпан. Однако часто ситуация более сложна и трудно решить, вызваны ли рассчитанные остатки какими-то другими, пусть незначительными, но реальными факторами или же они объясняются просто ошибками наблюдений и округлением в процессе расчетов. Существуют различные методы, с помощью которых можно определить, насколько исчерпан факторный запас корреляционной матрицы. Изложение всех этих методов и их математических основ выходит за рамки книги. Поэтому мы ограничимся изложением последовательных операций по одному из таких методов, известному под названием критерия Саундерса.

Таблица 4.5. Изменение знаков в матрице вторых остатков корреляции шести переменных и вычисление нагрузок третьего фактора

Таблица 4.6. Матрица центроидных факторов

Таблица 4.7. Матрица третьих остатков корреляций шести переменных

1. Возводим в квадрат и складываем остатки, полученные после выделения фактора, опуская элементы главной диагонали. Полученную величину умножаем на для приведения ее в соответствие с полной матрицей ( — число переменных). Вычисленную величину обозначим А.

2. Делим разницу между числом переменных и числом уже выделенных факторов на число переменных и результат возводим в квадрат. Обозначим его В.

3. Возводим в квадрат все факторные нагрузки, включая нагрузки фактора, и суммируем их (число факторных нагрузок равно ). Результат вычитаем из , и полученную величину снова возводим в квадрат. Результат делим на N, т. е. на число единиц наблюдения в исходной совокупности. Результат обозначаем С.

4. Если окажется, что А меньше произведения выделение факторов прекращается. Если , выделяется следующий фактор, после чего описанная процедура проверки повторяется.

Не предрешая вопроса о том, выделено ли в нашем примере достаточное число факторов, предоставляем читателю в качестве упражнения возможность использования этого метода для последней матрицы остатков (табл. 4.7). Представляет также интерес проблема минимального числа переменных (), необходимого для однозначного определения. m факторов.

Ответ на этот вопрос дает формула Тэрстоуна

В приведенной ниже таблице даны значения , соответствующие различным :

В нашем примере с шестью переменными можно определить не более трех факторов. Преобразуя приведенную формулу для получения определяем наибольшее число факторов, которые могут быть однозначно определены в случае переменных:

На практике целесообразно оперировать числом переменных, превышающим минимально необходимое для определения данного числа факторов.

<< Предыдущий параграф Следующий параграф >>
Оглавление