Главная > Математика > Факторный анализ (Окунь. Я.)
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

2. КОРРЕЛЯЦИЯ

Элементами исходной матрицы в факторном анализе являются коэффициенты корреляции. Вся процедура расчетов начинается с определения коэффициентов корреляции внутри изучаемой совокупности переменных. Не вдаваясь глубоко в теорию корреляции, составляющей часть математической статистики, мы осветим лишь те вопросы, которые имеют непосредственное отношение к факторному анализу и его расчетной реализации.

Поскольку корреляция рассчитывается применительно к переменным, необходимо прежде всего определить, что такое переменная.

Переменную можно просто определить следующим образом: это такая величина, которая в ходе данного процесса может изменяться, т. е. принимать различные значения. Например, если под переменной понимать тест, используемый для определенной группы лиц, то он представляет собой переменную в том смысле, что результаты этого теста у отдельных обследованных людей будут изменяться в определенных границах.

Как трактуется зависимость между двумя переменными с помощью корреляции? Прежде всего осуществляется серия наблюдений за двумя интересующими нас в данном случае переменными. Это могут быть, например, такие переменные, как рост отцов и сыновей. Затем попытаемся определить, существует ли какая-нибудь связь между ростом отцов и сыновей. Одной переменной будут различные значения (наблюдения) роста отцов, второй — роста сыновей. Для этого осуществляется максимально возможное количество таких наблюдений (в практике оно должно быть не менее 100), в ходе которых накапливаются пары наблюдений: рост отца и рост его сына. При изучении зависимости между двумя переменными необходимо всегда выбирать какие-либо пары наблюдений. Подбор этих пар определяется содержательной постановкой задачи анализа. В приведенном примере мы хотим определить, существует ли зависимость между ростом отцов и сыновей. Следовательно, нужно составить пары наблюдений, составленные из: а) наблюдения роста отца и б) наблюдения роста его сына. В случае, когда изучается связь между ростом и весом, осуществляются наблюдения над некоторым множеством объектов, причем каждая пара наблюдений относится к одному и тому же объект}.

Собрав соответствующее количество таких пар наблюдений, можно по определенному методу рассчитать коэффициент корреляции (коэффициент взаимосвязи), величина и алгебраический знак которого показывают, существует ли связь и если существует, то каковы ее степень и направление. Положительная связь, когда коэффициент корреляции имеет знак плюс, говорит о том, что обе переменные изменяются в одном направлении, т. е. чем выше отец, тем выше сын, чем ниже отец, тем, вообще говоря, ниже сын. Отрицательная связь, когда коэффициент корреляции имеет знак минус, говорит, что переменные изменяются в противоположном направлении. В нашем примере — чем выше отец, тем ниже сын, и наоборот: чем ниже отец, тем выше сын. Нулевое или близкое к нулю значение коэффициента корреляции означает, что обе переменные изменяются независимо друг от друга. Значения коэффициента корреляции находятся в границах от —1 до +1. Значение -1 соответствует случаю линейной положительной корреляции, —1 — линейной отрицательной связи. Оба эти случая редко встречаются в практике. Выше уже говорилось, что нулевой коэффициент корреляции означает полное отсутствие взаимосвязи. Значения коэффициента корреляции в границах от +1 до -1 соответствуют промежуточным степеням взаимосвязи переменных. В нашем примере линейная положительная связь существует тогда, когда во всех наблюдениях более высокий отец имеет более высокого сына, и наоборот, более низкий отец имеет менее высокого сына. Соответственно этому линейная отрицательная связь существует в том случае, когда во всей совокупности наблюдений более высокому отцу соответствует более низкий сын, и наоборот.

Решающее значение имеет еще одна проблема. Из показателей корреляции чаще всего пользуются коэффициентом корреляции смешанного момента Пирсона—Бравэ, обозначаемым буквой . Не вдаваясь в теорию корреляции и значение так называемой линии регрессии, можно приблизительно считать, что линейная зависимость существует тогда, когда точки, соответствующие на графике значениям переменных, размещаются вдоль прямой линии. Если мы имеем нелинейную связь, которая соответствует на графике какой-либо кривой, то нужно использовать специальный коэффициент криволинейной корреляции Пирсона. Этот коэффициент, обычно обозначаемый буквой 1], выражает степень действительной связи двух переменных, но тем не менее не используется в факторном анализе, который в силу основного предположения ограничивается линейными зависимостями. Это ограничение имеет первостепенное значение, и о нем нужно всегда помнить. К счастью, многие зависимости между биологическими, психологическими и социологическими переменными имеют почти линейный характер и благодаря этому применительно к ним можно использовать обычный коэффициент корреляции. Существуют различные показатели корреляции (коэффициент корреляции Пирсона—Бравэ, коэффициент ранговой корреляции, коэффициент зависимости Юла и т. д.) и различные модификации применяемых формул.

Выбор наиболее подходящего для факторного анализа метода зависит от разных обстоятельств, имеющих более или менее существенный характер. Помимо основных особенностей показателей корреляции имеют значение и такие факторы, как экономия на расчетах. Сточки зрения простоты расчетов весьма удобным является четырехпольный коэффициент корреляции . Однако при его использовании отсекается область изменения наблюдений в определенной произвольно взятой точке, и поэтому все, что находится выше, принимается за одну, а все, что находится ниже, — за другую категорию. В результате такой коэффициент не дает полной информации о зависимости между изучаемыми переменными.

В других случаях один показатель требует больших расчетов по сравнению с другим. Наиболее подходящим для факторного анализа представляется коэффициент корреляции Пирсона—Бравэ. Он используется для непрерывных переменных и больших выборок (N 50). Для упрощения расчетов часто рекомендуется определенная разновидность показателя Пирсона — формула для необработанных оценок. Она имеет следующий вид:

где X и Y — необработанные результаты наблюдений двух переменных, — число наблюдений.

Эта формула может иметь также следующий вид:

Приведенные формулы Пирсона не требует того, чтобы наблюдения выражались в терминах стандартного отклонения. Стандартные отклонения часто используются в статистике. Подробное изложение содержания этой категории не входит в нашу задачу, поэтому мы лишь напомним, что она явится одним из показателей разброса наблюдений вокруг их средней арифметической.

Представляется целесообразным использование в каждом исследовании какого-либо одного коэффициента корреляции.

Помимо уже отмеченного важного условия, что зависимость, выраженная коэффициентом корреляции, должна быть линейной, необходимо учитывать некоторые общие обстоятельства, влияющие на значимость коэффициента корреляции. Сюда относятся такие проблемы, как размер и репрезентативность исследуемой выборки по отношению к генеральной совокупности, однородность изучаемой группы с точки зрения каких-либо важных переменных, точность и аккуратность наблюдений и т. д. В случае психологических тестов точность наблюдений имеет особое значение.

Точность, называемая также надежностью, определяется разными методами. Необходимо различать точность как свойство данного инструмента наблюдений и различные способы ее определения. Укажем в этой связи на одну из точек зрения по данному вопросу, высказанную в «Технических рекомендациях для психологических тестов и диагностических методов», которыми руководствуется Американская психологическая ассоциация.

Точность как свойство данного инструмента наблюдений можно в широком смысле определить как степень, в которой этот инструмент всегда дает одинаковые наблюдения одной и той же величины. Если речь идет о тестах, то можно говорить о степени устойчивости результатов, полученных при нескольких реализациях одного и того же теста или при параллельных реализациях близких вариантов этого теста. Способы измерения точности разнообразны. Можно указать на следующие часто применяемые показатели:

1. Коэффициент корреляции между оценками, полученными в отстоящих друг от друга на определенный период времени двух последовательных обследованиях с помощью данного теста одной и той же группы людей. Этот показатель называется коэффициентом стабильности.

2. Коэффициент корреляции между оценками, полученными в двух обследованиях одной и той же группы, проведенных примерно в одно и то же время с помощью двух параллельных форм данного теста. Этот показатель называется коэффициентом эквивалентности.

3. Сначала рассчитываются корреляции между половинами данного теста, а затем используется формула Спирмэна — Брауна:

где — корреляция между целым тестом и его половиной, или коэффициент стабильности, — корреляция между половинами теста.

Этот способ упрощает сбор данных, так как можно получить информацию для расчета точности после одноразового применения данного теста. Некоторые трудности иногда возникают при определении эквивалентных половин теста. На практике применяются различные способы. Например, если тест состоит из большого числа элементов, то определяется корреляция между оценками всех четных и оценками всех нечетных элементов.

На этом мы заканчиваем общие рассуждения о корреляции и переходим к более детальному рассмотрению проблем, непосредственно связанных с теорией факторного анализа.

<< Предыдущий параграф Следующий параграф >>
Оглавление