ЕГЭ и ОГЭ
Хочу знать
Главная > Математика > Факторный анализ (Иберла К.)
<< Предыдущий параграф
Следующий параграф >>
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
<< Предыдущий параграф Следующий параграф >>
Научная библиотека

Научная библиотека

избранных естественно-научных изданий

Научная библиотека служит для получения быстрого и удобного доступа к информации естественно-научных изданий, получивших широкое распространение в России и за рубежом. На сайте впервые широкой публике представлены некоторые авторские издания написанные ведущими учеными страны.

Во избежании нарушения авторского права, материал библиотеки доступен по паролю ограниченному кругу студентов и преподавателей вузов. Исключение составляют авторские издания, на которые имеются разрешения публикации в открытой печати.

Математика

Физика

Методы обработки сигналов

Схемотехника

Астрономия

Разное

Научная библиотека

Научная библиотека

избранных естественно-научных изданий

Научная библиотека служит для получения быстрого и удобного доступа к информации естественно-научных изданий, получивших широкое распространение в России и за рубежом. На сайте впервые широкой публике представлены некоторые авторские издания написанные ведущими учеными страны.

Во избежании нарушения авторского права, материал библиотеки доступен по паролю ограниченному кругу студентов и преподавателей вузов. Исключение составляют авторские издания, на которые имеются разрешения публикации в открытой печати.

Математика

Физика

Методы обработки сигналов

Схемотехника

Астрономия

Разное

Макеты страниц

8.5. ПРОБЛЕМА НЕОДНОРОДНОСТИ

Известно, что наличие в совокупности двух групп индивидуумов (например, мужчин и женщин), средние значения изучаемых признаков которых различаются между собой, может привести к ложной корреляции. Ложная корреляция возникает тогда, когда неоднородность проявляется по тем признакам, между которыми определяют связь. На проблему неоднородности указывал Коллер [176; 1, 2]. Корреляция может быть вызвана, например, различием между полами, хотя при рассмотрении групп, состоящих только из мужчин или из женщин, связь между исследуемыми признаками отсутствует. На рис. 8.4 схематично изображен этот случай. Неоднородность данных может, наоборот, затушевать корреляцию или изменить ее знак.

Рис. 8.4. Схематичный пример возникновения корреляции из-за неоднородности данных. Между изучаемыми признаками и у как для группы мужчин, так и для группы женщин не существует связи. Но так как у группы мужчин все значения признаков и у больше, чем у женщин, то коэффициент корреляции, вычисленный в целом по обеим группам, получается значительным по величине

Так как факторный анализ исходит из корреляций между переменными, то неоднородность данных оказывает влияние также на факторное решение. На это обращал внимание уже Тэрстоун [286; 5]. Далее на нескольких примерах, сконструированных как модели, показывается влияние неоднородности на факторную структуру. Для этого привлекается числовой пример, с которым мы уже ранее имели дело (табл. 7.5 и 7.6).

К матрице данных рассмотренного примера добавляется вторая матрица с данными, представляющими результат наблюдения над теми же самыми 10 переменными у 200 индивидуумов. Определяется корреляционная матрица по всем данным. При этом переменные и 2-й группы наблюдений приводятся к стандартной форме. Среднее значение стандартизованных переменных равно нулю, а стандартное отклонение — единице. Коэффициенты корреляции между этими переменными равны коэффициентам корреляции, указанным в табл. 7.6, т. е. факторная структура двух корреляционных матриц известна, и они идентичны. Если ко всем значениям переменных второй группы данных прибавить постоянную величину, то их средние значения станут равными этой постоянной величине. Коэффициенты корреляции между переменными для этой группы данных не изменятся.

Если принять эту постоянную величину а равной 3, то объединенная совокупность данных будет отличаться своей неоднородностью. Можно показать, что если первоначальный коэффициент корреляции между двумя переменными, принадлежащими двум группам данных, равен , то коэффициент корреляции, вычисленный по объединенной совокупности данных при указанных выше условиях, будет равен

где являются постоянными, на величину которых смещаются средние значения переменных х и у. Через X и У обозначены переменные объединенной совокупности данйых. Введем новую переменную, обозначив ее через Y. Причем она будет принимать значение, равное нулю, для индивидуума, принадлежащего к первой группе данных, и принимать значение, равное единице, для индивидуума, принадлежащего ко второй группе данных . Коэффициент корреляции между этой новой переменной Y и переменной X для объединенной совокупности данных равен:

С помощью этих двух формул были вычислены соответствующие коэффиценты корреляции по элементам корреляционной матрицы, приведенной в табл. 7.6, причем вводились различные условия, вызывающие неоднородность данных. Затем по полученным корреляционным матрицам был проведен факторный анализ, включающий в себя варимакс-вращение, и было проведено сравнение с результатом варимакс-решения в табл. 7.5.

Пример 1. Прибавляем ко всем значениям первой переменной во второй группе данных постоянную . Коэффициенты корреляции между ней и другими переменными изменяются по сравнению со значениями, приведенными в табл. 7.6. В табл. 8.1 представлены лишь те коэффициенты корреляции, величина которых изменилась по сравнению с указанными в табл. 7.6.

Пример 2. Включаем в матрицу данных 11-ю переменную, чтобы проследить влияние неоднородности данных на факторное решение. Маркировочная переменная принимает значение, равное нулю, для индивидуума, принадлежащего к первой группе данных, и значение, равное единице, для индивидуума, принадлежащего ко второй группе данных.

Таблица 8.1. Коэффициенты корреляции, изменившиеся по сравнению с приведенными в табл. 7.6 из-за неоднородности данных

Коэффициенты корреляции между этой переменной и остальными переменными, вычисленными по выборке, состоящей из 400 индивидуумов, также указаны в табл. 8.1. Результаты факторизации корреляционных матриц этих двух примеров с применением варимакс-вращения приведены в табл. 8.4, где они противопоставлены первоначальному факторному решению, полученному по однородным данным. Если причиной неоднородности является преобразование одной переменной, то факторное отображение изменяется лишь постольку, поскольку общность этой переменной уменьшается. Лишь во втором примере маркировочная переменная 11 вызывает появление третьего фактора, фактора неоднородности, и значительно его нагружает. В то время как отдельные коэффициенты корреляции при введении неоднородности уменьшились, факторное отображение изменилось незначительно. Неоднородность, обусловленная новой переменной, вызвала появление нового фактора.

Пример 3. К значениям первых трех переменных второй матрицы исходных данных прибавляем постоянную , т. е. усиливаем неоднородность данных.

Пример 4. Дополнительно к условиям примера 3 вводим маркировочную переменную 11.

Корреляционная матрица этих двух примеров приведена в нижнем углу табл. 8.2. При сравнении с табл. 7.6. бросается в глаза, что из-за неоднородности данных некоторые коэффициенты корреляции изменяются очень сильно (например, коэффициент корреляции между 2-й и 3-й переменными изменил свое значение — 0,546 на + 0,524!). Несмотря на это, факторное отображение изменилось мало, что видно из табл. 8.4, так как наряду с неоднородностью еще действуют первоначальные связи между переменными и факторами. Но нагрузки переменных 1—3 на первый фактор уменьшились. В обоих последних примерах возникает третий фактор, вызванный неоднородностью данных. Он имеет значительные нагрузки от переменных 1—3, а также 11.

Примеры 5 и 6. К значениям первых пяти переменных прибавляем постоянную величину . Эти переменные нагружают первый фактор. Следовательно, неоднородность присуща тем переменным, которые определяют первый фактор. Такая ситуация осложняет обнаружение влияния неоднородности на этот фактор. В примере 6 дополнительно вводится маркировочная переменная. Корреляционная матрица для этих двух примеров приведена в правом верхнем углу табл. 8.2.

Таблица 8.2. Корреляционные матрицы для примеров 3 и 4 (в нижнем левом углу) и для примеров 5 и 6 (в верхнем правом углу)

(см. скан)

Из табл. 8.4 видно, что в результате процедур факторного анализа -деляются три фактора. Третий фактор определяется переменными 1—5 и его появление вызвано введением неоднородности. По сравнению с исходным факторным отображением нагрузки второго фактора остаются практически без изменения, а у некоторых нагрузок первого фактора изменяются знаки. Нагрузки факторов I и III от переменных 1—5 положительны и носят противоположный характер. Содержательная интерпретация первого фактора в данном примере вызвала бы значительные затруднения. Маркировочная переменная в примере 6 показывает, что неоднородность данных сыграла определенную роль в изменении нагрузок первого фактора.

Примеры 7 и 8. К значениям 1-й и 3-й переменных прибавляется постоянная к значениям 2-й переменной — постоянная Корреляционная матрица приведена в левом нижнем углу табл. 8.3. Некоторые коэффициенты корреляции в этой матрице значительно изменились по сравнению с элементами исходной матрицы и матрицы примеров 3 и 4. В примере 7 неоднородность данных полностью обусловливает появление третьего фактора, который имеет высокие положительные нагрузки от 1-й и 3-й переменных и высокую отрицательную нагрузку от 2-й переменной. Следовательно, неоднородность здесь выступает как отдельный фактор — фактор неоднородности 1. Маркировочная переменная показывает, что неоднородность данных почти не повлияла на факторы I и II.

Примеры 9 и 10. К значениям 1, 3 и 5-й переменных прибавляется постоянная а к значениям 2-й и 4-й переменных — постоянная Корреляционная матрица приведена в верхнем правом углу табл. 8.3. В этом случае фактор неоднородности совпадает с первым фактором. Следствием этого является усиление связи первых пяти переменных с первым фактором, и его нагрузки от этих переменных увеличиваются по сравнению с исходными. Структура фактора и знаки его нагрузок не изменяются. Факторное решение примера 10 после применения процедуры варимакс-вращения совпадает в основном с факторным решением примера 9 и из-за отсутствия места в таблице не приводится 2.

Приведенные примеры, в которых моделировалась неоднородность, позволяют сделать следующие выводы:

1. Неоднородность данных может привести к появлению фактора, обусловленного только этой неоднородностью Если он совпадает с каким-либо фактором, то нагрузки этого фактора увеличиваются по сравнению с исходными.

Таблица 8.3. Корреляционные матрицы для примеров 7 и 8 (в нижнем левом углу) и для примеров 9 и 10 (в верхнем правом углу)

(см. скан)

Таблица 8.4. Варимакс-решения, полученные для различных примеров

(см. скан)

Введение маркировочной переменной помогает выявить влияние фактора неоднородности.

2. Неоднородность данных изменяет факторное отображение. При больших изменениях в корреляционной матрице в факторном отображении совершенно неожиданно могут произойти лишь незначительные изменения. Факторный анализ менее чувствителен к влиянию неоднородности, чем отдельные коэффициенты корреляции, потому что неоднородность может появиться в факторном решении как отдельный фактор и его можно исключить. Но в некоторых случаях фактор неоднородности может совпадать с каким-либо действующим фактором. Тогда отображение этого фактора изменится.

3. Факторы, которые выделяются по матрице коэффициентов корреляций между переменными с помощью техники R, могут являться следствием как корреляции между переменными, так и неоднородностей в материале исследования. Это следует помнить при интерпретации факторов. Итак, имеются два типа факторов: факторы, которые определяются действием связей между переменными, и факторы, причиной которых является неоднородность данных. Кроме того, имеются смешанные факторы. В наших примерах процедуры факторного анализа осуществлялись вслепую, но мы смогли выявить все типы факторов и определить влияние неоднородности в каждом случае.

Если бы анализировались связи между индивидуумами по выборке переменных (т. е. использовалась бы техника Q для определения независимых друг от друга группировок индивидуумов), то результаты были бы аналогичные, а именно получили бы факторы, характеризующие различные группировки, и фактор, вызванный неоднородностью данных. Такой результат не является неожиданным, так как матрица исходных данных для обеих техник одна и та же. В зависимости от постановки задачи неоднородность может рассматриваться как фактор, искажающий результаты исследования, который нужно исключать, либо, наоборот, как фактор, вводимый специально для того, чтобы проследить изменение факторного решения. В любом случае неоднородность в данных не является препятствием проведения факторного анализа. Неоднородность как раз может быть выявлена благодаря факторному анализу и исключена из решения, особенно если для признака неоднородности подобрать маркировочную переменную. В принципе оба типа факторов всегда присутствуют в экспериментальном материале.

<< Предыдущий параграф Следующий параграф >>
Оглавление