ЕГЭ и ОГЭ
Хочу знать
Главная > Математика > Факторный анализ (Иберла К.)
<< Предыдущий параграф
Следующий параграф >>
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
<< Предыдущий параграф Следующий параграф >>
Научная библиотека

Научная библиотека

избранных естественно-научных изданий

Научная библиотека служит для получения быстрого и удобного доступа к информации естественно-научных изданий, получивших широкое распространение в России и за рубежом. На сайте впервые широкой публике представлены некоторые авторские издания написанные ведущими учеными страны.

Во избежании нарушения авторского права, материал библиотеки доступен по паролю ограниченному кругу студентов и преподавателей вузов. Исключение составляют авторские издания, на которые имеются разрешения публикации в открытой печати.

Математика

Физика

Методы обработки сигналов

Схемотехника

Астрономия

Разное

Научная библиотека

Научная библиотека

избранных естественно-научных изданий

Научная библиотека служит для получения быстрого и удобного доступа к информации естественно-научных изданий, получивших широкое распространение в России и за рубежом. На сайте впервые широкой публике представлены некоторые авторские издания написанные ведущими учеными страны.

Во избежании нарушения авторского права, материал библиотеки доступен по паролю ограниченному кругу студентов и преподавателей вузов. Исключение составляют авторские издания, на которые имеются разрешения публикации в открытой печати.

Математика

Физика

Методы обработки сигналов

Схемотехника

Астрономия

Разное

Макеты страниц

6.2. ОЦЕНКА ЗНАЧЕНИИ ФАКТОРОВ С ПОМОЩЬЮ МНОЖЕСТВЕННОГО РЕГРЕССИОННОГО АНАЛИЗА

Определение значений факторов по сравнению с вычислением значений главных компонент осложняется тремя обстоятельствами. Во-первых, в факторной модели наряду с общими учитываются характерные факторы, значения которых не могут быть определены пока остается неизвестной полная дисперсия переменной. Во-вторых, факторы почти всегда подвергают вращению, и, в-третьих, они большей частью не ортогональны. Особенно затрудняет решение поставленной задачи первое из перечисленных обстоятельств, так как матрица содержит больше факторов, чем переменных, она не квадратна и для нее не существует обратной матрицы. Точно определить значения факторов, как это было в случае измерения главных компонент, нельзя, но мы можем построить их оценки с помощью метода наименьших квадратов. С этой целью применяется множественный регрессионный анализ.

В этом месте необходимо напомнить о множественной регрессии, о которой уже шла речь в гл. 2.5. В гл. 1.3 были приведены формулы вычисления уравнений линейной регрессии для одной независимой переменной. В факторном анализе используют стандартизованные переменные, среднее значение которых равно нулю, а дисперсия равна единице. Это только упрощает соответствующие формулы множественного регрессионного анализа, так как исчезает свободный член в уравнении регрессии. Раздел, посвященный регрессионному анализу, имеется почти во всех учебниках по статистике. В качестве примера назовем из литературы на немецком языке книги Линдера [190; 2], Вебера [303], а также Хофстеттера и Вендта [132], а из литературы на английском языке — Хоула [130; 2], Уолкера, Лева [299] и Шпигеля [273]. В доступной форме излагается множественный регрессионный анализ для стандартизованных переменных у Баггалея [9]. Далее опускаются выводы формул этого широко известного метода многомерной статистики, обсуждается лишь общая идея и приводится техника вычисления для стандартизованных переменных.

На рис. 6.1 изображено поле корреляции, точки которого соответствуют отдельным индивидуумам, Координаты точек являются значениями стандартизованных переменных Задача регрессионного анализа состоит в проведении прямой через облако точек таким образом, чтобы с ее помощью можно было с наименьшей погрешностью по значениям оценивать значения Эта прямая

изображена на рис. 6.1.

Так как среднее значение обеих переменных равно нулюу то она проходит через начало координат. Оценки полученные по значениям величины лежат на прямой. Однако отдельные точки более или менее удалены от нее, что вызывается погрешностью оценки Величина одной такой погрешности для точки изображена на рисунке. Коэффициент b должен быть подобран так, чтобы эта погрешность была минимальна. Он является мерой наклона прямой. Общие формулы корреляционного и регрессионного исчислений для переменных х и у были представлены в табл. 1.1. Чтобы перейти к стандартизованным переменным, достаточно в этих формулах заменить на приравняв средние значения нулю, а дисперсии — единице. В табл. 6,2 приведены формулы линейной регрессии для двух стандартизованных переменных. Они соответствуют формулам табл. 1.1, в чем легко убедиться.

Рис. 6.1. Уравнение регрессии для стандартизованных переменных. Прямую проводят через облако точек так, чтобы сумма квадратов отрезков , - была минимальна

Когда для оценки переменной привлекают не менее двух независимых переменных, то говорят о множественном регрессионном анализе. Целью множественного регрессионного анализа является подбор таких весовых коэффициентов к нескольким независимым переменным, или, точнее сказать, исходным величинам, чтобы оценки значений зависимой переменной, или, лучше сказать, целевой функции, имели возможно меньшие ошибки. Включение в анализ нескольких переменных часто улучшает оценку искомой переменной. Линейная модель множественной регрессии для стандартизованных переменных была уже приведена в формуле (2.47).

Здесь являются искомыми коэффициентами регрессии. Через обозначена оценка значения целевой функции, а через — значения исходных величин.

В матричной форме это уравнение имеет вид:

где является вектор-строкой оценок значений переменной — вектор-строкой оценок коэффициентов регрессии, a Z — матрицей стандартизованных значений исходных величин.

Таблица. 6.2. Вычисление уравнения регрессии для стандартизованных переменных

Коэффициенты регрессии должны быть подобраны так, чтобы сумма квадратов ошибок оценок была минимальна.

Можно показать, что при этих условиях для стандартизованных переменных имеет силу следующее равенство:

где является вектор-столбцом оценок коэффициентов регрессии; v — вектор-столбцом коэффициентов корреляции между целевой функцией и всеми исходными величинами; R — матрицей коэффициентов корреляции между исходными величинами. Для большей ясности перейдем от матричной формы записи (6.14) к системе уравнений

где — коэффициенты корреляций между целевой функцией и всеми исходными величинами; коэффициенты корреляции между исходными величинами, или независимыми переменными. Искомые коэффициенты регрессии обозначены через Индекс указывает на то, что для различных «аборов целевых функций имеются соответствующие векторы-решения. Умножая обе части равенства (6.14) на получим

Итак, искомые коэффициенты регрессий получаются путем обращения матрицы коэффициентов корреляции между независимыми переменными и последующего ее умножения на вектор v. Второе равенство (6.15) является другой формой записи решения, которая нужна нам будет позднее. Формула (6.15) позволяет найти оценку коэффициентов регрессии в случае стандартизованных переменных.

На рис. 6.2 трехмерное пространство натянуто на переменные . Значения переменной должны определяться по значениям двух других переменных с наименьшей ошибкой. Найденное уравнение регрессии определяет плоскость, проходящую через нулевую точку. Все оценки лежат на ней. Эта плоскость должна занимать такое положение в облаке точек, чтобы в общем оценка ошибки для всех точек была как можно меньше. Чтобы не загромождать изображение, на рис. 6.2 представлена только одна точка

Рис. 6.2. Плоскость регрессии для стандартизованных переменных. Наилучшая оценка по находится на плоскости заштрихованной на графике. Расстояние точки до этой плоскости характеризует ошибку оценки Плоскость должна быть проведена так, чтобы сумма квадратов была минимальна

Отрезок прямой, проведенной через точку параллельно до пересечения с плоскостью регрессии, дает оценку ошибки для этой точки. Уравнения регрессии в геометрических терминах соответствуют -мерным плоскостям, где — число независимых переменных. Они должны располагаться в -мерном пространстве так, чтобы сумма квадратов оцененных ошибок была минимальной величиной.

После этого небольшого экскурса в область множественного регрессионного анализа для стандартизованных переменных мы можем возвратиться к нашей проблеме. По матрице стандартизованных исходных данных Z должны быть получены оценки значений факторов Р для отдельных индивидуумов. Матрица коэффициентов корреляции между наблюдаемыми (независимыми) переменными известна. Также известны коэффициенты корреляции между переменными и факторами, а именно элементы матрицы Должна быть найдена В—матрица коэффициентов регрессии, факторов по переменным, которая входит в равенство

Здесь Р означает матрицу оценок значений факторов размерностью ; В — матрицу коэффициентов регрессии размерностью , a Z — матрицу стандартизованных переменных размерностью . Итак, должны быть найдены коэффициенты регрессии стандартизованных факторов по стандартизованным переменным. Это соответствует задаче множественного регрессионного анализа, записанной в виде формулы (6.12). Но в (6.16) входят несколько зависимых величин, факторов, подлежащих оценке, а в формуле (6.12) речь идет только об одной переменной.

Поэтому для определения коэффициентов регрессии обратимся к равенству

получающемуся из формулы (6.15) путем замены в ней вектор-строк и на матрицы и В. Матрицу составляют, располагая друг над другом несколько вектор-строк v, элементами которых являются коэффициенты корреляции между Переменными и факторами, подлежащими оценке. В результате умножения на обратную матрицу получаем не единственный вектор-строку как в (6.15), а матрицу состоящую из нескольких вектор-строк . Каждая строка матрицы В содержит коэффициенты регрессии фактора по переменным. Матрица является обратной к матрице коэффициентов корреляции между наблюдаемыми переменными, которые во множественном регрессионном анализе называются независимыми величинами (а факторы — зависимыми величинами). Подставляя (6.17) в (6.16), получаем

Итак, наилучшие оценки значений факторов в смысле наименьшей суммы квадратов ошибок получаем исходя из первичной факторной структуры, корреляционной матрицы и стандартизованных переменных. Наиболее трудоемкой частью вычислений является обращение матрицы R. Много времени также приходится тратить на нормирование переменных в матрице Z. Из равенств (6.17) и (6.18) с помощью известных нам соотношений можно вывести другие формулы, которые применяются в том случае, когда матрица не известна. Они эквивалентны формуле (6.18) и приводятся нами далее.

Между первичной факторной структурой и первичным факторным отображением существует связь (5.20): — V/PC/. Подставляя это соотношение в (6.18), получаем

В большинстве случаев исходят не из первичного факторного отображения, а из вторичной факторной структуры, связь между которыми согласно (5.24) выражается таким образом: Умножив обе части этого равенства на и подставив затем выражение в (6.19), получим следующую формулу:

По формуле (5.26) имеем Подставив это выражение в (6.20), придем к формуле (6.21), которая содержит матрицу вторичной факторной структуры

Эта формула кажется более сложной, но работать с ней намного проще, чем с приведенными выше, хотя она также предполагает вычисление

Матрица а также матрица коэффициентов корреляций между вторичными осями получается после вращения при достижении простой структуры. Обращение матрицы размерностью также часто необходимо для определения D и факторного отображения . Таким образом, мы получаем оценки значений факторов путем простого перемножения ряда матриц. Для полноты укажем еще одну формулу, которая служит для определения оценок значений факторов, если известны По (5.17) имеем . Подставляя это выражение в (6.21), получаем

Формулы (6.18)-(6.22) дают один и тот же результат, и какой из них пользоваться в конкретном случае — зависит от того, какими матрицами располагает исследователь. При использовании любой из этих формул необходимо вычислять матрицу, обратную к R. Все способы приводят к определению матрицы В, элементами которой являются коэффициенты регрессии факторов по переменным. Различие их обусловлено тем, какими из четырех косоугольных факторных решений V пользуются. Выбор формулы зависит от величин, полученных в ходе анализа. Для ортогональной матрицы А не существует различия между факторным отображением и структурой, а вторичные оси совпадают с первичными факторами. В случае такого факторного решения пользуются формулой (6.18) или идентичной ей формулой (6.19), в которой Значения , полученные таким образом, в отличие от (6.7) не являются точными, а являются лишь оценками значений факторов. Если имеется варимакс-решение, а факторы были выделены с помощью метода главных факторов, то пользуются формулой (6.18). При косоугольном вращении в большинстве случаев располагают матрицами Тогда следует применить формулу (6.21). Итак, выбор формулы осуществляется в зависимости от того, исходят ли из или из Список формул можно было бы продолжить, учитывая все возможные комбинации матриц V. Но мы отказываемся здесь от этого.

Нахождение оценок значений факторов очень трудоемкая работа. Это вызвано прежде всего вычислением обратной матрицы. При 40— 100 переменных выполнить такую операцию несколько лет назад было практически невозможно. Сейчас операция обращения больших матриц выполняется на ЭВМ за несколько минут. В гл. 6.4 рассматриваются еще некоторые приближенные способы оценок, которые ускоряют процесс вычисления.

Как указывалось, общим для приведенных формул, является то, что в любом случае определяются коэффициенты регрессии факторов по переменным. Эти коэффициенты регрессии являются элементами матрицы В, которая интересна тем, что по ней можно считывать вклады переменных в факторы. К этому мы еще вернемся, а сейчас рассмотрим конкретный пример.

Пусть имеется ортогональное факторное отображение. В этом случае для определения коэффициентов регрессии можно использовать формулу (6.17),

Хотя речь идет об ортогональном факторном отображении, мы будем употреблять обозначение приведенное в формуле, подчеркивая тем самым, что можно было бы исходить из косоугольной первичной факторной структуры. Вначале выполним операцию обращения корреляционной матрицы, а затем, перемножая матрицы по формуле (6.17), находим коэффициенты регрессии.

Элементами каждой строки в матрице являются коэффициенты корреляции между переменными и фактором, элементами соответствующих строк в матрице В являются коэффициенты регрессии этого фактора по всем переменным. Если хотят оценить только один фактор, то в и В используют лишь одну строку. С помощью коэффициентов регрессии затем вычисляют по (6.16) оценки значений фактора. Выпишем соответствующую систему уравнений:

Индекс пробегает по всем ( — число обследуемых индивидуумов) Подставив в правую часть соответствующего уравнения величины индивидуума, получаем оценку значения фактора I для этого индивидуума.

Результаты вычислений по формулам (6.16) и (6.17) сведены в табл. 6.3. Расчет выполнялся для тех же исходных данных, что и в примере с определением значений главных компонент в табл. 6.1. В рамку заключены числа, по которым производятся вычисления. В строках 1 и 2 таблицы записана матрица . Она заимствована из табл. 2.2. В строках 3—8 записаны элементы матрицы Строку 9 получаем, умножая вектор, записанный в строке 1, на каждый вектор-столбец матрицы Аналогично получается строка 10, а именно, умножая вектор, записанный в строке 2, на вектор-столбцы матрицы выполняя таким образом операцию в (6.17). В строки 11—16 перенесены элементы матрицы Z из табл. 2.2. Перемножая вектор, записанный в строке 9, со всеми вектор-столбцами матрицы Z, получаем строку 17. Аналогично вычисляются элементы строки 18 по строке 10 и вектор-столбцам матрицы Z (формула (6.16)). Для сравнения в строки 19 и 20 из табл. 2.2 перенесены действительные значения факторов. Полученные оценки хорошо согласуются с действительными значениями.

Таблица 6.3. Оценка значений факторов

<< Предыдущий параграф Следующий параграф >>
Оглавление