<< Предыдущий параграф

Следующий параграф >>

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

200

201

202

203

204

205

206

207

208

209

210

211

212

213

214

215

216

217

218

219

220

221

222

223

224

225

226

227

228

229

230

231

232

233

234

235

236

237

238

239

240

241

242

243

244

245

246

247

248

249

250

251

252

253

254

255

256

257

258

259

260

261

262

263

264

265

266

267

268

269

270

271

272

273

274

275

276

277

278

279

280

281

282

283

284

285

286

287

288

289

290

291

292

293

294

295

296

297

298

299

300

301

302

303

304

305

306

307

308

309

310

311

312

313

314

315

316

317

318

319

320

321

322

323

324

325

326

327

328

329

330

331

332

333

334

335

336

337

338

339

340

341

342

343

344

345

346

347

348

349

350

351

352

353

354

355

356

357

358

359

360

361

362

363

364

365

366

367

368

369

370

371

372

373

374

375

376

377

378

379

380

381

382

383

<< Предыдущий параграф

Следующий параграф >>

Научная библиотека

Математический справочник

ЕГЭ и ОГЭ

Forex4you

Живые анекдоты

Научная библиотека

избранных естественно-научных изданий

Научная библиотека служит для получения быстрого и удобного доступа к информации естественно-научных изданий, получивших широкое распространение в России и за рубежом. На сайте впервые широкой публике представлены некоторые авторские издания написанные ведущими учеными страны.

Во избежании нарушения авторского права, материал библиотеки доступен по паролю ограниченному кругу студентов и преподавателей вузов. Исключение составляют авторские издания, на которые имеются разрешения публикации в открытой печати.

Математика

Физика

Методы обработки сигналов

Схемотехника

Астрономия

Разное

Научная библиотека

Математический справочник

ЕГЭ и ОГЭ

Forex4you

Живые анекдоты

Научная библиотека

избранных естественно-научных изданий

Математика

Физика

Методы обработки сигналов

Схемотехника

Астрономия

Разное

Макеты страниц

6.2. ОЦЕНКА ЗНАЧЕНИИ ФАКТОРОВ С ПОМОЩЬЮ МНОЖЕСТВЕННОГО РЕГРЕССИОННОГО АНАЛИЗА

Определение значений факторов по сравнению с вычислением значений главных компонент осложняется тремя обстоятельствами. Во-первых, в факторной модели наряду с общими учитываются характерные факторы, значения которых не могут быть определены пока остается неизвестной полная дисперсия переменной. Во-вторых, факторы почти всегда подвергают вращению, и, в-третьих, они большей частью не ортогональны. Особенно затрудняет решение поставленной задачи первое из перечисленных обстоятельств, так как матрица содержит больше факторов, чем переменных, она не квадратна и для нее не существует обратной матрицы. Точно определить значения факторов, как это было в случае измерения главных компонент, нельзя, но мы можем построить их оценки с помощью метода наименьших квадратов. С этой целью применяется множественный регрессионный анализ.

В этом месте необходимо напомнить о множественной регрессии, о которой уже шла речь в гл. 2.5. В гл. 1.3 были приведены формулы вычисления уравнений линейной регрессии для одной независимой переменной. В факторном анализе используют стандартизованные переменные, среднее значение которых равно нулю, а дисперсия равна единице. Это только упрощает соответствующие формулы множественного регрессионного анализа, так как исчезает свободный член в уравнении регрессии. Раздел, посвященный регрессионному анализу, имеется почти во всех учебниках по статистике. В качестве примера назовем из литературы на немецком языке книги Линдера [190; 2], Вебера [303], а также Хофстеттера и Вендта [132], а из литературы на английском языке — Хоула [130; 2], Уолкера, Лева [299] и Шпигеля [273]. В доступной форме излагается множественный регрессионный анализ для стандартизованных переменных у Баггалея [9]. Далее опускаются выводы формул этого широко известного метода многомерной статистики, обсуждается лишь общая идея и приводится техника вычисления для стандартизованных переменных.

На рис. 6.1 изображено поле корреляции, точки которого соответствуют отдельным индивидуумам, Координаты точек являются значениями стандартизованных переменных Задача регрессионного анализа состоит в проведении прямой через облако точек таким образом, чтобы с ее помощью можно было с наименьшей погрешностью по значениям оценивать значения Эта прямая

изображена на рис. 6.1.

Так как среднее значение обеих переменных равно нулюу то она проходит через начало координат. Оценки полученные по значениям величины лежат на прямой. Однако отдельные точки более или менее удалены от нее, что вызывается погрешностью оценки Величина одной такой погрешности для точки изображена на рисунке. Коэффициент b должен быть подобран так, чтобы эта погрешность была минимальна. Он является мерой наклона прямой. Общие формулы корреляционного и регрессионного исчислений для переменных х и у были представлены в табл. 1.1. Чтобы перейти к стандартизованным переменным, достаточно в этих формулах заменить на приравняв средние значения нулю, а дисперсии — единице. В табл. 6,2 приведены формулы линейной регрессии для двух стандартизованных переменных. Они соответствуют формулам табл. 1.1, в чем легко убедиться.

Рис. 6.1. Уравнение регрессии для стандартизованных переменных. Прямую проводят через облако точек так, чтобы сумма квадратов отрезков , - была минимальна

Когда для оценки переменной привлекают не менее двух независимых переменных, то говорят о множественном регрессионном анализе. Целью множественного регрессионного анализа является подбор таких весовых коэффициентов к нескольким независимым переменным, или, точнее сказать, исходным величинам, чтобы оценки значений зависимой переменной, или, лучше сказать, целевой функции, имели возможно меньшие ошибки. Включение в анализ нескольких переменных часто улучшает оценку искомой переменной. Линейная модель множественной регрессии для стандартизованных переменных была уже приведена в формуле (2.47).

Здесь являются искомыми коэффициентами регрессии. Через обозначена оценка значения целевой функции, а через — значения исходных величин.

В матричной форме это уравнение имеет вид:

где является вектор-строкой оценок значений переменной — вектор-строкой оценок коэффициентов регрессии, a Z — матрицей стандартизованных значений исходных величин.

Таблица. 6.2. Вычисление уравнения регрессии для стандартизованных переменных

Коэффициенты регрессии должны быть подобраны так, чтобы сумма квадратов ошибок оценок была минимальна.

Можно показать, что при этих условиях для стандартизованных переменных имеет силу следующее равенство:

где является вектор-столбцом оценок коэффициентов регрессии; v — вектор-столбцом коэффициентов корреляции между целевой функцией и всеми исходными величинами; R — матрицей коэффициентов корреляции между исходными величинами. Для большей ясности перейдем от матричной формы записи (6.14) к системе уравнений

где — коэффициенты корреляций между целевой функцией и всеми исходными величинами; — коэффициенты корреляции между исходными величинами, или независимыми переменными. Искомые коэффициенты регрессии обозначены через Индекс указывает на то, что для различных «аборов целевых функций имеются соответствующие векторы-решения. Умножая обе части равенства (6.14) на получим

Итак, искомые коэффициенты регрессий получаются путем обращения матрицы коэффициентов корреляции между независимыми переменными и последующего ее умножения на вектор v. Второе равенство (6.15) является другой формой записи решения, которая нужна нам будет позднее. Формула (6.15) позволяет найти оценку коэффициентов регрессии в случае стандартизованных переменных.

На рис. 6.2 трехмерное пространство натянуто на переменные . Значения переменной должны определяться по значениям двух других переменных с наименьшей ошибкой. Найденное уравнение регрессии определяет плоскость, проходящую через нулевую точку. Все оценки лежат на ней. Эта плоскость должна занимать такое положение в облаке точек, чтобы в общем оценка ошибки для всех точек была как можно меньше. Чтобы не загромождать изображение, на рис. 6.2 представлена только одна точка

Рис. 6.2. Плоскость регрессии для стандартизованных переменных. Наилучшая оценка по находится на плоскости заштрихованной на графике. Расстояние точки до этой плоскости характеризует ошибку оценки Плоскость должна быть проведена так, чтобы сумма квадратов была минимальна

Отрезок прямой, проведенной через точку параллельно до пересечения с плоскостью регрессии, дает оценку ошибки для этой точки. Уравнения регрессии в геометрических терминах соответствуют -мерным плоскостям, где — число независимых переменных. Они должны располагаться в -мерном пространстве так, чтобы сумма квадратов оцененных ошибок была минимальной величиной.

После этого небольшого экскурса в область множественного регрессионного анализа для стандартизованных переменных мы можем возвратиться к нашей проблеме. По матрице стандартизованных исходных данных Z должны быть получены оценки значений факторов Р для отдельных индивидуумов. Матрица коэффициентов корреляции между наблюдаемыми (независимыми) переменными известна. Также известны коэффициенты корреляции между переменными и факторами, а именно элементы матрицы Должна быть найдена В—матрица коэффициентов регрессии, факторов по переменным, которая входит в равенство

Здесь Р означает матрицу оценок значений факторов размерностью ; В — матрицу коэффициентов регрессии размерностью , a Z — матрицу стандартизованных переменных размерностью . Итак, должны быть найдены коэффициенты регрессии стандартизованных факторов по стандартизованным переменным. Это соответствует задаче множественного регрессионного анализа, записанной в виде формулы (6.12). Но в (6.16) входят несколько зависимых величин, факторов, подлежащих оценке, а в формуле (6.12) речь идет только об одной переменной.

Поэтому для определения коэффициентов регрессии обратимся к равенству

получающемуся из формулы (6.15) путем замены в ней вектор-строк и на матрицы и В. Матрицу составляют, располагая друг над другом несколько вектор-строк v, элементами которых являются коэффициенты корреляции между Переменными и факторами, подлежащими оценке. В результате умножения на обратную матрицу получаем не единственный вектор-строку как в (6.15), а матрицу состоящую из нескольких вектор-строк . Каждая строка матрицы В содержит коэффициенты регрессии фактора по переменным. Матрица является обратной к матрице коэффициентов корреляции между наблюдаемыми переменными, которые во множественном регрессионном анализе называются независимыми величинами (а факторы — зависимыми величинами). Подставляя (6.17) в (6.16), получаем

Итак, наилучшие оценки значений факторов в смысле наименьшей суммы квадратов ошибок получаем исходя из первичной факторной структуры, корреляционной матрицы и стандартизованных переменных. Наиболее трудоемкой частью вычислений является обращение матрицы R. Много времени также приходится тратить на нормирование переменных в матрице Z. Из равенств (6.17) и (6.18) с помощью известных нам соотношений можно вывести другие формулы, которые применяются в том случае, когда матрица не известна. Они эквивалентны формуле (6.18) и приводятся нами далее.

Между первичной факторной структурой и первичным факторным отображением существует связь (5.20): — V/PC/. Подставляя это соотношение в (6.18), получаем

В большинстве случаев исходят не из первичного факторного отображения, а из вторичной факторной структуры, связь между которыми согласно (5.24) выражается таким образом: Умножив обе части этого равенства на и подставив затем выражение в (6.19), получим следующую формулу:

По формуле (5.26) имеем Подставив это выражение в (6.20), придем к формуле (6.21), которая содержит матрицу вторичной факторной структуры

Эта формула кажется более сложной, но работать с ней намного проще, чем с приведенными выше, хотя она также предполагает вычисление

Матрица а также матрица коэффициентов корреляций между вторичными осями получается после вращения при достижении простой структуры. Обращение матрицы размерностью также часто необходимо для определения D и факторного отображения . Таким образом, мы получаем оценки значений факторов путем простого перемножения ряда матриц. Для полноты укажем еще одну формулу, которая служит для определения оценок значений факторов, если известны По (5.17) имеем . Подставляя это выражение в (6.21), получаем

Формулы (6.18)-(6.22) дают один и тот же результат, и какой из них пользоваться в конкретном случае — зависит от того, какими матрицами располагает исследователь. При использовании любой из этих формул необходимо вычислять матрицу, обратную к R. Все способы приводят к определению матрицы В, элементами которой являются коэффициенты регрессии факторов по переменным. Различие их обусловлено тем, какими из четырех косоугольных факторных решений V пользуются. Выбор формулы зависит от величин, полученных в ходе анализа. Для ортогональной матрицы А не существует различия между факторным отображением и структурой, а вторичные оси совпадают с первичными факторами. В случае такого факторного решения пользуются формулой (6.18) или идентичной ей формулой (6.19), в которой Значения , полученные таким образом, в отличие от (6.7) не являются точными, а являются лишь оценками значений факторов. Если имеется варимакс-решение, а факторы были выделены с помощью метода главных факторов, то пользуются формулой (6.18). При косоугольном вращении в большинстве случаев располагают матрицами Тогда следует применить формулу (6.21). Итак, выбор формулы осуществляется в зависимости от того, исходят ли из или из Список формул можно было бы продолжить, учитывая все возможные комбинации матриц V. Но мы отказываемся здесь от этого.

Нахождение оценок значений факторов очень трудоемкая работа. Это вызвано прежде всего вычислением обратной матрицы. При 40— 100 переменных выполнить такую операцию несколько лет назад было практически невозможно. Сейчас операция обращения больших матриц выполняется на ЭВМ за несколько минут. В гл. 6.4 рассматриваются еще некоторые приближенные способы оценок, которые ускоряют процесс вычисления.

Как указывалось, общим для приведенных формул, является то, что в любом случае определяются коэффициенты регрессии факторов по переменным. Эти коэффициенты регрессии являются элементами матрицы В, которая интересна тем, что по ней можно считывать вклады переменных в факторы. К этому мы еще вернемся, а сейчас рассмотрим конкретный пример.

Пусть имеется ортогональное факторное отображение. В этом случае для определения коэффициентов регрессии можно использовать формулу (6.17),

Хотя речь идет об ортогональном факторном отображении, мы будем употреблять обозначение приведенное в формуле, подчеркивая тем самым, что можно было бы исходить из косоугольной первичной факторной структуры. Вначале выполним операцию обращения корреляционной матрицы, а затем, перемножая матрицы по формуле (6.17), находим коэффициенты регрессии.

Элементами каждой строки в матрице являются коэффициенты корреляции между переменными и фактором, элементами соответствующих строк в матрице В являются коэффициенты регрессии этого фактора по всем переменным. Если хотят оценить только один фактор, то в и В используют лишь одну строку. С помощью коэффициентов регрессии затем вычисляют по (6.16) оценки значений фактора. Выпишем соответствующую систему уравнений:

Индекс пробегает по всем ( — число обследуемых индивидуумов) Подставив в правую часть соответствующего уравнения величины индивидуума, получаем оценку значения фактора I для этого индивидуума.

Результаты вычислений по формулам (6.16) и (6.17) сведены в табл. 6.3. Расчет выполнялся для тех же исходных данных, что и в примере с определением значений главных компонент в табл. 6.1. В рамку заключены числа, по которым производятся вычисления. В строках 1 и 2 таблицы записана матрица . Она заимствована из табл. 2.2. В строках 3—8 записаны элементы матрицы Строку 9 получаем, умножая вектор, записанный в строке 1, на каждый вектор-столбец матрицы Аналогично получается строка 10, а именно, умножая вектор, записанный в строке 2, на вектор-столбцы матрицы выполняя таким образом операцию в (6.17). В строки 11—16 перенесены элементы матрицы Z из табл. 2.2. Перемножая вектор, записанный в строке 9, со всеми вектор-столбцами матрицы Z, получаем строку 17. Аналогично вычисляются элементы строки 18 по строке 10 и вектор-столбцам матрицы Z (формула (6.16)). Для сравнения в строки 19 и 20 из табл. 2.2 перенесены действительные значения факторов. Полученные оценки хорошо согласуются с действительными значениями.

Таблица 6.3. Оценка значений факторов

<< Предыдущий параграф

Следующий параграф >>

Оглавление