Глава 1. ПРИКЛАДНАЯ СТАТИСТИКА КАК САМОСТОЯТЕЛЬНАЯ НАУЧНАЯ ДИСЦИПЛИНА

<< Предыдущий параграф

Следующий параграф >>

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

200

201

202

203

204

205

206

207

208

209

210

211

212

213

214

215

216

217

218

219

220

221

222

223

224

225

226

227

228

229

230

231

232

233

234

235

236

237

238

239

240

241

242

243

244

245

246

247

248

249

250

251

252

253

254

255

256

257

258

259

260

261

262

263

264

265

266

267

268

269

270

271

272

273

274

275

276

277

278

279

280

281

282

283

284

285

286

287

288

289

290

291

292

293

294

295

296

297

298

299

300

301

302

303

304

305

306

307

308

309

310

311

312

313

314

315

316

317

318

319

320

321

322

323

324

325

326

327

328

329

330

331

332

333

334

335

336

337

338

339

340

341

342

343

344

345

346

347

348

349

350

351

352

353

354

355

356

357

358

359

360

361

362

363

364

365

366

367

368

369

370

371

372

373

374

375

376

377

378

379

380

381

382

383

384

385

386

387

388

389

390

391

392

393

394

395

396

397

398

399

400

401

402

403

404

405

406

407

408

409

410

411

412

413

414

415

416

417

418

419

420

421

422

423

424

425

426

427

428

429

430

431

432

433

434

435

436

437

438

439

440

441

442

443

444

445

446

447

448

449

450

451

<< Предыдущий параграф

Следующий параграф >>

Макеты страниц

Раздел I. ПРИКЛАДНАЯ СТАТИСТИКА: ЕЕ СУЩНОСТЬ И НАЗНАЧЕНИЕ (общие методические принципы)

Глава 1. ПРИКЛАДНАЯ СТАТИСТИКА КАК САМОСТОЯТЕЛЬНАЯ НАУЧНАЯ ДИСЦИПЛИНА

1.1. Связь прикладной статистики с другими статистическими дисциплинами и основные этапы статистического исследования

1.1.1. Определение прикладной статистики.

Нужно ли использовать этот термин или можно ограничиться более привычным понятием «математическая статистика»? Как соотносится прикладная статистика с другими статистическими дисциплинами, такими, как «математическая статистика», «анализ данных», «экономическая статистика» и т. д.? Для обоснования правомерности и целесообразности рассмотрения прикладной статистики как самостоятельной научной дисциплины следует упомянуть, как минимум, о двух моментах.

Во-первых, до сих пор развитие теории, методологии и практики статистической обработки анализируемых данных шло, по существу, в двух параллельных направлениях. Одно из них представлено методами, предусматривающими возможность вероятностной интерпретации обрабатываемых данных и полученных в результате обработки статистических выводов. Именно эти методы (и только они!) и составляют содержание подавляющего большинства монографий и руководств по математической статистике. Другими словами, под методами математической статистики принято понимать лишь те методы статистической обработки исходных данных, разработка и использование которых апеллируют к вероятностной природе этих данных.

При этом развиваемый в рамках второго направления весьма широкий и актуальный класс методов статистической переработки исходной информации, а именно о вся совокупность тех методов, которые априори не опираются на вероятностную природу обрабатываемых данных (представителями методов такого типа являются, например, разнообразные методы кластер-анализа, многомерного шкалирования, теории измерений и др.), остается за общепринятыми рамками научной дисциплины «математическая статистика»

Во-вторых, специалисты, занимающиеся разработкой и конкретными применениями методов статистической обработки исходной информации, не могут игнорировать ту внушительную дистанцию, которая разделяет момент успешного завершения разработки собственно математического метода и момент получения результата от использования этого метода в решении конкретной практической задачи. В процессе прохождения этой трудной дистанции математику-прикладнику приходится:

глубоко вникать в содержательную сущность задачи, адекватно «прилаживать» исходные модельные допущения (на которых строится любой математический метод) к выясненной сущности реальной задачи;

решать (в некоторых специальных случаях) весьма трудную задачу преобразования имеющейся исходной информации, представленной, например, в виде физических сигналов, радиолокационных разверток, геологических срезов и т. п., к стандартной (унифицированной) форме обрабатываемых статистических данных (см. (1.4), и );

разрабатывать практически реализуемые вычислительные алгоритмы и программное обеспечение с учетом специфики обрабатываемой статистической информации и возможностей имеющейся вычислительной техники;

организовать достаточно удобный и эффективный режим общения с электронно-вычислительной машиной (ЭВМ) в процессе решения задачи.

Понятийный аппарат, методы и результаты, позволяющие проходить эту дистанцию, вместе с этапом «прилаживания» и доработки необходимого математического инструментария и составляют главное содержание прикладной статистики.

Таким образом, мы приходим к определению прикладной статистики как самостоятельной научной дисциплины, разрабатывающей и систематизирующей понятия, приемы, математические методы и модели, предназначенные для организации сбора, стандартной записи, систематизации и обработки (в том числе — с помощью ЭВМ) статистических данных с целью их удобного представления, интерпретации и получения научных и практических выводов.

Для определения той же самой системы понятий, приемов, математических методов и моделей некоторые специалисты используют термин «анализ данных», понимаемый в расширительном толковании.

1.1.2. Два варианта интерпретации исходных данных и два подхода к их статистической обработке. Рассмотрим два примера. Цель статистического анализа в первом примере — исследование возможностей массового производства по исходным данным, представляющим результаты контроля (по альтернативному признаку) ограниченного ряда изделий, случайно отобранных из продукции этого производства. Если было проконтролировано изделий, то результаты контроля могут быть, в общем виде представлены в виде последовательности чисел

где результат контроля изделия полагается равным единице, если изделие оказалось дефектным, и нулю — в противном случае. Если производство отлажено и действует в стационарном режиме (т. е. его технологические возможности остаются на постоянном уровне), то ряд наблюдений (1.1) естественно интерпретировать как ограниченную выборку из соответствующей бесконечной совокупности, которую мы бы имели, если бы осуществляли сплошной контроль всех изделий, производимых на этом производстве.

В этом случае саму выборку мы рассматриваем как составную часть, как представителя «стоящей за ней» бесконечной совокупности, т. е. всего массового производства, а ее основные статистические характеристики, например ее среднюю арифметическую, являющуюся, как легко видеть, долей брака дефектных изделий в ней, — как некое приближение к истинной доле брака, характеризующей все производство. В подобных ситуациях имеется принципиальная возможность, хотя бы мысленно реально представимая, многократного повторения нашего наблюдения (или эксперимента) в рамках одного и того же реального комплекса условий, включающего в себя «мешающее» влияние большого числа не поддающихся учету случайных факторов (которые и являются причиной стохастического, т. е. не предопределенного заранее, результата каждого отдельного наблюдения). Такие ситуации могут быть описаны в рамках той или иной вероятностной модели (см. § 1.2 и 1.3). Соответственно ряд наблюдений (1.1) интерпретируется как случайная выборка из некоторой генеральной совокупности, т. е. как экспериментальные (или наблюденные) значения анализируемой случайной величины, и для его статистической обработки применяются классические математико-статистические методы (методы статистического оценивания неизвестных параметров, методы проверки статистических гипотез и т. п., см. разд. III)

При подобной (вероятностной) интерпретации исходных статистических данных в поле зрения исследователя одновременно попадают две совокупности объектов: реально наблюдаемая, статистически представленная рядом наблюдений типа (1.1) (т. е. выборка), и теоретически домысливаемая (так называемая генеральная совокупность). Основные свойства и характеристики выборки, называемые эмпирическими (или выборочными), могут быть проанализированы и вычислены по имеющимся статистическим данным (1.1). Основные свойства и характеристики генеральной совокупности, называемые теоретическими, не известны исследователю, но назначение математико-статистических методов как раз в том и состоит, чтобы с их помощью получить как можно более точное представление об этих теоретических свойствах и характеристиках по соответствующим свойствам и характеристикам выборок.

Для демонстрации второго возможного варианта интерпретации исходных статистических данных рассмотрим следующий пример (упрощенный вариант задачи, приведенной в [8, с. 223]).

Была статистически обследована совокупность из 74 средних городов РСФСР (с численностью населения от 100 до 500 тыс. чел.). По каждому городу регистрировались значения 32 признаков характеризующих этот город по уровню образования его жителей, половозрастному и социальному составу, структуре занятости жителей города. Таким образом, здесь исходные статистические данные могут быть представлены в виде последовательности 32-мерных векторов

где результат обследования города является вектором

компоненты которого определяют числовые значения анализируемых признаков по данному городу. Цель статистического анализа исходных данных (1.2) — выявление числа и состава различных типов городов, где под типом понимается класс городов обследованной совокупности, однородных (сходных) по структуре уровня образования их жителей, половозрастному составу и характеру занятости.

Если допустить, что геометрическая близость двух точек — городов вида (1.3) в соответствующем 32-мерном пространстве означает их однородность (сходство) по анализируемым признакам и является соответственно основанием для их отнесения к одному типу, то для решения поставленной выше задачи нам придется привлечь подходящие методы кластер-анализа (распознавания образов «без учителя») и снижения размерности. И хотя математический аппарат этих методов предусматривает необходимость счета таких статистических характеристик, как средние, дисперсии, ковариации и т. п., однако, в данном случае они будут характеризовать природу и структуру только реально анализируемых данных, т. е. только статистически обследованную совокупность из 74 анализируемых городов. В отличие от предыдущего примера со статистическим анализом результатов контроля изделий, произведенных в режиме стационарно действующего массового производства, в данном примере мы столкнемся с серьезными методическими трудностями при:

интерпретации исходных статистических данных (1.2) в качестве выборки из некоторой (теоретически домысливаемой) генеральной совокупности;

использовании вероятностных моделей для построения и выбора наилучших методов статистической обработки;

вероятностной интерпретации выводов, основанных на статистическом анализе исходных данных.

В этом и заключается главное различие двух возможных подходов к статистическому анализу исходных данных. Однако и в том и в другом подходе выбор наилучшего из всех возможных методов обработки данных производится в соответствии с некоторым функционалом качества метода. Различие описываемых подходов проявляется здесь в способе обоснования выбора этого функционала качества метода, а также в интерпретации самого функционала и получаемых статистических выводов: в первом случае исследователь основывает свой выбор на допущениях о вероятностной природе исходных данных и использует эти же допущения при вероятностной интерпретации своих выводов; во втором случае исследователь не располагает никакими априорными сведениями о вероятностной природе исходных данных и при обосновании выбора оптимизируемого критерия качества опирается на соображения содержательного (физического) плана — как именно и для чего получены обрабатываемые данные.

Но после того, как выбор конкретного вида оптимизируемого критерия качества метода осуществлен, математические средства решения задачи статистической обработки данных оказываются общими для обоих подходов: и в том, и в другом случае исследователь использует методы решения экстремальных задач. Правда, на заключительном этапе — на этапе осмысления и интерпретации полученных статистических выводов — каждый из подходов снова имеет свою специфику.

Таким образом, общим для обоих описываемых подходов является наличие исходной статистической информации на «входе» задачи и необходимость наилучшей (в смысле оптимизации некоторого функционала качества метода) статистической обработки этой информации с целью получения научных или практических выводов «на выходе».

Итак, принимаясь за статистический анализ исходных данных, исследователь должен прежде всего определить, в рамках какой из двух описанных выше схем следует проводить этот анализ. Другими словами, он должен сделать принципиальный выбор типа модели. И с этой точки зрения предостережения некоторых авторов (см. [10], [80]) по поводу вреда от чрезмерного (а порой бездумного) использования вероятностно-статистических методов в качестве главного инструмента статистической обработки исходных данных нам представляются уместными и полезными. Однако нельзя отбивать всякую охоту пользоваться этими методами: именно такую цель, похоже, ставил перед собой автор [10] и именно к такому выводу (о прикладной никчемности и неэффективности вероятностно-статистических методов) пришли многие читатели работы [80], хотел того ее автор или нет.

В действительности же приходится исходить из следующей ситуации. Будем отправляться от момента, когда исследователь уже располагает исходными статистическими данными, характеризующими те или иные стороны интересующего его процесса или явления. Вопрос состоит в том, как наилучшим (в определенном смысле) образом обработать эту информацию с целью получить из нее научные или практические выводы определенного характера об исследуемом явлении.

Для того чтобы уточнить понятие «наилучшим образом», исследователь должен формализовать задачу, выбрать модель. Всякая модель является упрощенным (математическим) представлением изучаемой действительности (см. § 3.1). Очевидно, мера адекватности выбранной модели и изучаемой действительности является решающим фактором, определяющим эффективность и действенность используемых затем методов статистической обработки. Поскольку ни одна из жестко определенных моделей не может на практике идеально соответствовать изучаемой реальной действительности, то можно только приветствовать желание исследователя многократно обработать свои исходные данные, проводя каждую новую статистическую обработку в рамках несколько измененного варианта модели (см. развитие этого тезиса в § 1.2).

1.1.3. Основные этапы статистической обработки исходных данных. Попытаемся теперь описать общую логическую схему статистического анализа исходных данных. Для пояснения роли и места основных приемов статистического моделирования и методов первичной статистической обработки исходных данных удобно разложить эту схему на основные этапы исследования. Подобное разложение носит, конечно, условный характер. В частности, оно не означает, что этапы осуществляются в строгой хронологической последовательности один за другим. Более того, многие из этапов (например, этапы 4, 5 и 6) находятся, в плане хронологическом, в соотношении итерационного взаимодействия: результаты реализации более поздних этапов могут содержать выводы о необходимости повторной «прогонки» (с учетом новой информации) предыдущих этапов.

Этап 1: исходный (предварительный) анализ исследуемой реальной системы. В результате этого анализа определяются: а) основные цели исследования на неформализованном, содержательном уровне; б) совокупность единиц, представляющая предмет статистического исследования; в) перечень отобранных из представленного специалистами априорного набора показателей, характеризующих состояние (поведение) каждого из обследуемых объектов, который предполагается использовать в данном исследрвании; г) степень формализации соответствующих записей при сборе данных; д) общее время и трудозатраты, отведенные на планируемые работы, и коррелированные с ними временная протяженность и объем необходимого статистического обследования;

е) моменты, требующие предварительной проверки перед составлением детального плана исследования (например, не всегда априори ясна возможность идентификации единиц наблюдения, в медицинских исследованиях не всегда может быть получено согласие больного следовать определенным рекомендациям медперсонала и т. п.); ж) формализованная постановка задачи, по возможности включающая вероятностную модель изучаемого явления, и природа статистических выводов, к которым должен (или может) прийти исследователь в результате переработки массива исходных данных; з) формы, используемые для сбора первичной информации и для введения ее в ЭВМ.

По затратам сил наиболее квалифицированного персонала, участвующего в работе, трудоемкость первого этапа работы весьма значительна и бывает даже сравнима с суммарной трудоемкостью всех остальных этапов при условии, что обработка проводится с помощью подходящего пакета программ. Поэтому максимального развития заслуживают методы машинного ассистирования в проведении этой части работы. Оно может заключаться в подсказке (с одновременной оценкой) форм документации для сбора первичной информации, методов построения контрольной или «псевдоконтрольной» групп при изучении какого-либо воздействия (что особенно актуально для медицинских приложений), подходящих моделей, в ведении тезауруса исследования и т. п.

Этап 2: составление детального плана сбора исходной статистической информации. При составлении этого плана необходимо, по возможности, учитывать полную схему дальнейшего статистического анализа, о чем часто забывают. Априорное представление о том, как и для чего данные будут анализироваться, может оказать существенное влияние на их сбор. При планировании особого внимания заслуживают случаи, когда: а) используется аппарат общей теории выборочных обследований (см., например, [43]), т. е. определяется, какой должна быть выборка — случайной, пропорциональной, расслоенной и т. п.;

б) производится расчет «разрешающей силы» исследования заданного объема и продолжительности (см., например, [127], где оценивается сверху число возможных статистически значимых ассоциацйй между риск-факторами и частотой заболеваний, или [102], где предлагается простейшая модель для феноменологического описания действия лечебного фактора); в) хотя бы для части входных переменных эксперимент носит активный характер: переменные допускают фиксацию в каждом конкретном наблюдении на определенном уровне, и выбор плана обследования осуществляется с привлечением методов планирования (регрессионных) экспериментов (см., например,(81)). В некоторых руководствах по общей теории статистики (см., например, [64, с. 274]) этот этап называют этапом «организационно-методической подготовки». Как уже сказано выше, вопросы разработки методологии определения априорной системы показателей, характеризующих исследуемый объект или процесс, вынесены за рамки описываемых здесь этапов и должны быть отнесены к области конкретно-содержательной статистики (экономической, медицинской и т. п.).

Этап 3: сбор исходных статистических данных и их введение в ЭВМ. Одновременно в ЭВМ вносятся полные и краткие (для автоматизированного воспроизводства в таблицах) определения используемых терминов. В пакете должны быть предусмотрены специальдые меры, исключающие или резко уменьшающие возможность появления расчетов не с тем подмножеством данных или не для той подгруппы объектов.

Таким образом, независимо от того, производится ли исследователем выбор метода и плана статистического обследования или он уже располагал результатами так называемого пассивного эксперимента, к моменту определения основного инструментария статистического исследования исследователь в общем случае располагает в качестве массива исходных статистических данных временной последовательностью матриц наблюдений вида

где — значение признака, характеризующего состояние объекта в момент времени t. Однако бывают случаи, когда случайны для каждого объекта. Так, например, может быть в медицинских исследованиях, когда

вектор, характеризующий то, как протекает обострение у больного, и за один и тот же промежуток времени у различных больных может быть разное число обострений. В этом случае матрицы будут иметь для разных больных для разных разную размерность. Более того, в медицинских исследованиях отдельные координаты могут быть записаны не с помощью цифр, а текстом. Подобные особенности в представлении исходных данных характерны и для социологических и, в меньшей степени, для экономических исследований.

В ряде ситуаций и в первую очередь в ситуациях, когда исходные статистические данные получают с помощью специальных опросов, анкет, экспертных оценок, возможны случаи, когда элементом первичного наблюдения является не состояние объекта в момент , а характеристика попарной близости (отдаленности) двух объектов (или признаков) соответственно с номерами отнесенная к моменту времени t. В этом случае исследователь располагает в качестве массива исходных статистических данных временной последовательностью матриц размера (если рассматриваются характеристики попарной близости объектов) или (если рассматриваются характеристики попарной близости признаков) вида

Очевидно, что от формы запису (1.4) можно непосредственно перейти к (1.4) (при наличии заданной метрики в пространстве объектов и в пространстве признаков).

Однозначный обратный переход от (1.4) к (1.4) без дополнительных предположений и специальных методов (скажем, многомерного шкалирования, см. [122]), в общем, невозможен. Возможны и другие формы представления геометрической структуры исходных данных, однако мы не будем здесь на них останавливаться.

В целях упрощения обозначений в наших дальнейших рассуждениях, если специально не оговорено противное, мы будем рассматривать статический вариант схемы, т. е. ситуацию, в которой нас будет интересовать массив исходных данных (1.4) или (1.4), отнесенный лишь к одному какому-то фиксированному моменту времени , обозначение которого будем опускать.

Этап 4: первичная статистическая обработка данных. В ходе первичной статистической обработки данных обычно решаются следующие задачи: а) отображение переменных, описанных текстом, в номинальную (с предписанным числом градаций) или ординальную (порядковую) шкалу; б) статистическое описание исходных совокупностей с определением пределов варьирования переменных; в) анализ резко выделяющихся наблюдений; г) восстановление пропущенных наблюдений; д) проверка статистической независимости последовательности наблюдений, составляющих массив исходных данных; е) унификация типов переменных, когда с помощью различных приемов добиваются унифицированной записи всех переменных; ж) экспериментальный анализ закона распределения исследуемой генеральной совокупности и параметризация сведений о природе изучаемых распределений (иногда этот этап называют процессом составления сводки и группировки [64, с. 274—275]). Кроме того, этап 4 включает в себя вычислительную реализацию решения следующих вопросов: учет размерности и алгоритмической сложности задачи и одновременно возможностей используемой ЭВМ; формулировку задачи на входном языке пакета и т. п. (см. подробнее об этом в описании этапа 6).

Остановимся на некоторых из затронутых вопросов подробнее.

Анализ резко выделяющихся наблюдений.

Часто даже беглый предварительный просмотр (визуальный или автоматизированный) исходных данных (1.4) или (1.4) может вызвать у исследователя сомнения в истинности (или правомерности) отдельных наблюдений, слишком резко выделяющихся на общем фоне.

В этих случаях возникает вопрос: вправе ли мы объяснить обнаруженные резкие отклонения в исходных данных (аномальные выбросы) лишь обычными случайными колебаниями выборки (которые обусловлены природой анализируемой генеральной совокупности) или здесь дело в существенных искажениях стандартных условий сбора статистических данных, а возможно, и в прямых ошибках регистрации (записи)? В последних двух случаях «подозрительные» наблюдения, очевидно, следует исключить из дальнейшего рассмотрения.

Единственным абсолютно надежным способом решения вопроса об исключении резко выделяющихся результатов наблюдений является тщательное рассмотрение условий, при которых эти наблюдения регистрировались. Однако во многих случаях проведение такого содержательного анализа объективно затруднительно или принципиально невозможно. Тогда необходимо обратиться к соответствующим формальным (статистическим) методам. Общая логическая схема этих методов следующая: отправляясь от исходных допущений о природе анализируемой совокупности данных, исследователь задается функцией

от всех имеющихся наблюдений X, характеризующей степень аномальности (меру удаленности от основной массы наблюдений) «подозрительных» наблюдений , а затем подставляет в (1.5) реальные значения наблюдений и сравнивает величину с некоторым пороговым значением если то подозрительные наблюдения или полностью исключаются из дальнейшего рассмотрения, или их вклад уменьшается с помощью весовой функций, убывающей по мере роста степени аномальности наблюдений.

С различными вариантами методов анализа резко выделяющихся наблюдений читатель познакомится в § 11.5 (см. также [6], [76]).

Восстановление пропущенных (стертых) наблюдений.

В матрицах исходных статистических данных (1.4) или (1.4) по разным причинам (в том числе и в результате исключения резко выделяющихся наблюдений) могут быть пропуски отдельных элементов или каких-то частей строк или столбцов.

Исключать по этой причине из дальнейшего рассмотрения весь объект (столбец, в котором обнаружены пропуски) или признак (строку, в которой обнаружены пропуски) слишком расточительно с точки зрения потери полезной информации. Поэтому возникает задача наилучшего в некотором смысле восстановления пропущенных (стертых) данных. Конкретизация критерия качества восстановления стертых данных производится в зависимости от характера последующей обработки исходных данных, т. е. в зависимости от окончательных целей исследования (см. § 11.4, а также [35], [66], [95]).

Проверка однородности нескольких порций исходных данных.

Объективные условия сбора исходных статистических данных, особенно в ситуациях пассивного эксперимента, могут быть такими, что общая -матрица наблюдений (см. (1.4)) получается составлением -матриц (частных) наблюдений соответственно , где каждая из частных матриц задает порцию исходных данных, относящихся к некоторой подсовокупности, состоящей из объектов. При этом процессы (моменты) обследования этих совокупностей могут быть разделены в пространстве (во времени).

Очевидно, перед тем как подвергать исходные данные основной статистической обработке (т. е. применять к ним те или иные методы прикладного статистического анализа, выбор которых обусловлен конечными целями исследования), исследователь должен ответить на вопрос: правомерно ли объединение имеющихся в его распоряжении порций (выборок) в один общий массив или же каждая из порций имеет свою специфику и, следовательно, и обрабатывать их надо по отдельности? В рамках математикостатистических моделей этот вопрос сводится к выяснению помощью соответствующих статистических критериев), можно ли считать порции данных различными выборками из одной и той же генеральной совокупности (см., например, [12]). Очевидно, что если причиной дробления на порции массива была временная разделенность соответствующих порций, то речь идет о статистической проверке стационарности соответствующих многомерных временных рядов.

Проверка статистической независимости последовательности наблюдений, составляющих массив исходных данных.

Применение многих статистических методов является правомерным лишь в ситуациях, когда справедливо допущение о статистической независимости обрабатываемого ряда наблюдений . Этот же вопрос возникает и применительно к рядам . Поэтому, перед тем как подвергнуть имеющиеся результаты наблюдения основной статистической обработке, необходимо выяснить (с помощью соответствующих статистических критериев (см. § 11.3)), являются ли они статистически независимыми или их следует рассматривать как последовательности взаимозависимых величин.

Унификация типа переменных.

Одна из сложностей автоматизированного анализа информации заключается в том, что среди компонент анализируемого многомерного признака могут быть показатели трех разных типов: количественные, качественные (порядковые, ординальные) и классификационные (номинальные). Их определение и сущность, а также основные формы записи их наблюдаемых значений приведены в § 5.3 и 10.2.

В связи с этим возникает вопрос унификации записи единичного наблюдения, снятого с объекта i. В соответствии с одним из вариантов решения этого вопроса многомерное наблюдение в унифицированной записи представляется вектор-столбцом размерности , где — число градаций (интервалов группирования, уровней качества или однородных групп) признака причем компонентами этого вектор-столбца могут быть только нули или единицы. При таком подходе к достижению единообразия записи наблюдений многомерного признака смешанной природы мы вынуждены мириться, во-первых, с элементами субъективизма в выборе способов разбиения диапазонов изменения анализируемых количественных признаков на интервалы группирования и, во-вторых, с определенной потерей информативности исходных данных, связанной с переходом от индивидуальных к группированным значениям по количественным переменным.

В качестве альтернативного подхода к способу унификации записи исходных данных может быть использована идея, прямо противоположная той, на основании которой построен только что описанный прием.

В частности, руководствуясь некоторыми дополнительными соображениями (и допущениями), исследователь пытается преобразовать качественные и классификационные переменные в количественные, используя процесс так называемой «оцифровки», или шкалирования, неколичественных переменных, а также некоторые специальные модели (Терстоуна, Лазарсфельда и др.), см. § 10.2, а также [31], [57], [88], [134].

Экспериментальный анализ закона распределения исследуемой генеральной совокупности и вопрос ее подходящей параметризации.

Эта часть предварительной статистической обработки исходного массива данных, представленных в виде (1.4), включает в себя вычисление основных числовых характеристик распределения: среднего значения, дисперсии, коэффициентов асимметрии и эксцесса, а в многомерном случае — и элементов выборочной ковариационной матрицы. Кроме того, исследователь проводит численный и графический анализ одномерных законов распределения рассматриваемых показателей, заключающийся в построении соответствующих полигонов частот, гистограмм, эмпирических функций распределения. Результаты этого экспериментального анализа, дополненные априорными сведениями о природе анализируемой генеральной совокупности, зачастую оказываются достаточными для формулировки одной или нескольких конкурирующих гипотез об общем (параметрическом) виде закона распределения вероятностей, задающего эту генеральную совокупность. Не следует пренебрегать такой возможностью, поскольку знание общего вида вероятностного распределения в исследуемой генеральной совокупности позволяет сделать наилучший выбор метода статистического оценивания параметров этого распределения, а также метода последующей основной статистической обработки массива исходных данных (из набора конкурирующих методов). Как известно, выяснение непротиворечивости высказанной исследователем гипотезы об общем виде распределения анализируемых наблюдений с природой и спецификой имеющихся в распоряжении исследователя конкретных исходных данных осуществляется с помощью тех или иных статистических критериев согласия (см. § 10.3 и 11.1).

Этап 5: составление детального плана вычислительного анализа материала. Этап начинается с составления справки по собранному материалу и результатам предварительного анализа. Определяются основные группы, для которых будет проводиться дальнейший анализ. Пополняется и уточняется тезаурус содержательных понятий.

Четко описывается блок-схема анализа с указанием привлекаемых методов. Формулируется оптимизационный критерий, на основании которого выбирается один из альтернативных методов (или одно из альтернативных семейств методов) основной статистической обработки исходных данных (см. § 1.2).

Этап 6: вычислительная реализация основной части статистической обработки данных. Основная забота исследователя на этом этапе — эффективное управление вычислительным процессом путем формулировки задачи обработки и описания данных на входном языке пакета. Учитываются размерность задачи, алгоритмическая сложность вычислительного процесса, возможности используемой ЭВМ (длина слова, быстродействие, объем оперативной памяти, организация базы данных и т. п.) и, наконец, особенности данных (степень обусловленности используемых при реализации линейных процедур матриц, надежность априорных оценок параметров и т. п.).

Этап 7: подведение итогов исследования. Этап начинается с построения формального статистического отчета о проведенном исследовании. При интерпретации результатов применения статистических процедур (оценка параметров, проверка гипотез, отображения в пространство меньшей размерности, классификация и т. п.) учитывается как место этих процедур в блок-схеме анализа, так и соотношение объемов используемых выборок, размерности пространства наблюдений, числа и значений параметров. Теоретически эти вопросы, несмотря на их крайнюю актуальность, разработаны довольно мало. Как исключение можно назвать работы [27], [58], [59]. В тех случаях, когда при интерпретации результатов вычислений нельзя опереться на теоретические утверждения, может оказаться полезным использование имитационного статистического моделирования (см. § 3.3 и 6.3).

Затем результаты исследования, его основные выводы формулируются в содержательных терминах. Если исследование проводилось в рамках математико-статистических методов и моделей, то его выводы формулируются в терминах оценок неизвестных параметров анализируемой системы или в видеответа на вопрос о справедливости проверяемой статистической гипотезы и сопровождаются гарантируемыми количественными оценками степени их достоверности. Если же исследование осуществлялось средствами анализа данных (т. е. в рамках второго подхода), то его выводы не претендуют на вероятностную интерпретацию.

В заключение проверяется, в какой мере достигнуты намеченные на этапе 1 содержательные цели работы, и, если достигнуты не все из них, то объясняется, почему. Работа завершается содержательной формулировкой новых задач, вытекающих из проведенного исследования.

В некоторых руководствах по общей теории статистики (см., например, [64]) этапы 5, 6 и 7 объединены в одном этапе, названном «Обработка и анализ».

Резюмируя описание общей логической схемы статистического анализа исходных данных, отметим, что основные приемы статистического моделирования и методы первичной статистической обработки являются главными в ходе реализации важнейших этапов 1, 4 и 7, а также по мере необходимости могут привлекаться при реализации этапов 3, 5 и 6.

<< Предыдущий параграф

Следующий параграф >>

Оглавление

ПРЕДИСЛОВИЕ
Раздел I. ПРИКЛАДНАЯ СТАТИСТИКА: ЕЕ СУЩНОСТЬ И НАЗНАЧЕНИЕ (общие методические принципы)
Глава 1. ПРИКЛАДНАЯ СТАТИСТИКА КАК САМОСТОЯТЕЛЬНАЯ НАУЧНАЯ ДИСЦИПЛИНА
1.2. Оптимизационная формулировка основных задач прикладной статистики и проблема устойчивости статистического вывода
1.2.1. Связь между оптимизационной формулировкой основных задач прикладной статистики и проблемой устойчивости статистического вывода.
1.2.2. Проблема статистического исследования зависимостей между анализируемыми показателями.
1.2.3. Проблема классификации объектов или признаков.
1.2.4. Снижение размерности исследуемого факторного пространства и отбор наиболее информативных признаков.
Выводы
Глаза 2. ТЕОРЕТИКО-ВЕРОЯТНОСТНЫЙ СПОСОБ РАССУЖДЕНИЯ В ПРИКЛАДНОЙ СТАТИСТИКЕ
2.1.1. Статистический ансамбль и «игра случая».
2.1.2. Теория вероятностей и условия статистического ансамбля.
2.1.3. Основные типы реальных ситуаций с позиций соблюдения условий статистического ансамбля.
2.2. «Взаимоотношения» теории вероятностей и математической статистики
2.2.2. Теоретико-вероятностный способ решения.
2.2.3. Вероятностно-статистический (или математико-статистический) способ принятия решения.
ВЫВОДЫ
Глава 3. МАТЕМАТИЧЕСКИЕ МОДЕЛИ В ПРИКЛАДНОЙ СТАТИСТИКЕ
3.1.1. О двух подходах к статистическому моделированию.
3.1.2. Понятие математической модели.
3.2. Общая логическая схема и основные этапы содержательного математического моделирования
3.2.2. Моделирование механизма явления вместо формальной статистической фотографии.
3.3. Понятие о статистическом моделировании
3.4. Возражения против математических моделей
3.5. Наиболее распространенные типы математических моделей, используемых в прикладной статистике
3.5.1. Модели законов распределения вероятностей случайных величин.
3.5.2. Линейные вероятностные модели.
3.5.3. Обобщение линейных моделей.
3.5.4. Геометрические модели.
3.5.5. Модели марковского типа.
Выводы
Раздел II. ОСНОВЫ ТЕОРЕТИКО-ВЕРОЯТНОСТНОГО МАТЕМАТИЧЕСКОГО АППАРАТА
4.1.1. Наблюдение, зафиксированное на объекте исследуемой совокупности (случайный эксперимент).
4.1.2. Случайные события и правила действий с ними.
4.1.3. Вероятностное пространство. Вероятности и правила действия с ними.
4.2. Непрерывное вероятностное пространство (аксиоматика А. Н. Колмогорова)
4.2.1. Специфика общего (непрерывного) случая вероятностного пространства.
4.2.2. Случайные события, их вероятности и правила действий с ними (аксиоматический подход А. Н. Колмогорова).
Выводы
Глава 5. случайные величины (исследуемые признаки)
5.1. Определение и примеры случайных величин
5.2. Возможные и наблюденные значения случайной величины
5.3. Типы случайных величин
5.4. Закон распределения вероятностей случайной величины. Генеральная совокупность и выборка из нее
5.4.1. Закон распределения вероятностей.
5.4.2. Генеральная совокупность и выборка из нее.
5.4.3. Основные способы организации выборки.
5.5. Способы задания закона распределения: функция распределения, функция плотности и их выборочные (эмпирические аналоги)
5.5.1. Функция распределения вероятностей одномерной случайной величины.
5.5.2. Функция плотности вероятности одномерной случайной величины.
5.5.3. Многомерные функции распределения и плотности. Статистическая независимость случайных величин.
5.6. Основные числовые характеристики случайных величин и их выборочные аналоги
5.6.1. Понятие о математических ожиданиях и моментах.
5.6.2. Характеристики центра группирования значений случайной величины.
5.6.3. Характеристики степени рассеяния случайной величины.
5.6.4. Вариационный ряд и порядковые статистики.
5.6.5. Квантили и процентные точки распределения.
5.6.6. Асимметрия и эксцесс.
5.6.7. Основные характеристики многомерных распределений (ковариации, корреляции, обобщенная дисперсия и др.).
Выводы
Глава 6. МОДЕЛИ ЗАКОНОВ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ, НАИБОЛЕЕ РАСПРОСТРАНЕННЫЕ В ПРАКТИКЕ СТАТИСТИЧЕСКИХ ИССЛЕДОВАНИИ
6.1. Законы распределения, используемые для описания механизмов реальных процессов или систем
6.1.2. Гипергеометрическое распределение.
6.1.3. Распределение Пуассона.
6.1.4. Полиномиальное (мультиномиальное) распределение.
6.1.5. Нормальное (гауссовское) распределение.
6.1.6. Логарифмически-нормальное распределение.
6.1.7. Равномерное (прямоугольное) распределение.
6.1.8. Распределение Вейбулла и экспоненциальное (показательное).
6.1.9. Распределение Парето.
6.1.10. Распределение Коши.
6.1.11. Некоторые комбинации основных модельных распределений, используемые в прикладной статистике.
6.2. Законы распределений вероятностей, используемые при реализации техники статистических вычислений
6.2.1. «хи квадрат»-распределение.
6.2.2. Распределение Стьюдента (t-распределение).
6.2.3. F-распределение (распределение дисперсионного отношения).
6.2.4. Замечание о нецентральных «хи-квадрат» и F- и t-распределениях.
6.2.5. Г-распределение.
6.2.6. В-распределение.
6.3. Техника статистического моделирования наблюдений, подчиняющихся заданному распределению
6.3.1. Получение равномерно распределенных на отрезке [0, 1] случайных чисел.
6.3.2. Моделирование дискретных случайных величин.
Выводы
Глава 7. ОСНОВНЫЕ РЕЗУЛЬТАТЫ ТЕОРИИ ВЕРОЯТНОСТЕЙ
7.1. Неравенство Чебышева
7.2. Свойство статистической устойчивости выборочных характеристик: закон больших чисел и его следствия
7.2.1. Закон больших чисел.
7.2.2. Теорема Я. Бернулли.
7.2.3 Статистическая устойчивость выборочных характеристик.
7.3. Особая роль нормального распределения: центральная предельная теорема
7.3.1. Центральная предельная теорема.
7.3.2. Многомерная центральная предельная теорема.
7.4. Закон распределения вероятностей случайных признаков, являющихся функциями от известных случайных величин
Выводы
Раздел III. ОСНОВЫ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
Глава 8. СТАТИЧЕСКОЕ ОЦЕНИВАНИЕ ПАРАМЕТРОВ
8.1. Начальные сведения о задаче статистического оценивания параметров
8.1.2. Статистики, статистические оценки, их основные свойства.
8.1.3. Состоятельность.
8.1.4. Несмещенность.
8.1.5. Эффективность.
8.2. Функция правдоподобия. Количество информации, содержащееся в n независимых наблюдениях относительно неизвестного значения параметра
8.3. Неравенство Рао—Крамера—Фреше и измерение эффективности оценок
8.4. Асимптотические свойства оценок
8.5. Понятие об интервальном оценивании. Построение доверительных областей
8.6. Методы статистического оценивания неизвестных параметров
8.6.1. Метод максимального (наибольшего) правдоподобия.
8.6.2. Метод моментов.
8.6.3. Метод наименьших квадратов.
8.6.4. Оценивание с помощью «взвешенных» статистик; цензурирование, урезание выборок и порядковые статистики как частный случай взвешивания.
8.6.5. Построение интервальных оценок (доверительных областей).
8.6.6. Байесовский подход к статистическому оцениванию.
Выводы
Глава 9. СТАТИСТИЧЕСКАЯ ПРОВЕРКА ГИПОТЕЗ (статистические критерии)
9.1. Основные типы гипотез, проверяемых в ходе статистической обработки данных
9.1.1. Гипотезы о типе закона распределения исследуемой случайной величины.
9.1.2. Гипотезы об однородности двух или нескольких обрабатываемых выборок или некоторых характеристик анализируемых совокупностей.
9.1.3. Гипотезы о числовых значениях параметров исследуемой генеральной совокупности.
9.1.4. Гипотезы о типе зависимости между компонентами исследуемого многомерного признака.
9.1.5. Гипотезы независимости и стационарности обрабатываемого ряда наблюдений.
9.2. Общая логическая схема статистического критерия
9.3. Построение статистического критерия; принцип отношения правдоподобия
9.3.1. Сущность принципа отношения правдоподобия.
9.3.2. Проверка простой гипотезы с помощью критерия логарифма отношения правдоподобия.
9.3.3. Проверка сложной гипотезы.
9.4. Характеристики «качества» статистического критерия
9.5. Последовательная схема принятия решения (последовательные критерии)
9.5.1. Последовательная схема наблюдений.
9.5.2. Последовательный критерий отношения правдоподобия (критерий Вальда) и его свойства.
9.5.3. Различение сложных гипотез в схеме обобщенного последовательного критерия.
Выводы
Раздел IV. ПЕРВИЧНАЯ СТАТИСТИЧЕСКАЯ ОБРАБОТКА ДАННЫХ
10.1. Документирование исследования; организация ввода и хранения данных в ЭВМ; просмотр данных
10.1.2. Ввод и хранение данных.
10.1.3. Просмотр данных.
10.2. Шкалы измерений
10.3. Изучение эмпирических распределений
10.3.1. Гистограмма.
10.3.2. Непараметрические оценки плотности.
10.3.3. Оценки функции распределения.
10.3.4. Преобразование переменных.
10.3.5. Таблицы сопряженности.
10.4. Оценивание параметров сдвига и масштаба
10.4.2. Оценивание параметров нормального закона.
10.4.3. Графический метод оценивания.
10.4.4. Проблема устойчивости оценок при небольших отклонениях распределения от нормального.
10.4.5. Оценивание положения центра симметричных распределений.
10.4.6. Параметризация с помощью экспоненциально взвешенных оценок (ЭВ-оценки).
10.5. Визуализация многомерных данных
10.5.2. Главные компоненты.
10.5.3. Свойства наименьшего искажения геометрической структуры для главных компонент.
10.5.4, Нелинейные отображения в пространство малой размерности.
10.5.5. Многомерное метрическое шкалирование.
Выводы
Глава 11. ПРЕДВАРИТЕЛЬНЫЙ АНАЛИЗ ПРИРОДЫ ДАННЫХ
11.1. Проверка соответствия выбранной модели распределения исходным данным (критерии согласия)
11.1.1. Критерий «хи-квадрат» Пирсона.
11.1.2. Проверка нормального характера распределения по асимметрии, эксцессу и средним отклонениям.
11.1.3. Критерий Колмогорова — Смирнова и его применение к построению доверительных границ для неизвестной функции распределения.
11.1.4. Критерий Крамера — Мизеса — Смирнова.
11.1.5. Модификация статистик критериев Колмогорова — Смирнова и для выборок небольшого объема.
11.1.6. Статистическая техника практической реализации непараметрических критериев согласия.
ll.1.7. Использование критериев согласия Колмогорова и «w-квадрат» в случае неизвестных параметров для проверки гипотезы о нормальном характере распределения.
11.2. Проверка гипотез однородности и симметрии распределения
11.2.1. Критерии однородности, основанные на эмпирических функциях распределения.
11.2.2. Критерий однородности «хи-квадрат»
11.2.3. Ранговые критерии однородности.
11.2.4. Непараметрическая проверка гипотезы равенства дисперсий.
11.2.5. Ранговые критерии для случая k > 2 классов.
11.2.6. Критерии проверки симметрии распределений.
11.2.7. Обработка совпадений.
11.2.8. Критерии однородности нормальных совокупностей (одномерный случай).
11.2.9. Критерии однородности многомерных нормальных совокупностей.
11.3. Проверка независимости и стационарности ряда наблюдений
11.3.1. Критерий серий, основанный на медиане выборки.
11.3.2. Критерий «восходящих» и «нисходящих» серий.
11.3.3. Критерий квадратов последовательных разностей (критерий Аббе).
11.4. Методы статистической обработки при наличии «стертых» (пропущенных) наблюдений
11.4.1. Оценивание неизвестных параметров при наличии пропущенных данных.
11.4.2. Использование главных компонент.
11.4.3. Заполнение «пропусков» и оценивание параметров с помощью метода максимального правдоподобия. Оценки «неподвижной точки».
11.4.4. Непараметрический подход к оценке пропусков в матрице данных.
11.5. Анализ резко выделяющихся наблюдений
11.5.2 Графические методы.
11.5.3. Аналитический метод исключения одного экстремального наблюдения.
11.5.4. Аналитический критерий одновременного исключения нескольких экстремальных наблюдений.
Выводы
Глава 12. ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ПРИКЛАДНОЙ СТАТИСТИКИ И НЕКОТОРЫЕ ВОПРОСЫ ТЕХНИКИ ВЫЧИСЛЕНИЙ
12.1. Программное обеспечение прикладной статистики
12.1.1. Организация пакетов программ.
12.1.2. Вопросы организации возможности ведения данных.
12.1.3. Средства предварительной обработки (манипуляции) данных.
12.1.4. Возможности обработки данных при наличии пропущенных значений.
12.1.5. Первичная обработка неколичественных данных.
12.1.6. Средства визуализации данных.
12.1.7. Оценивание параметров и выделение аномальных наблюдений.
12.2. Вычисление функций распределения и обратных к ним
12.2.1. Нормальное распределение.
12.2.2. Распределение «хи-квадрат».
12.2.3. Бета-распределение.
12.2.4. F-распределение.
12.2.5. t-распределение Стьюдента.
12.2.6. Нецентральные распределения.
12.2.7. Аппроксимация «хвостов» распределений типа «w-квадрат»
12.2.8. Многомерное нормальное распределение.
12.2.9. Дискретные распределения.
12.2.10. Вычисление математического ожидания порядковых статистик.
Выводы
ИСПОЛЬЗУЕМЫЕ В КНИГЕ ОБОЗНАЧЕНИЯ
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ