ЕГЭ и ОГЭ
Хочу знать
Главная > Математика > Прикладная статистика: Основы моделирования и первичная обработка данных
<< Предыдущий параграф
Следующий параграф >>
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

8.6.4. Оценивание с помощью «взвешенных» статистик; цензурирование, урезание выборок и порядковые статистики как частный случай взвешивания.

Выборочные моменты всегда являются состоятельными оценками соответствующих теоретических моментов если последние существуют (см. § 7.2). Однако не во всякой генеральной совокупности они являются наиболее эффективными оценками. Так, например, мы видели (см. п. 8.6.1 и 8.6.2), что эффективность оценки среднего значения исследуемой случайной величины с помощью выборочного среднего существенно зависит от типа анализируемой генеральной совокупности: для нормальной генеральной совокупности она равна единице (см. пример 8.3 в п. 8.6.1), а для совокупности, подчиненной равномерному закону распределения, существенно меньше единицы и в сравнении, например, с эффективностью оценки

имеет (асимптотически по ) порядок (см. пример 8.5 в п. 8.6.1, 8.6.2). Для построения оценки (8.41) нами использованы только два наблюдения из имеющихся наименьшее и наибольшее, т. е. оценка (8.41) относится к классу «взвешенных» порядковых статистик где по величине (в порядке возрастания) наблюдение, а его «вес» (очевидно, в статистике (8.41) принято , а все остальные со равны нулю).

В реальной ситуации исследуемое распределение может не укладываться (в точности) ни в одну из используемых моделей, описанных, например, в гл. 6, а занимать в некотором смысле «промежуточное» положение. Один из вариантов формального описания такого промежуточного положения для симметричных (относительно параметра группирования ) распределений предложен Дж. Тьюки (см. [141], а также п. 6.1.11):

где — плотность вероятности исследуемой случайной величины; — плотность нормального закона со средним значением а и дисперсией — плотность некоторого другого («засоряющего») закона распределения, симметричного относительно того же самого центра группирования и зависящего, быть может, от какого-то еще параметра , а — доля «засорения», т. е. доля тех наблюдений в исследуемой общей генеральной совокупности, которые подчинены закону «засоряющего» распределения

В табл. 8.1 представлены значения эффективностей оценок (выборочного среднего) и (выборочной медианы) параметра а в зависимости от характера и степени засорения анализируемого распределения. Расчеты произведены с помощью сочетания аналитического метода, использующего знание вида распределения в различных генеральных совокупностях (см. п. 5.6.4) — и метода статистического моделирования на ЭВМ (см. § 6.3) на достаточно больших выборках из обсуждаемых генеральных совокупностей

Таблица 8.1

Мы видим, что, чем «тяжелее хвосты» засоряющего распределения (т. е. чем медленнее стремится к нулю плотность ) по мере удаления от центра группирования а), тем резче ослабевает эффективность оценки в то время как выборочная медиана демонстрирует удивительную устойчивость своих хороших свойств. Выборочная медиана относится к классу «взвешенных» порядковых статистик, т. е. статистик вида Для ее получения в качестве частного случая статистик этого класса достаточно положить нулю все веса кроме одного если нечетно) или кроме двух если четно).

Далее, в п. 10.4.4, 10.4.5 и 10.4.6, а также в § 11.5, рассматриваются некоторые конкретные задачи статистического оценивания неизвестных параметров, при решении которых используются различные варианты взвешенных статистик. Здесь же мы коротко остановимся лишь на описании основных подходов, связанных с использованием взвешенных статистик, и на классификации их типов.

Взвешивание выборочных данных . В общем случае наблюдению приписывается вес который определяется как некоторая функция от его текущего значения. Обычно веса подчиняют условию нормировки . В частности, можно рассматривать взвешенные моменты случайной величины с плотностью как выборочные , так и теоретические

Возможности и сущность этого подхода рассматриваются в п. 10.4.6.

Если имеют дело с результатами наблюдения одномерной случайной величины то часто вес наблюдения определяют в зависимости от его порядкового номера в упорядоченном (по возрастанию) ряду наблюдений, т. е. располагают наблюдения в вариационный ряд (см. п. 5.6.4) и каждому члену вариационного ряда ставят в соответствие некоторый вес .

Примеры такого рода взвешивания (которое приводит к так называемым порядковым статистикам) приведены выше. Некоторые другие варианты оценок этого типа рассмотрены в п. 10.4.4 и 10.4.5.

Цензурирование выборки. Этот прием заключается в приписывании ряду «хвостовых» членов вариационного ряда нулевых весов, а остальным — одинаковых положительных. Если приписывание нулевых весов производится по признаку выхода текущих значений наблюдений за пределы заданного диапазона [а, b], т. е.

то говорят о цензурировании типа I. Очевидно, в этом случае число v оставшихся в рассмотрении наблюдений есть величина случайная

Если же нулевые веса приписываются фиксированной доле а крайних малых значений и фиксированной доле крайних больших значений, то говорят, что производится цензурирование типа II уровня . В этом случае число v оставшихся в рассмотрении наблюдений является величиной заранее заданной и равной, в частности,

Исследователь может прибегнуть к цензурированию вынужденно или добровольно. Вынужденное цензурирование обусловлено соответствующими условиями эксперимента: например, мы ставим на разрушающие испытания изделий, но можем производить эксперимент в течение ограниченного времени Т. Очевидно, мы будем вынуждены произвести в данном случае одностороннее цензурирование типа I, при котором из дальнейшего рассмотрения исключаются точные значения долговечностей (времени до разрушения) всех тех изделий, которые не разрушились за время Т.

С другой стороны, в классе оценок, построенных по цензурированным выборкам, часто можно найти оценки, хотя и не являющиеся наилучшими в жестких рамках генеральной совокупности определенного типа, но обладающие выгодными свойствами устойчивости своих хороших качеств по отношению к тем или иным отклонениям от априорных допущений (см. выше пример со сравнением выборочного среднего и медианы).

Урезание распределения. Это понятие связано с ситуациями, когда исследуемый признак просто не может быть наблюдаем в какой-либо части области его возможных значений. Так, например, если мы исследуем распределение семей по доходу, но по условиям выборочного обследования лишены возможности наблюдать семьи со среднедушевым доходом, меньшим некоторого заданного уровня , то в подобных случаях говорят, что распределение урезано слева в точке а. В отличие от цензурированных выборок в выборках из урезанных распределений мы не имеем возможности оценить даже доли наблюдений, располагающихся за пределами порога урезания.

Весьма подробные сведения об использовании в задачах статистического оценивания параметров взвешенных и, в частности, порядковых статистик и статистик, построенных по цензурированным выборкам, с обсуждением различных вопросов устойчивости получаемых при этом оценок читатель найдет, например, в [40, гл. 32]) и [29].

<< Предыдущий параграф Следующий параграф >>
Оглавление