Главная > Математика > Прикладная статистика: Исследование зависимостей
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

13.2. Однофакторный дисперсионный анализ

13.2.1. Представление в виде регрессионной модели.

Математическая модель однофакторного ДА имеет вид

где — неизвестные константы, удовлетворяющие равенству

— некоторая заданная (вводимая исследователем) система — случайные погрешности, независимые между собой и имеющие нормальное распределение с нулевым средним и неизвестной дисперсией

С содержательной точки зрения однофакторный анализ можно рассматривать как рядов (каждый ряд длины ) независимых наблюдений над нормально распределенными случайными величинами со средними и дисперсией

Используя векторную запись, модель (13.2) можно представить в виде

или в обозначениях главы 7 (положив для краткости

где -вектор наблюдений; -матрица плана экспериментов, имеющая ранг -вектор неизвестных констант и -вектор случайных погрешностей. Векторы У к иногда обозначают так же, как или . В дальнейшем мы будем пользоваться первым из этих обозначений.

В ДА обычно проверяется гипотеза об отсутствии влияния рассматриваемых неколичественных переменных на результирующий показатель, т. е. -критерий для проверки этой гипотезы задается с помощью статистики (см. гл. 7).

где , а имеющей при правильности гипотезы -распределение с числом степеней свободы (в числителе) и (в знаменателе). Минимизация ОСК легко выполняется методом Лагранжа. ОСК достигает минимума при оценка среднего в ряду наблюдений; ОСК (достигает минимума при и равно . Путем несложных алгебраических преобразований получаем

так как сумма со смешанными произведениями равна нулю.

Откуда и критерий принимает вид

Числитель F обозначают , а знаменатель — . Таким образом, если окажется, что подсчитанная по формуле (13.5') (или (13.5)) величина F превосходит значение -ной точки -распределения с числом степеней свободы числителя, равным и знаменателя — (см. табл. П.5), то гипотеза Н отвергается (с уровнем значимости критерия, равным а). Различные суммы квадратов, встречающиеся в ДА, принято располагать в виде специальной таблицы ДА для однофакторного анализа (табл. 13.1). Последний столбец таблицы объяснен в следующем пункте.

Таблица 13.1

Терминология для сумм, используемых в столбце «источникизменчивости», в разных работах разная. Так, вместо термина «между градациями» употребляют термины «между совокупностями», «между способами обработки»; вместо термина «ошибка» говорят о сумме квадратов «внутри групп», «внутри совокупностей», «остаточной» сумме квадратов.

13.2.2. Геометрический смысл ДА.

Хотя общие вопросы проверки гипотез в случае линейной регрессии уже рассмотрены в гл. 7, представляется интересным конкретизировать их в случае однофакторной модели ДА. Положим

и определим -мерные векторы аналогично тому, как это было сделано в предыдущем пункте:

Из модели (13.2) следует, что а

где

Из тождества

следует, что

Векторы взаимно ортогональны, что легко проверяется непосредственно, поэтому

Квадратичные формы, стоящие в правой части (13.7), взаимно независимы и имеют ранги, в силу определения и условия. (13.3), соответственно равные Поскольку ранг правой части (13.7) равен в силу теоремы Кохрана приложение VII), отсюда следует, что имеют -распределения с числами степеней свободы, равными их рангам. Таким образом, числитель и знаменатель критерия (13.5), (13.5) независимы, и F имеет -распределение с числами степеней свободы . В случае, когда Н не имеет места, F имеет нецентральное -распределение с тем же числом степеней свободы и параметром нецентральности равным в силу (13.6)

Диаграммы для нахождения мощности -критерия при заданных можно найти в [148].

13.2.3. Доверительные интервалы.

Если в результате применения -критерия гипотеза Н отвергается, то следующий шаг состоит в выяснении того, насколько параметры отличаются друг от друга. В частности, обычно представляют интерес разности вида и т. п. Эти линейные комбинации, имеющие вид где называются сравнениями или контрастами (contrast) параметров . Если бы линейная комбинация была задана до получения экспериментальных данных, то (1 — а) — доверительный интервал для — мы могли бы построить как

Однако на практике представляющие интерес сравнения составляются обычно после получения экспериментальных данных, т. е. тогда, когда уже известны оценки 0. Исследователь, опираясь на них, среди всех возможных сравнений отбирает те, которые кажутся ему наиболее важными. Применение формулы (13.9) к отобранным сравнениям не оправдано и приводит к более узкому, чем должно быть, доверительному интервалу. Тактика исследователя в этих условиях должна заключаться в том, чтобы отказавшись от индивидуального доверительного интервала строить доверительные интервалы множественные, которые одновременно выполнялись бы либо для всех возможных сравнений, либо для какого-либо выделенного подмножества сравнений. Наиболее известны три метода построения таких интервалов: -метод Шеффе, Т-метод Тьюки и метод уменьшения уровня критерия Стьюдента.

S-метод Шеффе опирается на следующее простое рассуждение:

(13.10)

Правая часть (13.10) состоит из двух сомножителей, первый из которых носит неслучайный характер, а второй не зависит от выбора распределен как и не зависит от Отсюда можно вывести, что величина второго сомножителя с вероятностью будет меньше, чем Следовательно, с вероятностью не меньшей 1 — а, для всех сравнений одновременно выполняется неравенство

(13,10)

Т-метод Тьюки применяется только к сравнениям вида — Пусть расположены в вариационный ряд, обозначим — наименьшее из них и — наибольшее. Для всех пар

(13.11)

Разность в правой части неравенства (13.11) при с вероятностью 1 — а ограничена величиной где -ная точка стьюдентизированного размаха с числом степеней свободы .

Метод уменьшения уровня критерия Стьюдента. Если требуется построить k доверительных интервалов, где k не слишком велико, то можно воспользоваться неравенством (13.9) с меньшим значением уровня . В этом случае вероятность того, что будут верны одновременно все k доверительных интервалов, не менее 1 — а.

Пример 13.1. Допустим, что Доверительные интервалы строятся только для разностей Тогда введенные выше три метода дают следующую длину доверительных интервалов (в единицах ).

S-метод: ;

Т-метод: ;

метод уменьшения уровня критерия Стьюдента в k раз:

Таким образом, наименее экономным оказался -метод, но это и естественно, так как в нем интервал рассчитан на произвольное сравнение.

<< Предыдущий параграф Следующий параграф >>
Оглавление