Главная > Математика > Прикладная статистика: Исследование зависимостей
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Глава 3. АНАЛИЗ СВЯЗЕЙ МЕЖДУ КЛАССИФИКАЦИОННЫМИ (НОМИНАЛЬНЫМИ) ПЕРЕМЕННЫМИ

3.1. Таблицы сопряженности

Ограничимся рассмотрением таблиц с двусторонней группировкой. Для них сформулированы основные гипотезы и указаны методы их проверки, описана логарифмически-линейная параметризация, приведены различные меры зависимости между строками и столбцами таблицы. Вводятся понятия энтропии случайной величины и информации, содержащейся в одной случайной величине относительно другой случайной величины, представляющие самостоятельный интерес.

Методы изучения таблиц с тремя и более входами можно найти в [23, 75, 154, 168, 199, 238].

3.1.1. Три основные выборочные схемы, приводящие к таблицам сопряженности.

Схема I возникает в случае, когда распределения строк (столбцов) таблицы можно рассматривать как независимые выборки из полиномиальных распределений с вероятностями и фиксированным числом наблюдений Такая организация данных обычно возникает, когда хотят сравнить между собою несколько одномерных распределений, представленных выборками заранее заданного объема. Наиболее важная гипотеза для первой схемы

Гипотезу называют гипотезой однородности (см. [14, п. 1.1.3 и 11.2]).

Схема II. Предполагается, что имеют Полиномиальное распределение с вероятностями и фиксированным числом наблюдений

Таблица сопряженности в этом случае является обычной двумерной гистограммой для наблюдений, а аналогом (3.1) — гипотеза

где Если воспользоваться определением условной вероятности [14, п. 4.1.3], то (попасть в клетку быть в ряду (быть в столбце Поэтому гипотезу называют гипотезой независимости.

Схема III возникает, когда в схеме II общее число наблюдений рассматривается как случайная величина. Ее важным частным случаем является случай, когда имеет распределение Пуассона. В этом случае все независимы между собою и также имеют распределение Пуассона с параметрами Аналогом (3.1), (3.2) является гипотеза

где Гипотезу называют мультипликативной пуассоновской моделью, или, короче, гипотезой мультипликативности. В качестве примера схемы III может быть рассмотрена следующая задача. Пусть — число дорожно-транспортных происшествий, зарегистрированных в какой-либо местности в i-й день на дорогах типа. Параметры в этом случае отражают ожидаемое число дорожно-транспортных происшествий. Если использование транспортом дорог разного типа существенно зависит от дня недели, то гипотеза вероятно, не верна. Однако она может иметь место, если, например, рассматривать только рабочие дни.

Существует приближенный графический тест для проверки гипотезы . Он заключается в том, что для каждого строится график, в котором по оси абсцисс откладываются точки , а по оси ординат — Если гипотеза верна, то нанесенные точки должны группироваться вокруг линии, проходящей через начало координат с наклоном

Вероятность выхода заданной точки за пределы не более 0,05. Использование такого графического представления позволяет сразу же локализовать пары в которых происходит значимое отклонение от

Можно доказать, что если в схеме III зафиксировать то она переходит в схему II с При этом переходит в Аналогично, если зафиксировать в схеме II суммы по рядам, положив схема Н переходит в схему I с . Поэтому следует ожидать, что в математической трактовке схем I, II, III должно быть много общего.

<< Предыдущий параграф Следующий параграф >>
Оглавление