Главная > Математика > Прикладная статистика: Классификации и снижение размерности
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

1.1.2. Основные математические модели.

Ниже, там, где это не вызывает недоразумений, для случайной величины и ее конкретного значения будет использоваться одно и то же обозначение X. Это позволит сделать формулы более v обозримыми. При этом запись в случае непрерывного распределения X будет означать плотность распределения случайной величины X в точке X, а в случае дискретного распределения X — соответственно вероятность того, что случайная величина X примет конкретное значение X. Рассмотрим четыре основные модели.

Модель двух дискретных распределений с независимыми координатами. В этом случае для

и области принятия гипотез имеют вид

где с — некоторая постоянная и

Естественно трактовать как балл в пользу против приписанный соответствующему значению координаты. Алгоритмы вида (1.5) из-за их простоты и наглядности часто используют в практической работе, хотя служащая их основанием модель весьма искусственна. Чтобы уменьшить влияние на результаты классификации несоответствия модели данным, в формуле (1.5) берут не все координаты X, а только их подмножество , подбирая так, чтобы вместе взятые они оставались достаточно информативными в отношении различения и зависимость между ними (при фиксации гипотезы

— 1, 2) была небольшой. Кроме того, для уменьшения эффекта зависимости при определении баллов (оцифровке значений ) для зависимых координат отступают от формулы (1.7), подбирая так, чтобы оптимизировать выбранный показатель качества классификации среди всех правил вида (1.6).

Разность ожидаемых значений при

где суммирование проводится по всем возможным значениям рассматривают в качестве параметра, характеризующего среднюю информативность k-й координаты в различении гипотез . Основание для этого обсуждается в п. 1.2.4.

Модель двух дискретных распределений с одной и той же древообразной структурой зависимостей координат (ДСЗ-распределеиий). Функция правдоподобия для ДСЗ-распределений имеет вид [12, § 4.2]

где — некоторая перестановка координат вектора соответствует фиктивной координате . Применение критерия отношения правдоподобия дает области вида

где

(1.11)

Если координаты X (при фиксированной гипотезе или независимы, то оцифровки (1.7) и (1.11) совпадают. В литературе встречаются указания на большую практическую эффективность правил классификации, основанных на формулах (1.10) и (1.11), по сравнению с классификацией с помощью формул (1.6) и (1.7) [127].

Модель двух нормальных распределений с общей ковариационной матрицей (модель Фишера). Теоретические распределения в этом случае суть , причем Правило классификации, соответственно и К, определяется с помощью неравенств

Особенность модели Фишера состоит в том, что это простейшая математическая модель, допускающая произвольную ковариационную матрицу координат , лишь бы только она не была вырожденной. Необычайно просто выглядит в модели и граница между областями принятия гипотез . Это гиперплоскость в -мерном пространстве, касательная в одной и той же точке к одной из линий постоянного уровня плотности и одной из линий постоянного уровня плотности (рис. 1.1).

Рис. 1.1. Классификация плоскостью двух нормальных распределений с общей ковариационной матрицей

Модель двух нормальных распределений с разными ковариационными матрицами. Распределения в этом случае суть

Области определяются выражением

Здесь h (X) — полином второго порядка от координат X.

<< Предыдущий параграф Следующий параграф >>
Оглавление