Главная > Математика > Прикладная статистика: Классификации и снижение размерности
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

1.1.3. Классификация посредством задания границы критической области.

Как показано в предыдущем пункте, для основных статистических моделей граница, разделяющая — области принятия соответственно выглядит достаточно просто. На практике в случаях, когда исходные распределения отличаются от базовых моделей, рассмотренных в предыдущем пункте, пренебрегают возможностью повышения эффективности классификации за счет точного следования критерию отношения правдоподобия (1.1) и ограничиваются областями принятия гипотез с границами, принадлежащими какому-либо простому малопараметрическому семейству.

При этом по-прежнему остается задача поиска критерия, наилучшего в заданном смысле (см. п. 1.1.4) среди допустимых (предположениями о границе) областей.

Классификация посредством линейной гиперплоскости.

Рассмотрим модель (1.13) двух нормальных распределений с различными средними и ковариационными матрицами и попытаемся найти гиперплоскость такую, чтобы критерий вида

минимизировал ошибку классификации второго рода при заданной ошибке классификации первого рода а [178]. Введем необходимые обозначения. Пусть для

Поскольку линейная комбинация нормально распределенных случайных величин распределена нормально, из (1.15) — (1.17) следует, что

где

Для отыскания V и воспользуемся методом множителей Лагранжа. Пусть тогда

Исключив из уравнения (1.20) с помощью уравнения (1.21) множитель к, получаем

Предположим для простоты, что хотя бы одна из матриц положительно определена и что меньше 0,5. Тогда, как нетрудно видеть, матрица, стоящая в квадратных скобках в правой части (1.23), положительно определена и имеет обратную. Воспользуемся последним обстоятельством для решения системы (1.20) — (1-22). Обозначим . В сделанных выше предположениях 0 и . Из (1.23) следует, что

Далее, заменив по формулам (1.16) в определении s, получаем

Вычислительная процедура теперь может быть следующей:

1) для каждого при вычисляется значение по формуле (1.24) и далее последовательно по формулам (1.17), (1.25), (1.16), (1.18), (1.19) находятся

2) на двумерной плоскости строится график кривой

3) пусть этот график пересекается с прямой при Тогда искомый критерий

Достоинство этой процедуры состоит в том, что для настройки используется только один параметр s, а не параметров, как при поиске решения напрямую в пространстве Одновременное приведение к диагональному виду матриц в начале работы дает дальнейшую экономию общего объема вычислений.

Кусочно-линейные классификаторы. Пусть пространство наблюдений разбито на k взаимно непересекающихся подобластей для — уравнения линейных плоскостей. Классификатор вида

будем называть кусочно-линейным [44, с. 94—95].

Один из приемов приближенного малопараметрического описания многомерных распределений заключается в том, что их представляют в виде конечной смеси однотипных нормальных законов, отличающихся только параметрами сдвига

или

При применении преобразования сводится к (1.28). В практической работе наиболее часто используется представление (1.28) [166, 168, 1691, при этом векторы называют центрами или эталонами.

Рассмотрим задачу классификации распределений

Оптимальный критерий согласно (1.1) должен задаваться с помощью

На практике часто оставляют в суммах в числителе и знаменателе (1.30) по одному слагаемому, для которого соответствующий эталон наиболее близок к X, пренебрегают различиями в весах . При этом наблюдение X относится к той популяции, к наиближайшему эталону которой оно ближе. Полученный классификатор называется кусочно-линейным классификатором по минимуму расстояния. Разделяющая поверхность в этом случае является кусочно-линейной, состоящей из кусков гиперплоскостей. Вид разделяющей поверхности может быть разнообразным и зависит от взаимного расположения классифицируемых совокупностей (рис. 1.2).

Статистические вопросы, связанные с применением к моделям (1.28) описанного выше кусочно-линейного классификатора, исследовались в [168, 169].

<< Предыдущий параграф Следующий параграф >>
Оглавление