Главная > Математика > Прикладная статистика: Классификации и снижение размерности
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Раздел I. ОТНЕСЕНИЕ К ОДНОМУ ИЗ НЕСКОЛЬКИХ КЛАССОВ, ЗАДАННЫХ ПРЕДПОЛОЖЕНИЯМИ И ОБУЧАЮЩИМИ ВЫБОРКАМИ

Глава 1. КЛАССИФИКАЦИЯ В СЛУЧАЕ, КОГДА РАСПРЕДЕЛЕНИЯ КЛАССОВ ОПРЕДЕЛЕНЫ ПОЛНОСТЬЮ

1.1. Два класса, заданные функциями распределения

1.1.1. Критерий отношения правдоподобия как правило классификации.

В настоящей главе наблюдение всегда является упорядоченным набором из признаков - координат. Событие, что наблюдение извлечено из класса, а также соответствующая гипотеза обозначаются Ну, распределение вектора X, принадлежащего классу обозначается плотности вероятностей (вероятности) — соответственно

Задача построения классификационных правил рассматривается при двух способах задания распределений X в классах: аналитическом, когда непосредственно задаются с помощью подходящей математической формулы, и выборочном, когда распределения в классах задаются с помощью указания соответствующих генеральных совокупностей. Сюда в принципе можно было бы отнести и случаи дискриминантного анализа с выборками настолько большого объема, что выборочными флуктуациями используемых статистик можно пренебречь (§ 1.3).

Задача отнесения наблюдения X в один из двух ранее Известных классов тесно связана с классической статистической задачей проверки простой гипотезы против простой альтернативы [11, § 9.3]. Например, гипотезы против гипотезы Известно (лемма Неймана — Пирсона), что в достаточно широком классе ситуаций [88] среди всех возможных критериев с ошибкой первого рода а наиболее мощным, т. е. имеющим наименьшую ошибку второго рода является критерий отношения правдоподобия, основанный на статистике

где L — функция правдоподобия [11, с. 269].

При этом при принимается гипотеза а при принимается гипотеза Таким образом, — пространство возможных значений X — с помощью разбивается на две непересекающиеся области:

— область принятия , и — область принятия или, как принято говорить в статистической теории проверки гипотез, критическую область для гипотезы

Пусть означает априорные вероятности гипотез. Правило классификации

называется байесовским. Очевидно, оно является частным случаем критерия отношения правдоподобия.

Рассмотрим произвольный критерий проверки гипотезы с критической областью (областью принятия гипотезы ? Тогда по формуле полной вероятности , формула (4.14)] вероятность принять ошибочное решение

Интеграл в правой части (1.3) принимает наименьшее значение в случае, когда область К состоит из всех точек, где подынтегральная функция отрицательна, т. е. , но это и есть определение байесовского классификатора. Таким образом, байесовский классификатор минимизирует вероятность принятия ошибочного решения.

Как будет видно из последующего материала, большинство используемых на практике алгоритмов классификации строится исходя из формулы (1.1). При этом либо оцениваются неизвестные параметры 0 предполагаемых теоретических распределений и вместо в в плотности подставляются оценки в и далее вычисляется оценка как

Это так называемые параметрические методы построения алгоритмов классификации. Либо для данной точки X сразу, мииуя оценку параметров 0, строится оценка отношения . Это так называемые непараметрические методы.

Введем несколько моделей, используемых в теоретических исследованиях задачи классификации, и применим к ним критерий отношения правдоподобия для получения соответствующих критических областей. При этом удобно вместо использовать .

<< Предыдущий параграф Следующий параграф >>
Оглавление