Главная > Математика > Прикладная статистика: Классификации и снижение размерности
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

2.6. Метод структурной минимизации риска

Одна из основных трудностей традиционных алгоритмов дискриминантного анализа состоит в том, что они существенно зависят от субъективных предположений (см. п.2.1.1), которые трудно и не всегда можно проверить по имеющимся данным. Более того, исследователь порой знает, что предположения не верны, а продолжает ими пользоваться, так как они, существенно ограничивая класс возможных решающих правил, успешно работают в данной предметной области. Таким образом, результат применения дискриминантного анализа существенно субъективен, хотя сами алгоритмы полностью формализованы. Поэтому возникло направление исследований, рассчитанное на тех, кто не хотел бы начинать исследование с субъективных предположений. Цель его — не столько предложить эффективные рабочие формулы, сколько развить общую теорию оценивания и на ее основании доказать, что в принципе при можно найти решение и без априорных предположений. В основе нового подхода лежит известное понятие функции потерь. Для простоты изложения ограничимся случаем двух классов, для которого функция потерь

где — некоторый класс функций, принимающих значения и зависящих от абстрактного параметра a; F (X, у) — неизвестная функция распределения (X, у). При вычислениях Q(а) заменяют на ее выборочную оценку

(2.63)

Обозначим класс функций через S, обычно его выбирают заметно шире, чем класс функций, используемый в статистическом дискриминантном анализе. Это позволяет, с одной стороны, отказаться от априорных предположений, а с другой — служит источником трудностей, о которых речь ниже.

В классе S ищут минимум по Пусть он достигается при Далее строится оценка, показывающая, насколько могут отличаться . Эта оценка зависит от доверительной вероятности и имеет вид

где — известная непрерывная функция своих аргументов — объем выборки; h — новое фундаментальное понятие, называемое емкостью класса S [44, с. 195—196]. Оно характеризует число способов разделения выборки с помощью функций класса S. Поскольку это понятие не используется в дальнейшем, не будем его здесь определять, а отошлем читателя к оригинальным работам [44, 45]. Отметим только, что емкость в случае линейных от функций X правил вида

где - известные функции X.

Если бы были сделаны априорные предположения о классифицируемых распределениях, то можно было бы заранее сузить класс функций S, среди которых ищут минимум Фэмш и формула (2.64) давала бы оценку точности решения. Однако исходная целевая установка заключалась в отказе от априорных предположений и рассмотрении максимально широкого класса S. Для того чтобы соединить потенциальную широту S и ограниченность объема выборки, на S выделяется некоторая структура вложенных друг в друга подмножеств растущей емкости

и минимизация проводится внутри подходящего так, чтобы сбалансировать оцениваемые по обучающей выборке потери от использования не самого широкого класса функций с потерями при переходе от к Q, оцениваемыми по формуле (2.64).

Этот подход к построению алгоритмов классификации получил название структурной минимизации риска.

Достоинства метода структурной минимизации:

1) отказ от априорных предположений;

2) решение прямой задачи — поиск а не оценка параметров гипотетических распределений;

3) построение универсальных оценок (2.64);

4) наличие рекомендаций по сочетанию объема выборки и сложности используемого класса функций;

5) существенное развитие общей теории минимизации эмпирического риска, введение новых понятий, что не может не сказаться на будущем развитии дискриминантного анализа.

Недостатки этого метода:

1) сильно завышены оценки погрешности, делающие метод неконкурентно способным по сравнению с современными алгоритмами дискриминантного анализа;

2) перенос трудностей, связанных с выбором предположений, на этап введения последовательности структур (2.66);

3) отсутствие рекомендаций по выбору структур в зависимости от геометрии расположения классов.

Одна из возможных программных реализаций метода структурной минимизации риска названа алгоритмом «обобщенный портрет» [44]. Алгоритм начинается с отображения исходного пространства переменных в бинарное пространство В, каждая координата которого принимает лишь два значения: 0 и 1. Пространство В имеет размерность , где — число градаций, на которые разбивается признак. Это обеспечивает универсальность последующей трактовки, а с другой стороны, как показано в п. 2. 3. 4, порой ведет к очень большим потерям информации. Интерпретация формул, получаемых с помощью алгоритма «обобщенный портрет», часто бывает затруднительна из-за большой зашумленности используемых оцифровок.

<< Предыдущий параграф Следующий параграф >>
Оглавление