Главная > Математика > Прикладная статистика: Классификации и снижение размерности
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

3.4. Оценка качества дискриминации

Как сказано в § 2.1, оценка качества построенного правила классификации является завершающей операцией ДА. Выбор конкретных показателей и методов их оценивания зависит от целей построения правила классификации, от начальных предположений и степени уверенности в них, от выбранного алгоритма и, наконец, от доступного программного обеспечения.

3.4.1. Показатели качества разделения.

В табл. 3.1 дана сводка основных показателей качества дискриминации, там же указано, где в книге можно найти соответствующие разделы. Средняя ошибка входит в две группы показателей (1.2 и 2.1). Показатели (1.3 и 3.1) так же связаны друг с другом. Их сопоставление может быть использовано для прямой проверки применимости модели Фишера. Особое место занимают показатели, требующие численной оценки отношения правдоподобия в каждой точке выборочного пространства (2.2 и 3.2). Если умеем его оценивать, то «первичная» оценка расстояния Бхатачария по обучающей выборке может выглядеть, например, следующим образом:

Таблица 3.1

Смысл слова «первичная» будет ясен из материала следующего пункта.

3.4.2. Методы оценивания.

Хорошо известно, что если применить построенное правило классификации к обучающей выборке, то оценка качества классификации будет в среднем завышена по сравнению с той же оценкой качества по не зависимым от обучения данным. Это означает, что регистрируемые на обучающей выборке значения ошибок и функции потерь будут ниже ожидаемых, а значения расстояний — больше. Укажем основные приемы борьбы с этим завышением качества.

Разбиение имеющихся данных на две части: обучающую и экзаменующую выборки. Это самый простой и убедительный метод. Им следует широко пользоваться, если данных достаточно. Тем более что, если разбиение данных произведено по какому-либо моменту времени, метод позволяет оценивать качество правила, построенного по прошлым данным, в применении к сегодняшним данным. С чисто статистической точки зрения метод разбиения данных на две части расточителен. Поэтому предложен ряд других, более сложных методов, которые полнее используют выборочную информацию.

Метод скользящего экзамена. При этом методе одно из наблюдений отделяется от выборки и рассматривается в качестве экзаменующего наблюдения.

По оставшимся наблюдениям строится правило классификации, которое применяется к выделенному наблюдению. Результат применения регистрируется и оценивается. Наблюдение возвращается в выборку, выделяется следующее наблюдение и т. д. Процесс прекращается через шагов, когда будет перебрана вся выборка. Последовательные оценки, получаемые с помощью скользящего экзамена, несмещены, однако зависимы между собой. Существенная особенность метода - -кратное построение правила классификации. В случае непараметрических оценок пп. 3.2.2 и 3.2.4 это сделать легко — достаточно просто не включать выделенное наблюдение в суммы в формулах (3.10), (3.11) или не учитывать его в окрестности . В случае использования линейной дискриминантной функции, оцениваемой через при коррекции используется формула Бартлетта для обратных симметричных матриц А

которая существенно упрощает расчеты. В общем случае, особенно при отборе переменных, метод скользящего экзамена слишком трудоемок.

Использование обучающей выборки в качестве экзаменационной с последующей поправкой на смещение. Идея метода достаточно проста. Пусть оценивается некоторый параметр . Обозначим его оценку на обучающей выборке и оценку на новой выборке . Пусть далее , а А — некоторая оценка А. Тогда

Предложены различные способы оценки А: аналитические, опирающиеся на предельные соотношения гл. 2, и эмпирические, использующие специальные вычислительные процедуры. Оба подхода описываются ниже.

3.4.3. Аналитические поправки.

Они наиболее просты в вычислительном плане, но существенно опираются на математические предположения проверяемых моделей. Поэтому их следует рассматривать только в качестве первых приближений.

Поправка для оценки расстояния Махаланобиса в модели Фишера. Пусть

Оценка смещена. Несмещенная оценка расстояния Махаланобиса [264]

Поправка для ООК. На основании теоретического рассмотрения модели Фишера и ряда результатов моделирования с различными алгоритмами Раудис Ш. [132] рекомендует при конструировании поправки использовать параметр (см. гл. 2); если — оценка ошибки классификации, полученная на обучающей выборке, то а — оценка ООК может быть приближенно оценена с помощью

3.4.4. Метод статистического моделирования (bootstrap method).

Предложен В. Эфроном [219]. В нем рекомендуется принять обучающую выборку за генеральную совокупность. Из нее производить повторные по параметру i наборы обучающих и экзаменующих выборок и для каждой пары выборок оценивать разность

Среднее арифметическое А, принимается за А. Далее используется формула (3.19).

<< Предыдущий параграф Следующий параграф >>
Оглавление