Главная > Математика > Прикладная статистика: Классификации и снижение размерности
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

2.3. Подстановочные алгоритмы в асимптотике растущей размерности

Как уже сказано в п. 2.1.1, подстановочным (plug-in) алгоритмом называют метод построения правила классификации, при котором неизвестные в отношении правдоподобия параметры распределений 0 заменяют их оценками максимального правдоподобия 0.

При минимальных требованиях к плотности распределений подстановочные алгоритмы в традиционной асимптотике асимптотически подобны и состоятельны. Как следует из формулы (2.13), положение в случае асимптотики растущей размерности сложнее. Здесь уже многое зависит от того, как оцениваются параметры и насколько эффективно используются упрощающие предположения.

2.3.1. Модель Фишера в асимптотике (2.9).

Базовое предположение (2.9) дополним условием, что

т. е. что расстояние Махаланобиса между распределениями стремится к конечному пределу.

Рассмотрим сначала случай, когда 2 известно (см. п. 1.1.2). Согласно (1.12) подстановочное правило классификации имеет вид:

(2.15)

где — обычные выборочные средние для обучающих выборок из первой и второй совокупностей. Предположим для определенности, что X извлечено из первой совокупности, и найдем условную вероятность ошибки классификации по правилу (2.15) при фиксированной обучающей выборке

где

(2.18)

Аналогично

где

(2.19)

В предположениях (2.9), (2.14) с ростом объема обучающей выборки сближаются со своими математическими ожиданиями и стремятся соответственно к пределам

Из (2.20) — (2.22) видно, что асимптотическое значение а-минимаксной ошибки классификации достигается при равных асимптотических ошибках первого и второго рода, т. е. при и

(2.23)

В проведенном выше рассуждении сразу от условной ошибки классификации перешли к асимптотической ошибке, не вычисляя в качестве промежуточного этапа ожидаемую ошибку классификации.

Общая модель с матрицей S, оцениваемой по выборочным данным, была изучена А. Д. Деевым [551. В предположении, что он показал, что для подстановочного правила минимаксная ошибка классификации

(2.24)

Как видно из сравнения формул (2.23) и (2.24), цена (в терминах а), которую приходится платить за неизвестных параметров общей ковариационной матрицы, достаточно высока. Как уже сказано в п. 2.2.1, формулы Деева дают хорошую аппроксимацию даже при умеренных объемах обучающих выборок В этом можно убедиться непосредственно, сравнив данные табл. 2.1 и 2.2. В табл. 2.2 приведены асимптотические значения для линейной дискриминантной функции, полученные по формуле (2.23), когда матрица известна, и (2.24) — в общем случае при

Таблица 2.2

2.3.2. Распределения с независимыми блоками.

Эти распределения введены в п. 1.1.5. Они служат простейшей моделью негауссовских распределений. Добавим к базовым предположениям (2.9) предположения, что размерность векторов в блоках ограничена

что значения соответствующих параметров в классифицируемых распределениях сближаются друг с другом:

и что суммарное расстояние между распределениями стремится к конечному пределу

где и суммирование проводится по всем t, s, принадлежащим блоку;

- информационная матрица Фишера 112, § 8.2-8.31. При выполнении условий (2.9), (2.25) — (2.27) и некоторых дополнительных условий регулярности в [109] показано, что для подстановочного алгоритма справедлива формула (2.23). Более того, если в блоке имеются различающих и неизвестных, но общих обоим распределениям параметров, причем и одна и та же оценка общих параметров подставляется в обе плотности, то (2.23) также имеет место. Другими словами, общих параметров не ухудшают асимптотические свойства подстановочного алгоритма. Можно надеяться, что и в задаче Фишера в случае, когда 2 зависит только от параметров и при оценке этот факт учитывается, (2.23) также будет справедлива. Эту гипотезу удалось доказать в случае древообразных распределений.

2.3.3. Модель Фишера в случае древообразных распределений.

Если при древообразных (ДСЗ) распределениях с известной структурой зависимостей оценку проводить не по общей схеме, а с учетом структуры зависимостей, как указано в [12, п. 4.2.3], то согласно [77, 78] асимптотическая минимаксная ошибка модернизировацного классификатора будет не (2.24), а (2.23), т. е. существенно меньше. Более того, известно, что при минимальных дополнительных предположениях древообразная структура зависимостей восстанавливается в асимптотике Колмогорова — Деева с точностью до несущественных связей с вероятностью 1 [12, п. 4.3.3 и 4.3.4].

2.3.4. Оцифровка градаций качественных переменных.

Если в исследовании встречаются качественные переменные, то для применения к ним общих линейных моделей дискриминантного анализа их градациям часто приписывают численные значения-метки и далее работают с этими оцифрованными переменными как с обычными числами.

При этом используются две стратегии: первая (универсальная) состоит в том, что каждая градация качественной переменной выделяется в новую двоичную переменную, принимающую два значения: 0, если градация не осуществилась, и 1, если осуществилась [11, п. 10.2.4]; вторая стратегия применяется тогда, когда качественные градации можно рассматривать как результат квантования некоторой непрерывной случайной величины (ее математическая техника описана ниже).

Рис. 2.2. Границы квантования и плотности распределений в задаче об оцифровке качественных переменных

Наша ближайшая цель — сравнить на простейшей математической модели эффективность этих подходов в асимптотике растущей размерности.

Математическая модель: рассматриваются два класса с независимыми переменными в каждом из классов. Пусть — вероятность того, что переменная в первом классе (соответственно во втором) принимает свое значение, — оценки этих вероятностей по частотам на основании обучающих выборок. Предположим, что существует такая известная функция с непрерывной первой производной; такие числа расстояния между функциями G для первого и второго классов; границы квантования такие, что

Это наглядно показано на рис. 2.2.

Пусть далее выполняются следующие асимптотические (в асимптотике растущей размерности) предположения:

Подготовительные вычисления второй схеме

В данных предположениях: при оцифровке по первой схеме, когда градации оцифровываются независимо друг от друга так, что градации i-й переменной приписывается значение и классификация проводится по правилу , где порог с подбирается из условия минимизаций максимальной вероятности ошибки а,

при оцифровке по второй схеме, когда градации переменной приписывается значение и классификация проводится по тому же правилу, выполняется соотношение (2.23). Формулы (2.35) и (2.23) совпадают только в случае, когда у переменных имеются всего по две градации Уже при формула (2.35) дает заметно большую ошибку. Таким образом, независимой оцифровки градаций признаков следует избегать.

<< Предыдущий параграф Следующий параграф >>
Оглавление