Главная > Математика > Прикладная статистика: Классификации и снижение размерности
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

2.5. Отбор переменных

2.5.1. Увеличение ООК малоинформативными признаками.

Один из очевидных выводов из формул § 2.3 состоит в том, что включение в прогностическое правило малоинформативных переменных может заметно ухудшить его качество. Рис. 2.4 показывает это наглядно.

Рис. 2.4. Зависимость отношения сигнал/шум от числа отобранных параметров: — отношение сигнал/шум для к первых переменных

Каждый признак наряду с положительным вкладом в разделение несет в себе в силу ограниченности выборки и шумовую (случайную) составляющую. Если много малоинформативных признаков, то отношение сигнал/шум значительно лучше для группы высокоинформативных признаков, чем для всей выборки. Тот же вывод подтверждают и числовые данные.

Из анализа данных табл. 2.2 видно, что при известной ковариационной матрице 2 обучаемость подстановочного алгоритма заметно лучше, чем в общем случае, когда 2 неизвестна. Однако и при известном 2 роль отношения существенна.

Поэтому при относительно небольшом объеме выборки малоинформативные признаки в прогностическое правило лучше не включать. Однако заранее информативность признаков обычно не известна и отбор наилучших среди них производится по выборке, но здесь мы сталкиваемся с новым явлением — отбор признаков может заметно ухудшить обучаемость алгоритма.

2.5.2. Влияние выборочных флуктуаций на результаты отбора признаков.

Задача формирования наилучшей системы признаков трудна сама по себе как с технической, так и с методологической стороны даже в случае полностью определенных распределений (см. § 1.4). В дискриминантном анализе она усугубляется еще и выборочными флуктуациями. Для представления масштаба возникающей проблемы снова обратимся к модельному примеру. Пусть в модели Фишера с известной единичной ковариационной матрицей

средние случайны:

При моделировании сначала получают значения далее моделируются независимые выборки объема каждая из и по ним с помощью изучаемого алгоритма А строится правило классификации. Поскольку значения известны, нетрудно оценить — асимптотическую ошибку классификации, которая, естественно, зависит от Подбирая величину можно добиться того, что значение будет достаточно близко к любому числу

Пусть А — подстановочный алгоритм, действующий в и порождающий правило вида

где с подбирается в каждой серии так, чтобы УОК была минимаксной. Пусть далее В — аналогичный подстановочный, алгоритм, но с предварительным отбором признаков из . При этом отбор переменных проводится по величине модуля разности так, что переменные с разностью, большей некоторого порога, включаются как «информативные», а с меньшей — нет. В табл. 2.3 показаны три отношения , полученные методом статистического моделирования.

Таблица 2.3 [133]

(см. скан)

Общий вывод, который можно сделать из табл. 2.3, следующий: в рассматриваемой модели, когда объем обучающей выборки ограничен и число отобранных признаков в 4—8 раз меньше числа исходных переменных, ожидаемая ошибка алгоритма с отбором признаков по обучающей выборке заметно больше ожидаемой ошибки алгоритма без отбора. Правда, в качестве примера взята модель ситуации, весьма трудной для отбора.

2.5.3. Изучение эффекта отбора признаков в асимптотике растущей размерности.

Основное добавление к предположению (2.9) асимптотики растущей размерности при изучении эффекта отбора состоит в том, что — число отбираемых признаков — пропорционально , т. е. что

Естественно также потребовать, чтобы расстояние между классифицируемыми распределениями оставалось ограниченным при росте , т. е. чтобы

Поскольку априори известно, что признаки независимы и нормально распределены с единичной дисперсией, переменную i включаем в число отобранных, когда

где определяется из условия . Условие (2.52) выполняется, так как . Пусть

где для i, не удовлетворяющих условию суммирования, положено Согласно (2.3) АОК Найдем математическое ожидание одного, отличного от нуля, слагаемого в (2.55):

Число отличных от нуля слагаемых асимптотически равно поэтому для больших

Обозначим условное математическое ожидание по наблюдению X при условии, что 1) и 2) обучающая выборка фиксирована Пусть далее в соответствии с предположением (2.53)

тогда согласно (2.57) для (соответствующие значения Травны 1,53; 1,15; 0,674) для получения должно быть соответственно равным 43,1; 29,9; 23,3 и для . Для подсчета асимптотического значения УОК по конечной выборке при отборе и обучении надо найти в изучаемой асимптотике (2.9), (2.52), (2.49), (2.50), (2.58) предел отношения

Он существует, так как в силу закона больших чисел существуют конечные пределы числителя и знаменателя. Обозначим его тогда

Теперь для значений , указанных в табл. 2.3, можно найти соответствующие предельные значения (табл. 2.4).

Таблица 2.4

Качественное соответствие данным табл. 2.3 полное. Однако численно изучаемый эффект более сильно выражен в асимптотической теории.

В близкой постановке ошибку классификации при отборе переменных изучал В. И. Сердобольский [140].

Отличие от рассмотренной выше задачи состояло в том, что он рассматривал модель блочно-независимых распределений (см. п. 1.1.5 и 2.3.2) с одинаковым числом оцениваемых в блоках параметров (аналог матрицы в предположении (2.49)) и вместо предположения (2.50) на - расстояния Кульбака между блоками ) накладывалось в асимптотике (2.9) условие

где известно. Соответственно отбор переменных проводился по условию , где подбиралось так, чтобы выполнялось условие (2.52).

<< Предыдущий параграф Следующий параграф >>
Оглавление