Главная > Математика > Прикладная статистика: Классификации и снижение размерности
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

1.4. Отбор информативных переменных

Любое практическое исследование с применением методов статистической классификации включает в себя в виде специального этапа отбор информативных для классификации переменных. Дело здесь заключается не столько в экономии затрат на сбор не- или малоинформативных признаков, сколько в том, как увидим в следующей главе, что включение в решающее правило в условиях дефицита выборочной информации малоинформативных признаков ухудшает среднюю эффективность классификации. В этом параграфе рассматриваются два принципиально отличных подхода к отбору переменных. В первом из них делаются сильные математические предположения о характере классифицируемых распределений и это позволяет четко и однозначно ответить на вопросы, следует или нет включать рассматриваемую переменную в решающее правило и если нет, то почему.

Во втором подходе специальных предположений не делается, предлагаются некоторые эвристические итеративные процедуры, каждый шаг которых разумен, но общий результат их применения осмыслить и изучить трудно.

1.4.1. Модель Фишера с дополнительными предположениями о структуре зависимостей признаков.

Рассмотрим сначала простейшую математическую модель двух нормальных распределений с независимыми переменными

Решающее правило и расстояние Махаланобиса между согласно (1.12), (1.39) имеют вид

Естественно считать неинформативными переменные, у которых не отличаются средние, т. е. соответствующие и малоинформативными переменные, у которых где — некоторое число. Таким образом, в простейшей математической модели об информативности переменной можно судить по ее одномерным распределениям при . В общем случае это неверно, так как даже переменные, имеющие идентичные одномерные распределения при , и могут нести существенную информацию о проверяемых гипотезах в силу взаимозависимости переменных. В качестве примера вернемся к рис. 1.1. Распределения при обеих гипотезах совпадают, однако эта переменная в совокупности с существенна для классификации.

Рассмотрим теперь модель Фишера с древообразной структурой зависимостей (ДСЗ) переменных [12, п. 4.2.3] , где S имеет ДСЗ. Внедиагональные элементы отличны от нуля тогда, когда они принадлежат G — графу структуры зависимостей распределений. На основании (1.12)

В последнюю сумму наряду с парой входит и Таким образом, в входят только те переменные, для которых или 1) их индивидуальный вклад в разделение отличен от нуля, т. е. , или 2) индивидуальный вклад равен нулю, но они непосредственно связаны на графе структуры зависимостей с переменными для которых .

Этот результат остается верным и для распределений с (-зависимостью [12, 4.4].

<< Предыдущий параграф Следующий параграф >>
Оглавление