Главная > Математика > Прикладная статистика: Классификации и снижение размерности
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

12.3. Некоторые методические рекомендации

Использование априорной информации. Успех применения процедур классификации во многом зависит от информации, которой обладает исследователь относительно ожидаемого разделения объектов на классы. Возможно использование априорной информации в одной из следующих форм:

задание метрики в пространстве, т. е. функции расстояния между объектами (подробнее см. гл. 5, 11);

частично обучающие выборки (ЧОВ) (см. гл. 11); неполные обучающие выборки (см. гл. 9).

Эффективность применения ОВ весьма высока. Часто ОВ суммарного объема, составляющего 5-10% общего числа объектов, позволяют получить содержательно осмысленную классификацию, трудно реализуемую при их отсутствии.

Итеративное использование процедур классификации.

Как правило, использование процедур классификации носит итеративный характер, в особенности если априорная информация отсутствует. Для получения содержательно осмысленной классификации (если она вообще потенциально возможна) полезны следующие методические приемы: применение к данным нескольких алгоритмов классификации с последующим сравнением результатов;

применение для анализа данных нескольких метрик и нескольких вариантов параметров, управляющих работой алгоритма, с последующим сравнением результатов; при этом выбирается вариант классификации, наиболее устойчивый к вариации параметров.

Визуализация данных. Подчеркнем еще раз пользу применения средств визуализации, т. е. отображения на плоскость главных компонент я нелинейных проекций, построения гистограмм на направлениях проектирования и т. д.

Визуализация может быть использована как для выделения сгущений объектов до применения процедур классификации (тогда некоторые точки из сгущений можно попытаться использовать как ЧОВ), так и для отображения результатов работы процедуры классификации.

Результаты классификации тем устойчивее, чем больше объем выборки и меньше соотношение . В частности, поэтому полезно провести классификацию объектов, спроектированных в пространство небольшой размерности, например использовать несколько линейных или нелинейных главных компонент (см. гл. 13) и целенаправленное проецирование (см. гл. 19).

Использование дополнительных (иллюстративных) переменных. Применение иллюстративных переменных в интерпретации и оценке устойчивости разбиения описано в § 12.4.

Удаление аномальных наблюдений. Наличие аномальных наблюдений, как правило, ухудшает результаты классификации, «сжимая» имеющиеся классы. Поэтому проверка наличия таких наблюдений (см., например, § 19.5) и их удаление являются необходимым этапом перед проведением автоматической классификации.

<< Предыдущий параграф Следующий параграф >>
Оглавление