Главная > Математика > Прикладная статистика: Классификации и снижение размерности
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Глава 11. ВЫБОР МЕТРИКИ И СОКРАЩЕНИЕ РАЗМЕРНОСТЕЙ В ЗАДАЧАХ КЛАСТЕР-АНАЛИЗА

Проблема выбора метрики и тесно связанная с ней проблема сокращения размерности задачи кластер-анализа возникает, когда исходная информация задана в виде матрицы данных X. Выбор метрики, т. е. функции для вычисления расстояния между объектами, является одним из основных управляющих факторов, влияющих на результаты кластер-анализа.

В данной главе рассмотрим несколько подходов, позволяющих в некоторых случаях удовлетворительно решать обе проблемы выбора метрики и сокращения размерности в тех случаях, когда у исследователя отсутствует априорная информация, позволяющая сделать выбор метрики более обоснованно.

Что касается выделения переменных, то для решения этой задачи в настоящее время не имеется эффективных вычислительных алгоритмов. Частично эта задача решается с помощью процедур адаптивной настройки, менее информативным переменным скорее всего будет присвоен и меньший вес.

11.1. Целенаправленное проецирование данных в пространство небольшой размерности с сохранением кластерной структуры

Этот подход пригоден, когда все переменные измерены в количественной шкале. Будем искать последовательность из линейных комбинаций исходных переменных вида таких, что векторы попарно -ортогональны и являются решениями оптимизационной задачи

при условии ; S — матрица ковариаций или ее оценка.

В качестве функционала используется величина (см. гл. 19)

где — соответственно оценки плотности и дисперсии для одномерной случайной величины оцененной по совокупности одномерных проекций .

Смысл использования критерия (11.1) состоит в том, что чем больше его величина, тем более неоднородным можно считать распределение одномерной проекции , например, в рамках модели смеси нормальных распределений.

Перейдем сначала к махаланобисовой метрике, т. е. сделаем преобразование . Пусть из условия максимума (11.1) определены линейные комбинации Теперь они будут ортогональны, так как в новом базисе . И пусть — соответствующие им значения функционала .

Вместо исходного -мерного признакового пространства будем далее использовать -мерное пространство новых переменных предварительно нормированных так, чтобы этом величина Q, не меняется). Расстояние между объектами будем вычислять следующим образом:

где

— некоторая монотонно возрастающая функция.

<< Предыдущий параграф Следующий параграф >>
Оглавление