Главная > Математика > Прикладная статистика: Классификации и снижение размерности
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

14.3.4. Снижение размерности с помощью кластер-процедур.

В ряде ситуаций удобно рассматривать признаки как одномерные наблюдения и использовать многократное повторение этих наблюдений (на исследуемых объектах) для введения и вычисления таких естественных мер близости между объектами (признаками) какими являются в данном случае абсолютная величина коэффициента корреляции или корреляционное отношение (вычисления и их свойства см., например,

Следуя идее обобщенного (степенного) среднего (см. гл. 5), введем в качестве меры близости групп признаков величину

где — некоторый числовой параметр, выбор конкретного значения которого находится в нашем распоряжении; — число признаков, составляющих группу Аналогично вводится средняя мера близости R (АЦ признаков, входящих в одну группу

Если желаемая размерность задана заранее, то исходные признаков разбивают на однородных групп одним из двух способов: либо, последовательно объединяя в одну группу два наиболее близких, в смысле или признака (или признак и группу, или две группы) до тех пор, пока не останется ровно групп (иерархическая кластер-процедура), либо, находя такое разбиение исходных признаков на групп, при котором усредненная мера внутригрупповой близости признаков была бы максимальной. Последнего обычно удается добиться с помощью простого перебора вариантов, так как общее число признаков , как правило, не превосходит несколько десятков, — несколько единиц.

После этого от каждой группы следует отобрать по одному представителю, используя для этого технику метода главных компонент или факторного анализа (отдельно внутри каждой группы).

Если желаемая размерность заранее не определена, то разбиение исходных признаков на группы, а следовательно, и выбор неизвестного можно подчинить задаче максимизации функционала типа где — введенная в гл. 5 мера концентрации разбиения, т. е.

Здесь — число признаков в группе, содержащей признак Можно воспользоваться также и двойственной формулировкой экстремальной задачи разбиения объектов (признаков) на неизвестное число групп.

<< Предыдущий параграф Следующий параграф >>
Оглавление