Главная > Математика > Прикладная статистика: Классификации и снижение размерности
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

11.2. Метрики для задач кластер-анализа с неколичественными переменными

Некоторые из метрик для измерения расстояний между объектами, когда переменные являются неколичественными, приведены в гл. 5. Из них наиболее простой является хэммингова метрика, которую можно определить как

Расстояние Хэмминга можно рассматривать как квадрат евклидова расстояния в пространстве бинарных переменных, соответствующих категориям исходных переменных (далее, для краткости, просто в пространстве категорий), т. е.

где i — номер исходной переменной; j — номер категории; — число категорий переменной.

Иногда хэмминговой метрикой называют величины (11.2) и (11.2), у которых отсутствует деление на .

Так как величины могут принимать лишь значения 1 (для объекта реализовалась категория переменной) или 0 (в противном случае), то выражения (11.2) и (11.2) совпадают.

Теперь, по аналогии с евклидовой метрикой, можно подчеркнуть важность переменных или отдельных их категорий в формировании различий между объектами, вводя веса либо для переменных, либо даже для отдельных категорий (т. е. бинарных переменных ).

Один из подходов к присваиванию весов категориям состоит в переходе к -метрике, возникающей в множественном анализе соответствий. Веса для категорий в этой метрике возникают при решении оптимизационной задачи, имеющей ясную статистическую интерпретацию (см. п. 17.2.5), а не внесены извне. Поэтому можно полагать, что -метрика определяет некоторую «естественную» меру измерения отношений между объектами и, следовательно, ее целесообразно использовать при проведении кластер-анализа в качестве одного из основных претендентов.

Другой способ введения весов, основанный на эвристических соображениях, предложен в работе [174].

Пусть для переменной в категорию попало объектов. Тогда для двух случайно выбранных объектов определим вероятности следующих событий:

у обоих объектов одна и та же категория переменной

у объекта реализовалась категория — категория

Будем вводить веса категорий исходя из следующего соображения. Пусть для признака для объекта (реализовалась категория), а для объекта — Чем меньше вероятность такого события при случайном выборе объектов, тем более близкими их будем считать Чтобы получить теперь расстояние для объектов, можно воспользоваться следующим подходом. Определим меру близости между объектами в виде

Вклад переменной в

где

Так как только одно из произведений отлично от нуля, а все остальные равны нулю, то реально вклад А равен одному из весов Это взвешивание как раз и увеличивает сходство согласно вышеизложенному принципу — чем меньше вероятность реализованной комбинации категорий переменной для наблюдаемых двух объектов, тем больше сходство между этими объектами.

Выражение (11.3) есть не что иное, как скалярное произведение вида

где матрица W — блочно-диагональная матрица весов

Евклидово расстояние из можно теперь получить, используя обычную формулу

где

Для введения метрики в пространстве неколичественных переменных можно использовать подход, основанный на оцифровке, т. е. присвоении меток неколичественным переменным, например по критерию (17.31) (см. § 17.3).

<< Предыдущий параграф Следующий параграф >>
Оглавление