Главная > Математика > Прикладная статистика: Классификации и снижение размерности
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Глава 9. ПРОЦЕДУРЫ КЛАСТЕР-АНАЛИЗА И РАЗДЕЛЕНИЯ СМЕСЕЙ ПРИ НАЛИЧИИ АПРИОРНЫХ ОГРАНИЧЕНИИ

9.1. Разделение смесей при наличии неполных обучающих выборок

Здесь и далее в главе рассматриваются процедуры кластер-анализа и разделения смесей распределений, когда у исследователя имеется некоторая априорная информация относительно желаемой классификации, задаваемая в виде тех или иных ограничений.

Иногда возникает ситуация, когда исследователю известна принадлежность некоторых объектов из матрицы данных X к некоторым компонентам смеси или кластерам (классам). Дальше будем считать без ограничения общности, что имеются обучающие выборки (ОВ) для/первых классов и объем такой выборки Суммарный объем таких выборок и не позволяет воспользоваться процедурами дискриминантного анализа.

Количество может быть меньше количества выделяемых классов к.

9.1.1. Модификация ЕМ-алгоритма.

ЕМ-алгоритм для оценки параметров смеси распределений описан в § 6.4. Этот алгоритм носит итерационный характер, на каждом шаге t, в частности, пересчитываются вероятности принадлежности объекта к классу по формуле (6.9)

Модификация алгоритма при наличии неполных ОВ состоит в том, что для объектов, которые в них содержатся, значения корректируются следующим образом [66]: если объект принадлежит ОВ для класса, то

Эффективность использования неполных ОВ весьма велика. Имеются примеры, когда использование ОВ, составляющих примерно исходной выборки, приводило к резкому улучшению результата разделения смеси 1.

9.1.2. Разделение смеси с неизвестным числом классов.

Рассмотрим случай смеси нормальных распределений с равными матрицами ковариаций, число компонентов k которой неизвестно. Кроме того, имеются неполные ОВ, так же как и в п. 9.1.1.

Вычислительнаяпроцедура состоит из следующих шагов [66].

Шаг 1. Вычисляются оценки векторов средних значений и общей матрицы ковариаций по неполным ОВ. Нижний индекс указывает число степеней свободы, соответствующее оценке матрицы ковариаций. Далее для измерения расстояния между объектами используется расстояние Махаланобиса

Пусть теперь h — вектор размерности , у которого компонента равна номеру класса для объекта Приравниваем к нулю компоненты h, а объектам из ОВ присваиваем соответствующие номера.

Текущее значение числа классов полагается равным . Значение счетчика числа классифицированных объектов , где — объемы ОВ.

Шаг 2. Обнуляются счетчики числа классификаций объектов и числа случаев образования новых классов

Проведем последовательный просмотр неклассифицированных объектов, т. е. объектов для которых

Пусть — такой объект. Тогда вычисляются расстояния от до центров уже образованных классов величины и значения функции -распределения степенями свободы от Вычисляется При сделанных допущениях (нормальность, равные матрицы ковариаций) величина равна вероятности реализации расстояния от до большего или равного t) при условии, что действительно принадлежит классу. Пусть теперь

Относительно объекта принимается одно из трех решений:

1) если то объект относится к классу с номером и проводится корреляция оценки :

Используя формулу Бартлетта [129], получаем скорректированную обратную матрицу

2) если то считается, что объект принадлежит некоторому новому классу; счетчик числа классов увеличивается на и полагается,

3) если выполняются неравенства то никаких действий не проводится.

Если просмотр объектов не окончен, то переходим к просмотру следующего объекта.

Шаг 3. Проверяется, все ли объекты расклассифицированы, т. е. равенство Если оно выполняется, то производится переход на шаг 5, в противном случае на шаг 4.

Шаг 4. Проверяются значения счетчиков . Если хотя бы один из счетчиков не равен нулю, то переходят на шаг 2. Если одновременно то, следовательно, на шаге 2 не было образовано ни одного нового класса и не было классификации объектов. Поэтому проводится уменьшение порога на величину и увеличение порога на величину Таким образом, увеличиваются возможности классификации объектов и образования новых классов (принятые при реализации алгоритма значения Производится переход на шаг 2.

Шаг 5. Проводится реклассификация исходной совокупности объектов X так же, как на шаге 2, но при и без пересчета оценок статистических характеристик Полученная классификация считается окончательной.

<< Предыдущий параграф Следующий параграф >>
Оглавление