Главная > Математика > Прикладная статистика: Классификации и снижение размерности
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

ВЫВОДЫ

1. Общая постановка задачи классификации совокупности объектов в условиях отсутствия обучающих выборок состоит в требовании разбиения этой совокупности на некоторое число (заранее известное или нет) однородных в определенном смысле классов. При этом исходная информация о классифицируемых объектах представлена либо значениями многомерного признака (по каждому объекту в отдельности), либо матрицей попарных расстояний (или близостей) между объектами, а понятие однородности основано на предположении, что геометрическая близость двух или нескольких объектов означает близость их «физических» состояний, их сходство.

2. Математическая постановка задачи автоматической классификации требует формализации понятия «качество разбиения». С этой целью в рассмотрение вводится понятие критерия (функционала) качества разбиения , который задает способ сопоставления с каждым возможным разбиением S заданного множества объектов на классы некоторого числа , оценивающего (в определенной шкале) степень оптимальности данного разбиения. Тогда задача поиска наилучшего разбиения S сводится к решению оптимизационной задачи вида

где А — множество всех допустимых разбиений.

3. В зависимости от наличия и характера априорных сведений о природе искомых классов и от конечных прикладных целей исследователь обращается к одной из трех основных составных частей математического аппарата классификации в условиях отсутствия обучающих выборок 1) методам расщепления смесей вероятностных распределений (каждый класс интерпретируется как параметрически заданная одномодальная генеральная совокупность при неизвестном значении определяющего ее параметра, а классифицируемые наблюдения как выборка из смеси таких генеральных совокупностей), 2) методам собственно автоматической классификации или кластер-анализу (исследователь не имеет оснований для параметризации модели, а иногда и для интерпретации последовательности классифицируемых наблюдений в качестве выборки из генеральной совокупности); 3) классификационным процедурам иерархического типа (главная цель получение наглядного представления о стратификационной структуре всей классифицируемой совокупности, например в виде дендрограммы).

4. Выбор метрики (или меры близости) между объектами, каждый из которых представлен значениями характеризующего его многомерного признака, является узловым моментом исследования, от которого решающим образом зависит окончательный вариант разбиения объектов на классы при любом используемом для этого алгоритме разбиения. В каждой конкретной задаче этот выбор должен производиться по-своему, в зависимости от главных целей исследования, физической и статистической природы анализируемого многомерного признака, априорных сведений о его вероятностной природе и т.п.

В этом смысле схемы, основанные на анализе смесей распределений, а также классификация по исходным данным, уже представленным в виде матрицы попарных расстояний (близостей), находятся в выгодном положении, поскольку не требуют решения вопроса о выборе метрики.

5 Важное место в построении классификационных процедур, в первую очередь иерархических, занимает проблема выбора способа вычисления расстояния между подмножествами объектов Изящное обобщение большинства используемых в статистической практике вариантов вычисления расстояний между двумя группами объектов дает расстояние, подсчитываемое как обобщенное степенное среднее всевозможных попарных расстояний между представителями рассматриваемых двух групп (см. (5.8)).

6. В статистической практике выбор функционала качества разбиения обычно осуществляется весьма произвольно, опирается скорее на эмпирические и профессиональноинтуитивные соображения, чем на какую-либо точную формализованную схему (см., например, способ вывода функционала качества (5.21)). Однако ряд распространенных в статистической практике функционалов качества удается постфактум обосновать и осмыслить в рамках строгих математических моделей. Возможность этого появляется при наличии дополнительных априорных сведений о классах, позволяющих, например, представлять каждый класс в качестве параметрически заданной одномодальной генеральной совокупности (см. основанный на смеси нормальных совокупностей математико-статистический анализ функционалов ), в п. 5.4.6)

7. Еще один подход к осмыслению и обоснованию методов автоматической классификации представлен аппроксимационными моделями, когда искомая классификация характеризуется матрицей определенной структуры (например, ультраметрической матрицей близости или аддитивными кластерами (5.28)), а задача состоит в том, чтобы оценить параметры этой структуры таким образом, чтобы она минимально отличалась от матрицы исходных данных. В такой постановке проблема классификации сближается с проблемами факторного анализа (см., в частности, модель главных кластеров (5.30), которая является реализацией для данного случая соотношений линейной модели факторного анализа — см. гл. 14). Поэтому данный подход в определенной мере интегрирует традиционные методы кластер-анализа («компактность» кластеров в признаковом пространстве) и многомерной статистики (декомпозиция разброса исходных данных на «вклады» отдельных кластеров и других элементов решения).

<< Предыдущий параграф Следующий параграф >>
Оглавление