Главная > Математика > Прикладная статистика: Классификации и снижение размерности
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Глава 5. ОСНОВНЫЕ ПОНЯТИЯ И ОПРЕДЕЛЕНИЯ, ИСПОЛЬЗУЕМЫЕ В МЕТОДАХ КЛАССИФИКАЦИИ БЕЗ ОБУЧЕНИЯ

5.1. Общая (нестрогая) постановка задачи классификации объектов или признаков в условиях отсутствия обучающих выборок

Говоря о классификации совокупности объектов, подразумеваем, что каждый из них задан соответствующим столбцом матрицы X либо геометрическая структура их попарных расстояний (близостей) задана матрицей .

Аналогично интерпретируется исходная информация в задаче классификации совокупности признаков, с той лишь разницей, что каждый из признаков задается соответствующей строкой матрицы X. В дальнейшем, если это специально не оговорено, не будем разделять изложение этой проблемы на «объекты» и «признаки», поскольку все постановки задач и основная методологическая схема исследования здесь общие.

В общей (нестрогой) постановке проблема классификации объектов заключается в том, чтобы всю анализируемую совокупность объектов , статистически представленную в виде матриц X или , разбить на сравнительно небольшое число (заранее известное или нет) однородных, в определенном смысле, групп или классов.

Для формализации этой проблемы удобно интерпретировать анализируемые объекты в качестве точек в соответствующем признаковом пространстве. Если исходные данные представлены в форме матрицы , то эти точки являются непосредственным геометрическим изображением многомерных наблюдений в -мерном пространстве с координатными осями

Если же исходные данные представлены в форме матрицы попарных взаимных расстояний , то исследователю не известны непосредственно координаты этих точек, но зато задана структура попарных расстояний (близостей) между объектами. Естественно предположить, что геометрическая близость двух или нескольких точек в этом пространстве означает близость «физических» состояний соответствующих объектов, их однородность. Тогда проблема классификации состоит в разбиении анализируемой совокупности точек — наблюдений на сравнительно небольшое число (заранее известное или нет) классов таким образом, чтобы объекты, принадлежащие одному классу, находились бы на сравнительно небольших расстояниях друг от друга. Полученные в результате разбиения классы часто называют кластерами (таксонами, образами) 1, а методы их нахождения соответственно кластер-анализом, численной таксономией распознаванием образов с самообучением.

Однако, берясь за решение задачи классификации, исследователь с самого начала должен четко представлять, какую именно из двух задач он решает.

Рассматривает ли он обычную задачу разбиения статистически обследованного (р-мерного) диапазона изменения значений анализируемых признаков на интервалы (гиперобласти) группирования, в результате решения которой исследуемая совокупность объектов разбивается на некоторое число групп так, что объекты такой одной группы находятся друг от друга на сравнительно небольшом расстоянии (многомерный аналог задачи построения интервалов группирования при обработке одномерных наблюдений). Либо он пытается определить естественное расслоение исходных наблюдений на четко выраженные кластеры, сгустки, лежащие друг от друга на некотором расстоянии, но не разбивающиеся на столь же удаленные части. В вероятностной интерпретации (т. е. если интерпретировать классифицируемые наблюдения как выборку из некоторой многомерной генеральной совокупности, описываемой функцией плотности или полигоном распределения , как правило, не известными исследователю) вторая задача может быть сформулирована как задача выявления областей повышенной плотности наблюдений, т. е. таких областей возможных значений анализируемого многомерного признака X, которые соответствуют локальным максимумам функции f (X).

Если первая задача — задача построения областей группирования — всегда имеет решение, то при второй постановке результат может быть и отрицательным: может оказаться, что множество исходных наблюдений не обнаруживает естественного расслоения на кластеры (например, образует один общий кластер).

Из методологических соображений (в частности, для упрощения понимания читателем некоторых основных идей теории автоматической классификации и для создания удобной схемы исследования свойств различных классификационных процедур) будем иногда вводить в рассмотрение теоретические вероятностные характеристики анализируемой совокупности: генеральную совокупность, плотность (полигон) распределения или соответствующую вероятностную меру теоретические средние значения, дисперсии, ковариации и т. п. Очевидно, если мысленно «продолжить» множество классифицируемых наблюдений до всей генеральной совокупности (методологический прием, уже использованный в гл. 1), задача классификации заключается в разбиении анализируемого признакового пространства на некоторое число непересекающих с я областей. Условимся в дальнейшем называть такую схему теоретиковероятностной модификацией задачи кластер-анализа.

<< Предыдущий параграф Следующий параграф >>
Оглавление