Главная > Математика > Прикладная статистика: Классификации и снижение размерности
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

5.2. Расстояния между отдельными объектами и меры близости объектов друг к другу

Наиболее трудным и наименее формализованным в задаче автоматической классификации является момент, связанный с определением понятия однородности объектов.

В общем случае понятие однородности объектов определяется заданием правила вычисления величины характеризующей либо расстояние между объектами из исследуемой совокупности либо степень близости (сходства) тех же объектов. Если задана функция , то близкие в смысле этой метрики объекты считаются однородными, принадлежащими к одному классу. Естественно, при этом необходимо сопоставление с некоторым пороговым значением, определяемым в каждом конкретном случае по-своему.

Аналогично используется для формирования однородных классов и упомянутая выше мера близости при задании которой нужно помнить о необходимости соблюдения следующих естественных требований: требования симметрии требования максимального сходства объекта с самим собой и требования при заданной метрике монотонного убывания по , т. е. из должно с необходимостью следовать выполнение неравенства

Конечно, выбор метрики (или меры близости) является узловым моментом исследования, от которого решающим образом зависит окончательный вариант разбиения объектов на классы при заданном алгоритме разбиения. В каждой конкретной задаче этот выбор должен производиться по-своему. При этом решение данного вопроса зависит в основном от главных целей исследования, физической и статистической природы вектора наблюдений X, полноты априорных сведений о характере вероятностного распределения X. Так, например, если из конечных целей исследования и из природы вектора X следует, что понятие однородной группы естественно интерпретировать как генеральную совокупность с одновершинной плотностью (полигоном частот) распределения, и если к тому же известен общий вид этой плотности, то следует воспользоваться общим подходом, описанным в гл. 6. Если, кроме того, известно, что наблюдения извлекаются из нормальных генеральных совокупностей с одной и той же матрицей ковариаций, то естественной мерой отдаленности двух объектов друг от друга является расстояние махаланобисского типа (см. ниже).

В качестве примеров расстояний и мер близости, сравнительно широко используемых в задачах кластер-анализа, приведем здесь следующие.

Общий вид метрики махаланобисского типа. В общем случае зависимых компонент вектора наблюдении X и их различном значимости в решении вопроса об отнесении объекта (наблюдения) к тому или иному классу обычно пользуются обобщенным («взвешенным») расстоянием махаланобисского типа, задаваемым формулой

Здесь — ковариационная матрица генеральной совокупности, из которой извлекаются наблюдения а А — некоторая симметричная неотрицательно-онределенная матрица «весовых» коэффициентов , которая чаще всего выбирается диагональной [195, 279].

Следующие три вида расстояний, хотя и являются частными случаями метрики все же заслуживают специального описания.

Обычное евклидово расстояние

К ситуациям, в которых использование этого расстояния можно признать оправданным, прежде всего относят следующие:

наблюдения X извлекаются из генеральных совокупностей, описываемых многомерным нормальным законом с ковариационной матрицей вида т. е. компоненты X взаимно независимы и имеют одну и ту же дисперсию;

компоненты вектора наблюдении X однородны по своему физическому смыслу, причем установлено, например с помощью опроса экспертов, что все они одинаково важны с точки зрения решения вопроса об отнесении объекта к тому или иному классу;

признаковое пространство совпадает с геометрическим пространством нашего бытия, что может быть лишь в случаях , и понятие близости объектов соответственно совпадает с понятием геометрической близости в этом пространстве, например классификация попаданий при стрельбе по цели.

«Взвешенное» евклидово расстояние

Обычно применяется в ситуациях, в которых так или иначе удается приписать каждой из компонент вектора наблюдений X некоторый неотрицательный «вес» <ой, пропорциональный степени его важности с точки зрения решения вопроса об отнесении заданного объекта к тому или иному классу. Удобно полагать при этом .

Определение весов связано, как правило, с дополнительным исследованием, например получением и использованием обучающих выборок, организацией опроса экспертов и обработкой их мнений, использованием некоторых специальных моделей. Попытки определения весов только по информации, содержащейся в исходных данных [72, 330], как правило, не дают желаемого эффекта, а иногда могут лишь отдалить от истинного решения. Достаточно заметить, что в зависимости от весьма тонких и незначительных вариаций физической и статистической природы исходных данных можно привести одинаково убедительные доводы в пользу двух диаметрально противоположных решений этого вопроса - выбирать пропорционально величине среднеквадратической ошибки признака либо пропорционально обратной величине среднеквадратической ошибки этого же признака [332, 72, 330].

Хеммингово расстояние. Используется как мера различия объектов, задаваемых дихотомическими признаками. Оно задается с помощью формулы

и, следовательно, равно числу несовпадений значений соответствующих признаков в рассматриваемых объектах.

Другие меры близости для дихотомических признаков.

Меры близости объектов, описываемых набором дихотомических признаков, обычно основаны на характеристиках , где — число нулевых (единичных) компонент, совпавших в объектах X, и Так, например, если из каких-либо профессиональных соображений или априорных сведений следует, что все признаков исследуемых объектов можно считать равноправными, а эффект от совпадения или несовпадения нулей такой же, что и от совпадения или несовпадения единиц, то d качестве меры близости объектов используют величину

Весьма полный обзор различных мер близости объектов, описываемых дихотомическими признаками, читатель найдет в [136, 29].

Меры близости и расстояния, задаваемые с помощью потенциальной функции. Во многих задачах математической статистики, теории вероятностей, физической теории потенциала и теории распознавания образов, или классификации многомерных наблюдений, оказываются полезными некоторые специально устроенные функции от двух векторных переменных X и Y, а чаще всего просто от расстояния между этими переменными, которые будем называть потенциальными.

Так, например, если пространство всех мыслимых значений исследуемого вектора X разбито на полную систему непересекающихся односвязных компактных множеств или однородных классов и потенциальная функция определена для следующим образом:

в противном случае, то с помощью этой функции удобно строить обычные эмпирические гистограммы (оценки плотности распределения по имеющимся наблюдениям Действительно, легко видеть, что

где — число наблюдений, попавших в класс содержащий точку — объем области (геометрическая интерпретация для одномерного случая показана на рис. 5.1).

Если в исследуемом факторном пространстве задана метрика , то можно не связывать себя заранее зафиксированным разбиением на классы, а задавать как монотонно убывающую функцию расстояния .

Например,

Приведем здесь еще лишь одну достаточно общую форму связи между , в которой расстояние выступает как функция некоторых значений потенциальной функции К:

Рис. 5.1, Гистограмма построенная с помощью разбиения на группы выборочной одномерной совокупности

В частности, выбрав в качестве скалярное произведение векторов U и V, т. е. положив

получим по формуле (5.3) обычное евклидово расстояние .

Легко понять, что и в случае задания потенциальной функции в виде соотношений (5.2) формулы (5.1) позволяют строить статистические оценки плотности распределения (5.1), хотя график функции будет уже не ступенчатым, а сглаженным. При отсутствии метрики в пространстве функции могут быть использованы в качестве меры близости объектов и и V, а также объектов и целых классов и классов между собой.

В первом случае эта мера позволяла получить лишь качественный ответ: объекты близки, если U и V принадлежат одному классу, и объекты далеки — в противном случае; в двух других случаях мера близости является количественной характеристикой.

О физически содержательных мерах близости объектов. В некоторых задачах классификации объектов, не обязательно описываемых количественно, естественнее использовать в качестве меры близости объектов (или расстояния между ними) некоторые физически содержательные числовые параметры, так или иначе характеризующие взаимоотношения между объектами. Примером может служить задача классификации с целью агрегирования отраслей народного хозяйства, решаемая на основе матрицы межотраслевого баланса [97]. Таким образом, классифицируемым объектом в данном примере является отрасль народного хозяйства, а матрица межотраслевого баланса представлена элементами где под подразумевается сумма годовых поставок в денежном выражении отрасли в . В качестве матрицы близости в этом случае естественно взять, например, симметризованную нормированную матрицу межотраслевого баланса. При этом под нормировкой понимается преобразование, при котором денежное выражение поставок из отрасли в заменяется долей этих поставок по отношению ко всем поставкам отрасли. Симметризацию же нормированной матрицы межотраслевого баланса можно проводить различными способами. Так, например, в [97] близость между отраслями выражается либо через среднее значение их взаимных нормированных поставок, либо через комбинацию из их взаимных нормированных поставок.

О мерах близости числовых признаков (отдельных факторов). Решение задач классификации многомерных данных, как правило, предусматривает в качестве предварительного этапа исследования реализацию методов, позволяющих существенно сократить размерность исходного факторного пространства, выбрать из компонент наблюдаемых векторов X сравнительно небольшое число наиболее существенных, наиболее информативных. Для этих целей бывает полезно рассмотреть каждую из компонент качестве объекта, подлежащего классификации. Дело в том, что разбиение признаков на небольшое число однородных в некотором смысле групп позволит исследователю сделать вывод, что компоненты, входящие в одну группу, в определенном смысле сильно связаны друг с другом и несут информацию о каком-то одном свойстве исследуемого объекта.

Следовательно, можно надеяться, что не будет большого ущерба в информации, если для дальнейшего исследования оставим лишь по одному представителю от каждой такой группы.

Чаще всего в подобных ситуациях в качестве мер близости между отдельными признаками так же как и между наборами таких признаков, используются различные характеристики степени их коррелированности и в первую очередь коэффициенты корреляции. Проблеме сокращения размерности анализируемого признакового пространства специально посвящен раздел III книги. Более подробно вопросы построения и использования расстояний и мер близости между отдельными объектами рассмотрены в [136, 288, 296, 29].

<< Предыдущий параграф Следующий параграф >>
Оглавление