Главная > Математика > Факторный, дискриминантный и кластерный анализ
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

ИСПОЛЬЗОВАНИЕ МЕТОДОВ КЛАСТЕРИЗАЦИИ

Как мы уже отмечали, методы кластеризации конструируются для создания однородных групп объектов или единиц, которые называются кластерами. Различные приложения кластерного анализа можно свести к четырем основным задачам:

1) разработка типологии или классификации;

2) исследование полезных концептуальных схем группирования объектов;

3) порождение гипотез на основе исследования данных;

4) проверка гипотез или исследования для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.

Как правило, кластерный анализ используется для создания классификаций, но в большинстве случаев прикладного анализа данных в основе исследования лежит комбинация этих задач. Чтобы лучше их понять, рассмотрим следующий пример применения кластерного анализа.

Алкоголизм — главная проблема в области психиатрии США, однако классификация больных алкоголизмом до недавнего времени не получала широкого распространения среди профессиональных психиатров. Голдстейн и Линден (1969), психологи-клиницисты, построили такую классификацию на основе кластерного анализа. Они с помощью психологического теста MMPI (миннесотское многофазовое обследование личности — Minnesota Multiplhasic Personality Inventory) собрали данные о 513 больных алкоголизмом, проходивших лечение в госпитале в Индианаполисе, штат Индиана. Тест содержал 566 вопросов (типа да/нет), которые суммировались по 13 диагностическим шкалам (например, шкала шизофрении, шкала истерии).

Голдстейн и Линден разделили полученные данные на две части: основная подвыборка (239 больных) и контрольная подвыбор-ка (251 болыной). Используя основную подвыборку, они сформировали корреляционную матрицу размерностью 239x239, которая представляла сходства для -профилей этих больных, и применили кластерный метод, изобретенный Лорром (1966). Из больных основной подгруппы 114 были распределены по четырем кластерам, а оставшиеся 125 не были приписаны ни к какому кластеру. Когда такой же обработке подверглась контрольная подвыборка, снова были выделены четыре кластера, которые содержали 106 (из 251) больных алкоголизмом. Главные профили кластеров для обоих подвыборок были в основном одинаковые. Голдстейн и Линден назвали эти четыре кластера следующим образом: 1) эмоционально-неустойчивые личности; 2) психоневротики с беспокойством/депрессией; 3) психопатические личности и 4) больные алкоголизмом, употребляющие наркотики и обладающие параноидальными чертами.

Исследование Голдстейна и Линдена сыграло важную роль, поскольку послужило моделью для более 15 последующих работ, в которых применялся кластерный анализ для классификации больных алкоголизмом. Большинство из этих работ в основном подтвердили обоснованность выделения первых двух кластеров (типы I и II).

Другая работа была выполнена двумя антропологами Бертоном и Ромни (1975). Они решили исследовать, как в английском языке можио классифицировать термины, соответствующие статусу и роли индивидов в системе человеческих отношений. Данные, использованные в работе, были получены в результате классификаци 58 наиболее общих терминов, среди которых типичными были: «художник», «босс», «друг», «человек», «владелец», «поэт» и «шпион». Участвовавшим в исследовании были розданы карточки с этими словами и затем было предложено произвольным образом разложить их по группам. На число и размеры групп никаких ограничений не накладывалось. Сходство между группами терминов определялось с помощью -оценки (Muller, 1969).

Исследуя данные о сходстве с помощью неметрического многомерного шкалирования, авторы пытались выявить наличие некой латентной структуры для описания сходства (различия) данных терминов. Были выделены три шкалы: оценочная шкала, в соответствии с которой такие термины, как «игрок», «бандит» и «шпион», противопоставляются терминам «друг» и «компаньон»; шкала иерархии, по которой выявляется различие между терминами «босс» или «бригадир» и понятиями родственных и дружеских отношений, например «друг»; шкала профессиональной принадлежности, позволяющая выделить роли и соответствующие термины, связанные с работой. Затем они провели иерархический кластерный анализ, применив два различных метода к одним и тем же данным о близости. Для каждого из этих методов авторы выбрали решение, состоящее из восьми кластеров. При этом они отметили, что результаты применения методов, хотя и различаются во многих отношениях, все же имеют четыре общих кластера: 1) кластер, включающий семь терминов родства; 2) кластер дружеских отношений; 3) кластер терминов принадлежности к социальным группам и 4) кластер управленческих ролей. Бертон и Ромни пришли к выводу, что результаты, полученные с помощью обоих методов, дополняют друг друга. Они полагают, что лица, классифицировавшие термины, принимали решения на основе двух критериев отбора. Первый, упрощенный критерий подобен полученному с помощью многомерного шкалирования (оценочная шкала, шкалы иерархии и профессиональной принадлежности). Второй, более тонкий критерий подсказан результатами кластеризации и подобен четкой структуре английских терминов родственных отношений, основанной на степени родства между индивидами, не зависящей от половых различий.

Результаты, полученные с помощью кластерного анализа, подтверждают неоднозначность полоролевых критериев в западном обществе, отмеченных социологами, и, кроме того, проясняют, как в английском языке классифицируются термины родства.

Последний пример — социологическое исследование Филсингера, Фолкнера и Уорленда (1969) — предназначался для создания классификации верующих. Данные были собраны с помощью шкалы религиозности (DeJong et al., 1976) в форме вопросника, который был предложен 547 старшекурсникам университета штата Пенсильвания. Было выбрано 37 вопросов, а план измерений был разработан на основе предыдущего факторного анализа этих данных (DeJong et. al., 1976). Поскольку выборка из 547 студентов слишком велика и требует для обработки больших затрат, для исследования была использована выборка из 220 студентов. Матрица сходства между парами индивидов размерностью 220 X 220 подверглась кластеризации. Для анализа было выбрано решение, состоявшее из семи кластеров, соответствующих семи типам верующих:

тип I — неверующие;

тип II — консерваторы;

тип III — нигилисты;

тип IV — умеренно религиозные;

тип V — крайне религиозные;

тип VI — ортодоксы;

тип VII — поклонники культа и обрядности.

Филсингер и другие сделали также попытку проверить обоснованность классификации верующих. Сначала они провели дискриминантный анализ кластеров и, как было сказано, результаты имели высокую значимость. Затем сравнили объекты из разных кластеров по семи демографическим признакам. По четырем признакам (размер общины; политические взгляды; процент студентов, не связанных с церковью; принадлежность к той или иной религии) кластеры имели значимые различия. Авторы пришли к заключению, что перекрывающиеся результаты подтверждают их эмпирическую типологию верующих.

В приведенных примерах можно найти любую из основных задач кластерного анализа. Целью Голдстейна, Линдена, Филсиегера и других было построение классификации, но заметную роль играет и исследование классификационных схем (MMPI и шкалы религиозности). Работа Бертона и Ромнн в первую очередь была посвящена анализу данных и проверке гипотез, а построение формальной классификации было второстепенной задачей. В этом случае еще до проведения проверки гипотез авторы заметили, что их результаты подтверждаются данными, полученными с помощью более традиционных антропологических методов.

Эти примеры показывают, что, несмотря на различия в целях, типах данных и примененных методах, все исследования, использующие кластерный анализ, характеризуют следующие пять основных шагов:

1) отбор выборки для кластеризации;

2) определение множества признаков, по которым будут оцениваться объекты в выборке;

3) вычисление значений той или иной меры сходства между объектами;

4) применение метода кластерного анализа для создания групп сходных объектов;

5) проверка достоверности результатов кластерного решения.

Каждый из перечисленных шагов играет существенную роль при использовании кластерного анализа в прикладном анализе данных.

<< Предыдущий параграф Следующий параграф >>
Оглавление