Главная > Математика > Прикладная статистика: Классификации и снижение размерности
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

13.5. Главные компоненты в задачах классификации

Общие идеи использования главных компонент в задачах классификации. Дуализм в постановке задачи. Очевидно, возможность геометрической интерпретации и возможность наглядного представления исследуемых наблюдений существенно облегчает решение задач по их классификации и, в частности, проведение таких этапов, как предварительный анализ классифицируемых наблюдений, выбор метрики, выбор начальных приближений для неизвестного числа классов k, для системы эталонных множеств Е, наконец, для самого искомого разбиения

Так, например, одного взгляда на рис. 13.3, на котором изображены проекции тридцати одного восемнадцатимерного наблюдения на плоскость первых двух главных компонент (построенных по исходным 18 признакам ), достаточно, чтобы обнаружить четкое распадение исследуемой совокупности наблюдений на три класса

Уловить же это распадение непосредственно в исходном восемнадцатимерном пространстве , очевидно, невозможно.

Источником оптимизма в отношении результатов использования такого проецирования исследуемых многомерных наблюдений на плоскость являются, как легко сообразить, геометрические экстремальные свойства главных компонент, в частности вышеупомянутые свойства 1—3, в соответствии с которыми проецирование исходной совокупности наблюдений в пространство меньшей размерности, «натянутое» на первых главных компонент наименее искажает ее геометрическую конфигурацию. Однако, говоря о «наименьшем искажении геометрической конфигурации» совокупности исходных данных как об одном из свойств метода главных компонент, следует предостеречь читателя от «абсолютизации» в восприятии этого тезиса.

В действительности далеко не всякие геометрические свойства исходной совокупности наилучшим образом сохраняются при проецировании в плоскость первых двух главных компонент.

Рис. 13.3. Расположение проекций 18-мерных наблюдений на плоскость первых двух главных компонент

Так, если при проецировании исходных данных на плоскость стараются максимально сохранить разделимость существующих в исходном многомерном пространстве «сгустков», скоплений точек, то базисные оси такой плоскости будут, вообще говоря, отличаться от первых двух главных компонент. Так же, как и от осей, дающих решение аналогичной задачи при требовании (к результату проецирования) наиболее точно «выловить» резко выделяющиеся на фоне основной группы наблюдения, и т. д. Решению подобных задач, т. е. поиску плоскостей, проецирование исходных данных на которые максимально сохраняет те или иные, но наперед заданные, их геометрические свойства, посвящен раздел IV, а соответствующие методы называются методами целенаправленного проецирования.

Перед тем как перейти к некоторым конкретным примерам применения главных компонент в задачах классификации, обратим внимание читателя на возможную двойственность (дуализм) в интерпретации многомерного наблюдения вообще, и в постановке задачи при эксплуатации метода главных компонент в частности.

Действительно, если в матрице наблюдений

рассматривать в качестве наблюдения столбцы то классифицируемыми объектами (в количестве штук) будут объекты, на каждом из которых было замерено по признаков так или иначе характеризующих его состояние. Если же в качестве «наблюдения» рассматривать строки этой матрицы, то классифицируемыми объектами будут уже сами признаки (в количестве штук), рассматриваемые соответственно в -мерном пространстве .

Очевидно, задачи классификации в одном и в другом пространстве преследуют совершенно разные цели. Относительно целей классификации в пространстве выше уже говорили. Что же касается классификации в пространстве (классификации самих признаков), то наличие небольшого (сравнительно с ) числа однородных групп признаков позволяет сделать вывод о близости (кор-релированности, взаимном дублировании) признаков, входящих в одну группу, и в конечном счете существенно снизить размерность исходного факторного пространства , оставив, например, для дальнейшего рассмотрения лишь по одному представителю от каждой такой группы.

Замечание о необходимости нормировки в пространстве . Классифицируя признаки, необходимо помнить, что два признака естественно считать близкими не только в случае сравнительной малости расстояния (евклидова типа) между ними, но и в случае их достаточно тесной взаимной зависимости, например , где с - некоторый скалярный множитель.

Для того чтобы это оказалось учтенным при проектировании «наблюдений» в пространство меньшей размерности с помощью метода главных компонент, необходимо предварительно (до применения метода) соответствую щим образом пронормировать исходные данные в пространстве , например, переходя к «наблюдениям»

гдед — среднее арифметическое признака, подсчитанное по исходным наблюдениям.

И наконец, в целях большего удобства технического представления результатов исследования (графиков, таблиц и т. п.) помимо необходимой нормировки иногда еще дополнительно центрируют рассматриваемые наблюдения

т. е. переходят в конечном счете к наблюдениям где X — среднее арифметическое (центр тяжести) наблюдений

В дальнейшем, как правило, будем предполагать вспомогательные операции нормировки и центрирования в пространстве П" (X выполненными, но в целях упрощения обозначений будем опускать две верхние волнистые черточки при записи соответствующих пронормированных и процентрированных наблюдений.

Применение главных компонент при анализе структуры семейного потребления . В процессе исследований решалась следующая частная задача. Объект исследований — семья. Набор измеряемых на каждом «объекте» признаков — удельные характеристики потребления (в расчете на одного члена семьи за период времени) по различным статьям расходов (табл. 13.1), всего в количестве 31 штуки На первом этапе исследований была отобрана так называемая «контрольная» выборка семей небольшого объема

Результаты проецирования наблюдения на плоскость первых двух главных компонент представлены на рис. 13.4. Если разбить исследуемые признаки на пять условных классов так, как это сделано на рисунке, то это даст пищу для достаточно естественного содержательного анализа взаимосвязей, существующих между исследуемыми при знаками (лишь «расходы на кондитерские изделия» дали вряд ли поддающиеся содержательной интерпретации результаты проецирования: они оказались почему-то в классе, объединяющем в себе расходы на услуги и на наиболее необходимые промышленные товары).

Таблица 13.1

(см. скан)

Применение главных компонент при анализе производительности труда рабочих. Различные показатели производительности труда характеризуют, как известно, отношение реально произведенной продукции к затратам труда на ее производство.

Задача изучения зависимости показателей производительности труда от набора регулируемых (и нерегулируемых) признаков , характеризующих технический и организационный уровень производства, личные качества рабочих, социально-демографические условия их жизни, постоянно (и правомерно) привлекает к себе пристальное внимание исследователей. Среди различных возможных подходов к решению этой задачи выделим следующие две схемы исследования.

Рис. 13.4. Исследование взаимосвязей между признаками, характеризующими структуру и объем семейного потребления

Схема 1. Состоит из двух этапов:

1) разбиение исследуемой совокупности рабочих на однородные группы в пространстве объединенных признаков (X, Y), например, с помощью главных компонент, построенных по набору признаков

2) статистическое исследование зависимостей типа , произведенное отдельно внутри каждой группы, выявленной на первом этапе ( — номер группы, внутри которой анализируется искомая зависимость).

Схема 2. Состоит из трех этапов:

1) разбиение исследуемой совокупности рабочих на однородные группы в пространстве признаков-аргументов , например, с помощью главных компонент, построенных по набору признаков

2) расщепление вектора признаков-аргументов на два подвектора: подвектор признаков (как правило, труднорегулируемых), описывающих технический и организационный уровень производства ), и подвектор признаков (регулируемых), описывающих социально-демографические условия труда. Затем разбиение исследуемой совокупности рабочих на однородные группы , в подпространстве «нерегулируемых» признаков, а также на однородные группы в подпространстве «регулируемых» признаков;

3) статистическое исследование зависимостей типа

и

произведенное отдельно внутри каждой однородной группы подпространства (при аргументах ) и подпространства (при аргументах ). Здесь

означает векторную функцию от () переменных описывающую зависимость У от при условии, что значения «нерегулируемых» аргументов принадлежат области Аналогично определяется векторная функция

В [9] приводятся результаты статистического анализа исходных данных по 100 работницам-ткачихам льнокомбината «Красная текстильщица» г. Нерехта Костромской области, составляющим более 80 % всей численности ткачих комбината. Эти результаты можно рассматривать как фрагменты осуществления этапов 1 и 2 и в вышеописанных схемах исследования.

Интересный пример применения главных компонент, в прямой и двойственной постановках задачи, связанный со статистической обработкой экспертных оценок применительно к задаче классификации картин абстрактной живописи, читатель найдет в [181].

<< Предыдущий параграф Следующий параграф >>
Оглавление