Главная > Математика > Прикладная статистика: Классификации и снижение размерности
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Глава 19. ЦЕЛЕНАПРАВЛЕННОЕ ПРОЕЦИРОВАНИЕ МНОГОМЕРНЫХ ДАННЫХ

В этой главе в основном рассматриваются методы линейного проецирования данных. Совокупность таких методов в последнее время получила большое развитие и известна в заружебной статистической литературе, как «projection pursuit» (РР).

Будем здесь использовать термин «целенаправленное проецирование» (ЦП). Методы ЦП являются естественным обобщением классических методов многомерного статистического анализа, таких, как факторный анализ, анализ главных компонент, линейный дискриминантный анализ и т. д. В отечественной литературе [36—40, 65, 67, 69, 104, 328] содержатся постановки ряда задач ЦП и методы их решения.

19.1. Цель и основные понятия целенаправленного проецирования

Метод ЦП [230, 246, 251, 328] основан на поиске наиболее «интересных» («выразительных») -мерных линейных проекций исходных -мерных данных где . В РАД , реже 3.

Пусть U — оператор линейного проецирования -мерных данных на -мерное пространство, т. е. набор из q линейно независимых -мерных векторов таких, что по определению — некоторая статистика, выборочное значение Q которой вычисляется по -мерной выборке объема . Тогда называется проекционным индексом (ПИ), характеризующим выразительность проекции U относительно статистики Q. Решение задачи РАД методом ЦП состоит из двух этапов:

1) выбор проекционного индекса

2) поиск проекций U, наиболее интересных относительно Q, т. е. решение задач:

найти

Первому этапу посвящены следующие параграфы, здесь же кратко остановимся на втором. При решении задачи (19.1) для ряда важных ПИ удается использовать последовательный (пошаговый) метод получения проекционных векторов

Допустим, что уже выбраны первые проекционных векторов Тогда решается задача (19.1) в классе операторов где первые векторов — это отобранные ранее векторы, a — любой линейно независимый с ними вектор. Иногда из формулы для ясно, что достаточно брать векторы ортогональными, но в общем случае направления образуют косоугольную систему. Эта процедура может быть улучшена в результате использования дополнительного критерия «не-интересности» направления проецирования. Тогда в алгоритм можно включать шаги, на которых «неинтересные» направления выбрасываются. В каждом из рассмотренных вариантов пошаговый метод реализуется обычными процедурами условной оптимизации (условия линейной независимости, ортогональности или -ортогональности, где S — например, ковариационная матрица).

Имеются важные ПИ, для которых пошаговый метод не эффективен. В этом случае необходимо вернуться к оптимизационной задаче (19.1) в исходной постановке, т. е. решать ее как задачу безусловной оптимизации на многообразии всех операторов -мерного проецирования. Численные процедуры решения таких задач разработаны в [37—39] и рассмотрены в гл. 20.

Прежде чем перейти к последующему изложению, кратко остановимся на вопросе, почему собственно используются линейные отображения? Имеется несколько обоснований различной природы для использования линейных отображений многомерных данных для целей анализа. Перечислим некоторые из них (оговорим, что порядок перечисления не отражает их относительной важности).

Во-первых, линейные отображения приводят к тому, что в качестве новых переменных в пространстве образов используются линейные комбинации исходных переменных. Это существенно упрощает интерпретацию выделяемых структур (например, кластеров), поскольку позволяет использовать такие хорошо освоенные в статистике понятия, как факторные нагрузки или вклады переменных (нормированные тем или иным способом коэффициенты линейных комбинаций).

Во-вторых, имеется важное статистическое обоснование, связанное со статистическими свойствами линейных проекций многомерных случайных величин. Именно при достаточно широких предположениях относительно плотности распределения многомерной случайной величины X [215] распределение случайно выбранной линейной комбинации переменных стремится к нормальному, когда . На практике это означает, что при достаточно большом числе переменных подавляющее большинство линейных комбинаций исходных переменных будет иметь «почти» нормальное распределение.

Поскольку нормальное распределение является некоторым эталоном распределения, не обладающего какой-либо из перечисленных в § 18.1 структур (за исключением структуры типа эллипсоидального рассеивания), при поиске этих структур можно выбирать линейные комбинации, распределение которых наиболее сильно отличается от нормального. В частности, в качестве ПИ можно использовать любые критериальные величины, применяемые для проверки гипотезы нормальности.

В-третьих, имеется довольно общая статистическая модель для кластерной структуры в виде смеси эллипсоидально симметричных распределений, рассматриваемая в следующем параграфе. Оказывается, что вся информация о кластерах содержится в некотором линейном подпространстве называемом дискриминантом подпространства. Если компонентами смеси будут нормальные распределения, то снова придем к разложению исходного пространства на два компонента — «интересный», имеющий распределение, отличное от нормального, и содержащий линейные комбинации с нормальным распределением.

<< Предыдущий параграф Следующий параграф >>
Оглавление