Главная > Математика > Прикладная статистика: Классификации и снижение размерности
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

13.2. Определение, вычисление и основные числовые характеристики главных компонент

Во многих задачах обработки многомерных наблюдений и, в частности, в задачах классификации исследователя интересуют в первую очередь лишь те признаки, которые обнаруживают наибольшую изменчивость (наибольший разброс) при переходе от одного объекта к другому.

С другой стороны, не обязательно для описания состояния объекта использовать какие-то из исходных, непосредственно замеренных на нем признаков. Так, например, для определения специфики фигуры человека при покупке одежды достаточно назвать значения двух признаков (размер — рост), являющихся производными от измерений ряда параметров фигуры. При этом, конечно, теряется какая-то доля информации (портной измеряет до одиннадцати параметров на клиенте), как бы огрубляются (при агрегировании) получающиеся при этом классы.

Однако, как показали исследования, к вполне удовлетворительной классификации людей с точки зрения специфики их фигуры приводит система, использующая три признака, каждый из которых является некоторой комбинацией от большого числа непосредственно замеряемых на объекте параметров.

Именно эти принципиальные установки заложены в сущность того линейного преобразования исходной системы признаков, которое приводит к главным компонентам. Формализуются же эти установки следующим образом.

Следуя общей оптимизационной постановке задачи снижения размерности (13.2) и полагая анализируемый признак X -мерной случайной величиной с вектором средних значений и ковариационной матрицей , вообще говоря, неизвестными, определим меру (критерий) информативности вспомогательной -мерной системы показателей с помощью (13.4), а класс допустимых преобразований — в виде (13.3). Тогда при любом фиксированном вектор искомых вспомогательных переменных определяется как такая линейная комбинация

(где матрица

а ее строки удовлетворяют условию ортогональности), что

Полученные таким образом переменные и называют главными компонентами вектора X. Поэтому можно дать следующее определение главных компонент.

Первой главной компонентой исследуемой системы показателей называется такая нормированно-центрированная линейная комбинация этих показателей, которая среди всех прочих нормированно-центрированных линейных комбинаций переменных обладает наибольшей дисперсией.

k-й главной компонентой исследуемой системы показателей называется такая нормированно-центрированная линейная комбинация этих показателей, которая не коррелирована с предыдущими главными компонентами и среди всех прочих нормированно-центрированных и не коррелированных с предыдущими главными компонентами линейных комбинаций переменных обладает наибольшей дисперсией.

Замечание 1 (переход к центрированным переменным). Поскольку, как увидим ниже, решение задачи (а именно вид матрицы линейного преобразования L) зависит только от элементов ковариационной матрицы 2, которые в свою очередь не изменяются при замене исходных переменных хпеременными — произвольные постоянные числа), то в дальнейшем будем считать, что исходная система показателей уже центрирована, т. е. что . В статистической практике этого добиваются, переходя к наблюдениям , где (для упрощения обозначений волнистую черту над центрированной переменной и над главной компонентой в дальнейшем ставить не будем).

Замечание 2 (переход к выборочному варианту). Поскольку в реальных статистических задачах располагаем лишь оценками соответственно вектора средних и ковариационной матрицы , то во всех дальнейших рассуждениях под понимается а под — выборочная коварнация

Вычисление главных компонент. Из определения главных компонент следует, что для вычисления первой главной компоненты необходимо решить оптимизационную задачу вида

где — первая строка матрицы L (см. (13.6)). Учитывая центрированность переменной X (т. е. ) и то, что имеем

Следовательно, задача (13.7) может быть записана

Вводя функцию Лагранжа и дифференцируя ее по компонентам вектор-столбца имеем

что дает систему уравнений для определения

(здесь ) — -мерный вектор-столбец из нулей).

Для того чтобы существовало ненулевое решение системы (13.8) (а оно должно быть ненулевым, так как матрица должна быть вырожденной, т. е.

Этого добиваются за счет подбора соответствующего значения Уравнение (13.9) (относительно ) называется характеристическим для матрицы . Известно, что при симметричности и неотрицательной определенности матрицы 2 (каковой она и является как всякая ковариационная матрица) это уравнение имеет вещественных неотрицательных корней называемых характера стическими (или собственными) значениями матрицы .

Учитывая, что (см. выше) и (последнее соотношение следует из (13.8) после его умножения слева на с учетом получаем

Поэтому для обеспечения максимальной величины дисперсии переменной нужно выбрать из собственных значений матрицы наибольшее, т. е.

Подставляем в систему уравнений (13.8) и, решая ее относительно определяем компоненты вектора Таким образом, первая главная компонента получается как линейная комбинация , где — собственный вектор матрицы , соответствующий наибольшему собственному числу этой матрицы.

Далее аналогично можно показать, что , где — собственный вектор матрицы , соответствующий по величине собственному значению этой матрицы.

Таким образом соотношения для определения всех главных компонент вектора X могут быть представлены в виде

где а матрица L состоит из строк , являющихся собственными векторами матрицы , соответствующими собственным числам При этом сама матрица L по построению является ортогональной, т. е.

Основные числовые характеристики главных компонент.

Определим основные числовые характеристики (средние значения, дисперсии, ковариации) главных компонент в терминах основных числовых характеристик исходных переменных и собственных значений матрицы 2:

а)

б) ковариационная матрица вектора главных компонент:

Умножая слева соотношения

на ), получаем, что

и, следовательно:

(13.10)

Из (13.10), в частности, следует подтверждение взаимной некоррелированности главных компонент, а также

в) сумма дисперсий исходных признаков равна сумме дисперсий всех главных компонент. Действительно, обобщенная дисперсия исходных признаков (X) равна обобщенной дисперсии главных компонент (Z). Действительно, обобщенная дисперсия вектора Z равна

Следствие. Из б) и в), в частности, следует, что критерий информативности метода главных компонент (13.9) может быть представлен в виде

где — собственные числа ковариационной матрицы 2 вектора X, расположенные в порядке убывания.

Кстати, представление в виде (13.9) дает исследователю некоторую основу, опорную точку зрения, при вынесении решения о том, сколько последних главных компонент можно без особого ущерба изъять из рассмотрения, сократив тем самым размерность исследуемого пространства.

Действительно, анализируя с помощью (13.9) изменение относительной доли дисперсии, вносимой первыми главными компонентами, в зависимости от числа этих компонент, можно разумно определить число компонент, которое целесообразно оставить в рассмотрении. Так, при изменении изображенном на рис. 13.1, очевидно, целесообразно было бы сократить размерность пространства с до так как добавление всех остальных семи главных компонент может повысить суммарную характеристику рассеяния не более чем на

Замечание 3. Использование главных компонент оказывается наиболее естественным и плодотворным в ситуациях, в которых все компоненты исследуемого вектора X имеют общую физическую природу и соответственно измерены в одних и тех же единицах.

К таким примерам можно отнести исследование структуры бюджета времени индивидуумов (все ) измеряются в единицах времени), исследование структуры потребления семей (все ) измеряются в денежных единицах), исследование общею развития и умственных способностей индивидуумов с помощью специальных тестов (все измеряются в баллах), разного рода антропологические исследования (все измеряются в единицах меры длины) и т.д.

Рис. 13.1. Изменение относительной доли суммарной дисперсии исследуемых признаков, обусловленной первыми главными компонентами, в зависимости от (случай )

Если же различные признаки измеряются в различных единицах, то результаты исследования с помощью главных компонент будут существенно зависеть от выбора масштаба и природы единиц измерения. Поэтому в подобных ситуациях исследователь предварительно переходит к вспомогательным безразмерным признакам например с помощью нормирующего преобразования

где соответствует ранее введенным обозначениям, а затем строит главные компоненты относительно этих вспомогательных признаков X и их ковариационной матрицы которая, как легко видеть, является одновременно выборочной корреляционной матрицей R исходных наблюдений

Замечание 4. В некоторых задачах оказывается полезным понятие так называемых обобщенных главных компонент, при определении которых оговаривают более общие (чем ограничения на коэффициенты , т. е. требуют, чтобы

где — некоторые дополнительно введенные веса. Очевидно, если при при то имеем обычное условие нормировки коэффициентов и обычные главные компоненты. Можно показать, что при такой модификации условий нормировки коэффициенты с помощью которых обобщенные главные компоненты выражаются через исходные признаки определяются как решения уравнений

где по величине корень уравнения а матрица — некоторая положительно определенная матрица весов. При этом, как и прежде, дисперсия обобщенной главной компоненты равна при взаимно коррелированы.

Заметим, кстати, что если в качестве матрицы весов выбрать матрицу

то, как легко показать, обобщенные компоненты (в метрике ), построенные по исходным признакам совпадут с обычными компонентами, построенными по вспомогательным безразмерным (нормированным) признакам

Проиллюстрируем определение главных компонент на численном примере, заимствованном из [279].

Пример 13.1. По данным измерений (в мм) длины ширины и высоты панциря 24 особей одного из видов черепах определена выборочная ковариационная матрица

Решая, в соответствии с (13.4), кубическое уравнение (относительно К) вида

находим

Подставляя последовательно численные значения в систему (13.3) и решая эти системы относительно неизвестных , получаем

В качестве главных компонент получаем

Здесь под подразумеваются отклонения размеров длины ширины высоты панциря от своих средних значений.

Вычисление относительной доли суммарной дисперсии, обусловленной одной, двумя и тремя главными компонентами, в соответствии с формулой (13.9) дает

Отсюда можно сделать вывод, что почти вся информация о специфике размеров панциря данного вида черепах содержится в одной лишь первой главной компоненте, которую и естественно использовать при соответствующей классификации исследуемых особей.

<< Предыдущий параграф Следующий параграф >>
Оглавление