Главная > Математика > Прикладная статистика: Классификации и снижение размерности
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

2.4. Статистическая регуляризация оценки обратной ковариационной матрицы в линейной дискриминантной функции для модели Фишера

2.4.1. Качественный анализ трудностей линейного дискриминантного анализа в асимптотике растущей размерности.

Как показано в п. 2.3.1, замена неизвестной обратной ковариационной матрицы 2-1 ее оценкой в общем случае приводит к заметному росту ООК.

Это отчасти можно объяснить плохой обусловленностью матрицы S при и тем, что оценка не является состоятельной в асимптотике растущей размерности, так как

где симметричная -матрица О имеет максимальное собственное число . Для того чтобы понять, в чем дело, зафиксировав обучающую выборку, попытаемся построить наилучшее при данной выборке решающее правило, а затем сравним его с правилом, получаемым при использовании подстановочного алгоритма. При этом оптимальное для УОК правило выведем при использовании дополнительной информации, которой нельзя воспользоваться в обычной практике. Тем не менее сравнение двух правил покажет направления для возможного улучшения подстановочного алгоритма.

Произведем два последовательных преобразования пространства наблюдений: линейное, превращающее обычную ковариационную матрицу в единичную

и ортогональное, ориентирующее координатные оси вдоль направлений собственных векторов выборочной ковариационной матрицы в пространстве

, где -матрица, составленная из собственных векторов матрицы . В пространстве Z выборочная ковариационная матрица диагональна и дискриминантная функция имеет простой вид

Рассмотрим теперь функцию h (Z) вида

где — постоянные, подобранные так, чтобы

а следовательно, и УОК были оптимальны.

Находим

здесь и независимы между собой. В рассуждении использовано то обстоятельство, что независимы между собой и ковариационная матрица Y единичная.

Сравним теперь формулы (2.36)-(2.38):

1) в традиционной асимптотике при аналогично поэтому обычный линейный дискриминантный анализ и алгоритм оптимизации УОК асимптотически подобны;

2) теоретически [51, 103, 142] и путем моделирования показано, что в асимптотике растущей размерности не стремятся к пределу, а имеют предельное распределение с размахом, зависящим от ; распределение не зависит от и поэтому взвешивание не оптимально и линейный дискриминантный анализ ведет к большим по сравнению с алгоритмом (2.37)-(2.38) ошибкам (напомним, что последний алгоритм использует информацию об истинных параметрах модели);

3) из-за нормализующего преобразования алгоритм евклидова расстояния в пространстве Y, относящий наблюдение к той совокупности, к выборочному центру которой оно ближе, может иметь меньшую ООК по сравнению с линейной дискриминантной функцией;

4) алгоритмы, уменьшающие вклад в дискриминантную функцию экстремальных значений как источника больших погрешностей и учитывающие при выборе весов в (2.37) величину могут в асимптотике растущей размерности вести к уменьшению ООК по сравнению с традиционным дискриминантным анализом. Особенно опасны близкие к нулю.

2.4.2. Регуляризованные оценки

Специальные меры, направленные на улучшение обусловленности матрицы S и уменьшение случайных колебаний корней обратной матрицы принято называть регуляризацией.

Пусть X — собственный вектор матрицы S, соответствующий собственному числу , т. е.

Тогда X являетсй собственным вектором матрицы соответствующим собственному числу так как

Заменим теперь в линейной дискриминантной функции предыдущего пункта на тогда в силу сохранения собственных векторов представление (2.36) имеет место, и в нем величины заменяются на ( Разброс последних заведомо меньше разброса , они ближе к предельному взвешиванию слагаемых и, следовательно, обеспечивают меньшую ООК, чем (2.36). При получаем алгоритм евклидова расстояния.

К сожалению, невозможно воспользоваться только что проведенным рассуждением непосредственно, так как исходная матрица неизвестна. Однако на практике регуляризация рассмотренного вида часто применяется к исходной выборочной ковариационной матрице (без предварительного перехода в пространство F). При этом, так же как в рассмотренном выше случае, направления собственных векторов не меняются, а собственные числа матрицы отодвигаются от нуля. Это так называемые ридж-оценки . В работе [23] теоретически и в [217] путем моделирования показано, что ридж-оценки действительно уменьшают ООК. В [167] подобный результат достигается при замене на где А — некоторая симметричная положительно определенная матрица. В частности, в качестве А можно взять матрицу, составленную из диагональных элементов

Другой вид регуляризации, с успехом используемый на практике [148] и называемый оценкой главных компонент (ОГК-оценкой) — это замена на где С — ортогональная -матрица, составленная из собственных векторов матрицы — собственные числа матрицы S, а для и для

Простая геометрическая иллюстрация рассмотренных выше правил дана на рис. 2.3 посредством функций взвешивания собственных значений матрицы S.

Пусть определены как выше и пусть тогда в терминах U линейная дискриминантная функция представляется в виде

Введем в (2.41) формально в виде сомножителя функцию взвешивания . Это позволяет единообразно представить основные ортогонально инвариантные методы регуляризации: для линейной дискриминантной функции Фишера; для для ОГК-оценки ; для метода евклидова расстояния; для ридж-оценок вида

Рис. 2.3. Весовые коэффициенты в различных методах регуляризации

2.4.3. Обобщенная ридж-оценка В. И. Сердобольского [142, 145].

Представляет собой линейную комбинацию простых ридж-оценок с функцией взвешивания , где — функция ограниченной вариации

Для того чтобы для заданной функции при использовании вместо в линейной дискриминантной функции существовало в асимптотике растущей размерности предельное распределение для УОК, предположения (2.9) должны быть дополнены следующими:

1) обе совокупности нормальны

2) собственные числа матриц 2 лежат на отрезке где от не зависят;

3) при каждом сумма

Введем функцию распределения неслучайных собственных значений матрицы

Обозначим и пусть ниже означают компоненты вектора в системе координат, в которой матрица диагональна.

Введем функцию

4) при существуют пределы

5) выборки из совокупностей независимы. Матрица числяется обычным образом согласно (2.3).

В сделанных предположениях существуют пределы в среднем квадратическом:

где

Предельная минимаксная ошибка (а) классификации по правилу , где выражается через них:

где

В [142] доказывается, что функция минимизирующая а, может быть найдена при некоторых дополнительных предположениях в явном виде. Переход от предельных рекомендаций [142] к построению практического алгоритма для конечных выборок является довольно сложной задачей и выполнен в [145]. Соответствующая программа, названная ЭЛДА — экстремальный линейный дискриминантный анализ — хорошо работает начиная с

Ее сравнение с алгоритмами Фишер и Парзен (см. § 3.2) на ряде реальных коллекций данных с , выполненное с помощью пакета СОРРА-2 [125], показало явное преимущество ЭЛДА перед алгоритмом Фишер и заметный выигрыш по сравнению с универсальным алгоритмом Парзен при использовании в последнем стандартных значений параметра сглаживания, предусмотренных в СОРРА-2.

<< Предыдущий параграф Следующий параграф >>
Оглавление