Главная > Математика > Прикладная статистика: Классификации и снижение размерности
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

19.9. Некоторые вопросы вычислительной реализации и практические приемы целенаправленного проецирования

19.9.1. Вычислительные процедуры.

Для части ПИ вычислительные процедуры рассмотрены в соответствующих параграфах (см. § 19.5, 19.7, 19.8) Здесь же остановимся на ПИ типа, рассмотренного в § 19.4. Для реализации вычислительной процедуры, когда задана выборка необходимо уметь вычислять оценку ПИ (см. § 19.4) для любой проекции по выборке и градиент или матрицу вторых производных от этой оценки.

Оценка значения ПИ. Возможно несколько способов оценки функционалов вида, рассмотренного в § 19.4, от плотности проекций Во-первых, можно несколькими способами непараметрически оценить саму плотность (ядерная оценка, оценка по методу -ближайших соседей, гистограммная оценка и т.д.) и затем оценить сам функционал [1641.

Другой метод основан на использовании так называемых gaps-статистик [208, 326]. Этот подход и будет далее рассмотрен. Пусть — проекции векторов из выборки на вектор — соответствующие порядковые статистики (вариационный ряд; см., например, 1111). Образуем gaps-статистики вида

(19.67)

где — целое число ().

Moжнo показать, что сумма

(19,68)

является оценкой для . Оценка (19.68) асимптотически нормальна и состоятельна при некоторых условиях на скорость роста с ростом объема выборки .

Величина окна играет роль, аналогичную роли параметра сглаживания для ядериых оценок или числа соседей для оценки по методу ближайших соседей. Как уже указывалось, она должна возрастать с ростом n. Некоторые соображения о выборе значения на практике приведены ниже. Окончательной оценкой ПИ (19.4) будет

(19.69)

Дальше, поскольку ПИ (19.69) афинноинварианген, будем считать, что предварительно перешли к махаланобисовой метрике. Это дает следующее преимущество — условие S-ортогональности в лемме 19.1 заменяется обычной ортогональностью и. кроме того, облегчает аналитическое вычисление направления градиента для (19.69).

Вычисление градиента. Градиент ПИ (19.69) получается прямым дифференцированием по U. При этом нужно учесть, что направление градиента должно быть ортогонально вектору U. Так как производная от по U дает только составляющую, параллельную U, то направление градиента будет совпадать с направлением ортогональной к U составляющей

Выражение же для

(19.70)

где — вектор из выборки Х, проекция которого дает порядковую статистику, т. е.

Зная направление градиента, можно теперь строить различные оптимизационные процедуры.

19.9.2. Практические рекомендации при проведении ЦП.

Выбор величины окна . При программной реализации управление значением этого параметра должно быть в той или иной степени доступно пользователю. Оптимальное значение параметра зависит от объема выборки , параметра Р и неизвестной функции плотности распределения компонентов смеси. В реальной ситуации, когда модель (19.2) может выполняться лишь приближенно, теоретический выбор еще более затруднен. Имеется лишь некоторое предварительное впечатление для величины , полученное на основе статистического моделирования с использованием смесей нормальных распределений. Так, при диапазон «удачных» значений будет 5—15, при . Впрочем, влияние величины не слишком значительно. Все же рекомендуется провести вычисления с разными значениями . Это позволяет увеличить и вероятность попадания в глобальный максимум функции (19.69).

Переход к махаланобисовой метрике. Как указано в п. 19.9.1, целесообразно перейти перед проведением ЦП к махаланобисовой метрике, так чтобы общая ковариационная матрица выборки стала единичной . Это позволяет использовать обычное условие ортогональности вместо -ортогональности. В программе, реализующей ЦП, при использовании ПИ вида (19.4) такой переход должен делаться принудительно, без участия пользователя.

Сокращение размерности перед использованием процедур ЦП. Процедуры ЦП целесообразно сочетать с предварительным сокращением размерности по методу главных компонент. Необходимо удалить компоненты с малой дисперсией — подпространство, где отсутствует разброс точек, не может содержать какой-либо структуры. Контроль за количеством отбрасываемых компонент может осуществляться как пользователем, так и самой программой. Как и при выборе параметра сглаживания, имеет смысл провести несколько отсчетов с разным количеством отброшенных главных компонент.

Подавление влияния аномальных наблюдений. Эти наблюдения сильно влияют на результаты ЦП практически при использовании любых ПИ Так, при наличии аномальных наблюдений проекции, получаемые с использованием ПИ (19.4), в основном будут выделять эти аномальные наблюдения, но не кластеры. Поэтому целесообразно сначала провести ЦП для выделения аномальных наблюдений с помощью простой процедуры из § 19.5. Там же будут получены веса w, для каждого из наблюдений (см. пример 19.3). Дальше можно либо отбросить долю а наблюдений с минимальным весом (эта доля может иметь стандартное значение либо задаваться пользователем), либо перейти к взвешенной оценке ПИ. Например, для ПИ (19.4) можно заменить оценку (19.68) на

(19.71)

И использовать устойчивую оценку дисперсии

Соответственно меняется и градиент.

Сглаживание. В реальной практике распределения часто либо дискретны, либо содержат дискретную составляющую. Чтобы избежать вычислительных трудностей, связанных с тем, что величина обращается в нуль, можно использовать сглаженную величину , где есть, например, а — малая величина порядка 0,01.

<< Предыдущий параграф Следующий параграф >>
Оглавление