Главная > Математика > Прикладная статистика: Классификации и снижение размерности
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

19.5. Выделение аномальных наблюдений

19.5.1. Проекционный индекс и приближенная вычислительная процедура.

В качестве ПИ, подходящего для получения проекций, на которых аномальные наблюдения (outliers) могли бы наблюдаться визуально, можно воспользоваться отношением

(19.36)

где — обычная оценка дисперсии одномерной проекции выборки на вектор — некоторая устойчивая оценка параметра масштаба.

Известно, что обычная оценка весьма чувствительна к наличию аномальных наблюдений и их присутствие приводит, как правило, к возрастанию ее величины. Поэтому те направления, на которых значения ПИ (19.36) достигают максимума, могут обоснованно рассматриваться как направления, где влияние аномальных наблюдений наиболее выражено (если, конечно, таковые вообще имеют место).

В числителе (19.36) стоит квадратичная форма знаменатель приближенно можно аппроксимировать квадратичной формой , где — некоторая устойчивая оценка матрицы ковариаций. Поэтому как приближенное решение оптимизационной задачи для (19.36) можно использовать решение обобщенной задачи на собственные значения и векторы

(19.37)

Имеется не более положительных собственных чисел для задачи (19.37), которые можно упорядочить в порядке убывания их величины . Для получения проекций используются собственные векторы соответствующие наибольшим собственным числам, превосходящим 1.

Устойчивые оценки матрицы ковариаций и вектора средних. Устойчивые оценки матрицы ковариаций можно получать разными методами. В частности, имеющаяся в пакете ППСА [66] программная реализация основана на использовании разновидности М-оценок [269], так называемых экспоненциально-взвешенных оценок [11, гл. 10]. Однако экспоненциально-взвешенные оценки обладают тем недостатком, что в случае дискретных переменных с некоторым значением, частота которого больше частот остальных значений (что часто встречается на практике), оценкой матриц ковариаций может быть матрица с нулями на диагонали, т. е. оценки дисперсий для этих переменных равны нулю, что иногда приводит к трудностям в реализации процедуры.

Модификация индекса выразительности (19.36). Критерий (19.36) можно усовершенствовать, если учесть еще различие между оценками параметров положения (обычной М и устойчивой Муст), например, положив

где

Приближенное решение снова получается как решение полной проблемы собственных векторов и чисел

Пример 19.3. Рассмотрим пример применения метода главных компонент и ЦП к выборке реальных данных.

Используем матрицу данных из работы [149], содержащую сведения о 130 сельскохозяйственных районах СССР за 1975 г. Показатели, использованные в этой матрице, представляют собой некоторые обобщенные характеристики: возрастной состав населения, состав сельскохозяйственной продукции, техническую оснащенность и т. д. Всего имеется 26 таких показателей каждый из них имеет пять градаций, измерены они в ординальной шкале.

Результаты применения метода главных компонент в ЦП приведены соответственно на рис. (19.1, а, б) где квадратами обозначены 5% наблюдений, имеющих минимальный вес (они рассматриваются в качестве «подозрительных» как аномальные наблюдения). На рис. (19.1, а) эти наблюдения хорошо выделены и далеко отстоят от основной массы наблюдений.

Важно, однако, знать, действительно ли эти наблюдения могут в каком-либо содержательном смысле играть роль аномальных? Идентификация этих наблюдений показывает, что им соответствуют Магаданская, Архангельская, Мурманская и т. д. области.

(см. скан)

Рис. 19.1. Диаграмма рассеивания для 130 сельскохозяйственных регионов СССР: а) целенаправленное проецирование для выделения аномальных наблюдений, точки, «подозрительные» как аномальные, обозначены закрашенными квадратами; б) отображение тех же объектов на плоскости двух первых главных компонент

В смысле структуры сельскохозяйственного производства это действительно районы, резко отличающиеся от большинства сельскохозяйственных районов СССР — сельское хозяйство в них направлено в основном на удовлетворение нужд крупного промышленного города (Магадана, Архангельска и т.д.) и почти ничего не производит для других потребителей в СССР.

<< Предыдущий параграф Следующий параграф >>
Оглавление