Главная > Математика > Прикладная статистика: Классификации и снижение размерности
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Раздел III. СНИЖЕНИЕ РАЗМЕРНОСТИ АНАЛИЗИРУЕМОГО ПРИЗНАКОВОГО ПРОСТРАНСТВА И ОТБОР НАИБОЛЕЕ ИНФОРМАТИВНЫХ ПОКАЗАТЕЛЕЙ

Глава 13. МЕТОД ГЛАВНЫХ КОМПОНЕНТ

13.1. Сущность проблемы снижения размерности и различные методы ее решения

В исследовательской и практической статистической работе приходится сталкиваться с ситуациями, когда общее число признаков регистрируемых на каждом из множества обследуемых объектов (стран, городов, предприятий, семей, пациентов, технических или экологических систем), очень велико — порядка ста и более. Тем не менее имеющиеся многомерные наблюдения

следует подвергнуть статистической обработке, осмыслить либо ввести в базу данных для того, чтобы иметь возможность их использовать в нужный момент.

Желание статистика представить каждое из наблюдений (13.1) в виде вектора Z некоторых вспомогательных показателей с существенно меньшим (чем ) числом компонент рбывает обусловлено в первую очередь следующими причинами:

необходимостью наглядного представления (визуализации) исходных данных (13.1), что достигается их проецированием на специально подобранное трехмерное пространство плоскость или числовую прямую (задачам такого типа посвящен раздел IV);

стремлением к лаконизму исследуемых моделей, обусловленному необходимостью упрощения счета и интерпретации полученных статистических выводов;

необходимостью существенного сжатия объемов хранимой статистической информации (без видимых потерь в ее информативности), если речь идет о записи и хранении массивов типа (13.1) в специальной базе данных.

При этом новые (вспомогательные) признаки могут выбираться из числа исходных или определяться по какому-либо правилу по совокупности исходных признаков, например как их линейные комбинации. При формировании новой системы признаков к последним предъявляв юте я разного рода требования, такие, как наибольшая информативность (в определенном смысле), взаимная некоррелированность, наименьшее искажение геометрической структуры множества исходных данных и т. п. В зависимости от варианта формальной конкретизации этих требований (см. ниже, а также раздел IV) приходим к тому или иному алгоритму снижения размерности. Имеется, по крайней мере, три основных типа принципиальных предпосылок, обусловливающих возможность перехода от большого числа исходных показателей состояния (поведения, эффективности функционирования) анализируемой системы к существенно меньшему числу наиболее информативных переменных. Это, во-первых, дублирование информации, доставляемой сильно взаимосвязанными признаками; во-вторых, неинформативность признаков, мало меняющихся при переходе от одного объекта к другому (малая «вариабельность» признаков); в-третьих, возможность агрегирования, т. е. простого или «взвешенного» суммирования, по некоторым признакам.

Формально задача перехода (с наименьшими потерями в информативности) к новому набору признаков может быть описана следующим образом. Пусть — некоторая р-мерная вектор-функция исходных переменных и пусть — определенным образом заданная мера информативности -мерной системы признаков Конкретный выбор функционала зависит от специфики решаемой реальной задачи и опирается на один из возможных критериев: критерий автоинформативности, нацеленный на максимальное сохранение информации, содержащейся в исходном массиве относительно самих исходных признаков; и критерий внешней информативности, нацеленный на максимальное «выжимание» из информации, содержащейся в этом массиве относительно некоторых других (внешних) показателей.

Задача заключается в определении такого набора признаков Z, найденного в классе F допустимых преобразований исходных показателей что

Тот или иной вариант конкретизации этой постановки (определяющий конкретный выбор меры информативности ) и класса допустимых преобразований) приводит к конкретному методу снижения размерности: к методу главных компонент, факторному анализу, экстремальной группировке параметров и т. д.

Поясним это на примерах.

13.1.1. Метод главных компонент (см. § 13.2-§ 13.6).

Именно к первым главным компонентам придет исследователь, если в качестве класса допустимых преобразований F определит всевозможные линейные ортогональные нормированные комбинации исходных показателей, т. е.

(здесь ) — математическое ожидание а в качестве меры информативности -мерной системы показателей выражение

(здесь D, как и ранее, знак операции вычисления дисперсии соответствующей случайной величины).

13.1.2. Факторный анализ (см. гл. 14).

Как известно (см. § 14.1), модель факторного анализа объясняет структуру связей между исходными показателями тем, что поведение каждого из них статистически зависит от одного и того же набора так называемых общих факторов т. е.

где — «нагрузка» общего фактора на исходный показатель - остаточная «специфическая» случайная компонента, причем — попарно некоррелированы.

Оказывается, если F определить как класс всевозможных линейных комбинаций с учетом упомянутых ограннченнй на а в качестве меры информативности -мерной системы показателей выбрать величину то решение оптимизационной задачи (13.2) совпадает с вектором общих факторов в модели факторного анализа. Здесь — корреляционная матрица исходных показателей корреляционная матрица показателей — евклидова норма матрицы А.

13.1.3. Метод экстремальной группировки признаков (см. п. 14.2.1).

В данном методе речь идет о таком разбиении совокупности исходных показателей на заданное число групп что признаки, принадлежащие одной группе, были бы взанмокоррелнрованы сравнительно сильно, в то время как признаки, принадлежащие к разным группам, были бы коррелнрованы слабо. Одновременно решается задача замены каждой группы сильно взаимокоррелированных исходных показателей одним вспомогательным «равнодействующим» показателем который, естественно, должен быть в тесной корреляционной связи с признаками своей группы. Определив в качестве класса допустимых преобразований F исходных показателей все нормированные линейные комбинации ищем решение максимизируя (по S и ) функционал

где — коэффициент корреляции между переменными .

13.1.4. Многомерное шкалирование (см. гл. 16).

В ряде ситуаций и в первую очередь в ситуациях, когда исходные статистические данные получают с помощью специальных опросов, анкет, экспертных оценок, возможны случаи, когда элементом первичного наблюдения является не состояние объекта, описываемого вектором а характеристика попарной близости (отдаленности) двух объектов (или признаков) соответственно с номерами

В этом случае исследователь располагает в качестве массива исходных статистических данных матрицей размера (если рассматриваются характеристики попарной близости объектов) или (если рассматриваются характеристики попарной близости признаков) вида

где величины интерпретируются либо как расстояния между объектами (признаками) i и либо как ранги, задающие упорядочение этих расстояний. Задача многомерного шкалирования состоит в том, чтобы «погрузить» наши объекты (признаки) в такое -мерное пространство , т. е. так выбрать координатные оси чтобы исходная геометрическая конфигурация совокупности анализируемых точек-объектов (или точек-признаков), заданных с помощью (13.1) или (13.5), оказалась бы наименее искаженной в смысле некоторого критерия средней «степени искажения» взаимных попарных расстояний.

Одна из достаточно общих схем многомерного шкалирования определяется критерием

где — расстояние между объектами в исходном пространстве, — расстояние между теми же объектами в искомом пространстве меньшей размерности — свободные параметры, выбор конкретных значений которых производится по усмотрению исследователя.

Определив меру информативности искомого набора признаков Z, например, как величину, обратную упомянутой выше величине степени искажения геометрической структуры исходной совокупности точек, сведем эту задачу к общей постановке (13.2), полагая

13.1.5. Отбор наиболее информативных показателей в моделях дискриминантного анализа (см. § 1.4; 2.5).

Приведенные выше функционалы являются измерителями автоинформативности соответствующей системы признаков. Приведем теперь примеры критериев внешней информативности. В частности, нас будет интересовать информативность системы показателей с точки зрения правильности классификации объектов по этим показателям в схеме дискриминантного анализа. При этом класс допустимых преобразований F определим исходя из требований, что в качестве могут рассматриваться лишь представители набора исходных показателей, т. е.

Распространенным исходным тезисом при решении задачи выявления наиболее информативных показателей из исходного набора является утверждение, что вектор показателей заданной размерности тем более информативен, чем больше различие в законах его вероятностного распределения, определенных в разных классах в рассматриваемой задаче классификации. Если ввести меру попарного различия законов описывающих распределение вероятностей вектора признаков в классах с номерами то можно формализовать вышеприведенный принцип отбора наиболее информативных показателей определяя их из условия максимизации (по ) величины

Наиболее употребительные меры различия между законами распределения вероятностей — это расстояние информационного типа (расстояние Кульбака, расстояние Махаланобиса), а также «расстояние по вариации» (подробнее об этом см. в [154, с. 76—84].

13.1.6. Отбор наиболее информативных переменных в моделях регрессии (см. [12, гл. 8]).

При построении зависимостей регрессионного типа одним из центральных оказывается вопрос выявления сравнительно небольшого числа переменных (из априорного набора наиболее существенно влияющих на поведение исследуемого результирующего признака у.

Таким образом, как и в предыдущем пункте, класс F состоит из всевозможных наборов переменных отобранных из исходного множества факторов-аргументов и имеем дело с критерием внешней информативности таких наборов. Его вид обычно задается с помощью множественного коэффициента детерминации — характеристики степени тесноты связи показателя у с набором переменных При этом для фиксированной размерности набор переменных будет, очевидно, считаться наиболее информативным (с точки зрения точности описания поведения показателя у), если значение меры информативности на этом наборе достигает максимума.

13.1.7. Сведение нескольких частных критериальных показателей к единому интегральному (см. гл. 15).

Речь идет о ситуациях, в которых «качество функционирования» исследуемой системы или объекта (предприятия, сложного изделия, отдельного специалиста и т.д.) характеризуется набором поддающихся измерению частных критериальных показателей . Однако требуется перейти к некоторой не поддающейся непосредственному измерению скалярной интегральной оценке у. При этом постулируется, что латентный показатель у является функцией известного общего вида от и требуется подобрать лишь неизвестное значение параметра (вообще говоря, векторного) .

Для решения этой задачи к зарегистрированной в результате контрольного обследования исходной статистической информации вида (13.1) приходится добавлять один из следующих вариантов экспертной информации о показателе у.

Вариант 1: балльная оценка «выходного качества» у, т. е. значения экспертно оценивающие в определенной балльной шкале «выходное качество» объектов.

Вариант 2: ранжирование анализируемых объектов, т. е. их упорядочение по степени убывания «выходного качества» у, таким образом будем иметь ранги т. е. порядковые номера объектов в этом упорядоченном ряду.

Вариант 3: результаты попарных сравнений анализируемых объектов по интересующему нас «выходному качеству» или результат разбиения контрольной совокупности объектов на группы, однородные с точки зрения «выходного качества»; и в том и в другом случае экспертные данные могут быть представлены с помощью булевой матрицы , где если не хуже в противном случае.

Алгоритмы определения неизвестного параметра используют в качестве исходной статистическую информацию (13.1), дополненную одним из вариантов экспертной информации (поэтому метод называется экспертно-статистическим), и построены на следующей идее. Если было бы известно значение параметра , можно было бы вычислить значение целевой функции для каждого из контрольных объектов и определить с помощью этой целевой функции и балльные оценки и ранги и матрицу парных сравнений

Поэтому если хотим формализовать с помощью целевой функции экспертные критерийные установки, в соответствии с которыми формируется единый интегральный показатель «выходного качества» у, естественно подчинить алгоритм поиска параметра оптимизационному критерию вида

(здесь под ) подразумевается коэффициент ранговой корреляции Спирмэна между ранжировками S и Q). Разработаны алгоритмы и программы, позволяющие вычислять 0 в задаче максимизации критерия для всех трех вариантов (см. гл. 15).

<< Предыдущий параграф Следующий параграф >>
Оглавление