Главная > Математика > Прикладная статистика: Классификации и снижение размерности
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

В.2. Типовые задачи практики и конечные прикладные цели исследований, использующих методы классификации и снижения размерности

До разработки аппарата многомерного статистического анализа и, главное, до появления и развития достаточно мощной электронно-вычислительной базы главные проблемы теории и практики классификации и снижения размерности относились не к разработке методов и алгоритмов, а к полноте и тщательности отбора и теоретического анализа изучаемых объектов, характеризующих их признаков, смысла и числа градаций по каждому из этих признаков.

Все методы классификации сводились, по существу, к методу так называемой комбинационной группировки, когда все характеризующие объект признаки носят дискретный характер или сводятся к таковым (пол или мотив миграции индивидуума, уровень жилищных условий или число детей в семье и т.п.), а два объекта относятся к одной группе только при точном совпадении зарегистрированных на них градаций одновременно по всем характеризующим их признакам (одинаковый пол, мотив миграции и т. д.). Методы снижения размерности ограничивались простым агрегированием однотипных признаков (например, переход от фиксации семейных расходов отдельно на молоко, сыр, сметану и т.п. к общим семейным расходам на молочные продукты) и отбором (на уровне содержательного анализа) некоторой наиболее информативной части из исходного набора признаков.

Однако по мере роста объемов перерабатываемой информации и, в частности, числа классифицируемых объектов и характеризующих их признаков возможность эффективной реализации подобной логики исследования становилась все менее реальной (так, например, число k групп или классов, подсчитываемое при комбинационной группировке по формуле , где — число градаций по признаку ), а — общее число анализируемых признаков, уже при и оказывается равным 243). Именно электронно-вычислительная техника стала тем главным инструментом, который позволил по-новому подойти к решению этой важной проблемы и, в частности, конструктивно воспользоваться разработанным к этому времени мощным аппаратом многомерного статистического анализа: методами распознавания образов «с учителем» (дискриминантный анализ) и «без учителя» (автоматическая классификация, или кластер-анализ), методами и моделями факторного анализа, многомерного шкалирования и т. д.

Развитие электронно-вычислительной техники как средства обработки больших массивов данных стимулировало проведение в последние годы широких комплексных исследований сложных социально-экономических, технических, медицинских и других процессов и систем, таких, как образ и уровень жизни населения, совершенствование организационных систем, региональная дифференциация социально-экономического развития, планирование и прогнозирование отраслевых систем, закономерности возникновения сбоев (в технике) или заболеваний (в медицине) и т. п. В связи с многоплановостью и сложностью этих объектов и процессов данные о них по необходимости носят многомерный и разнотипный характер, так как до их анализа обычно бывает неясно, насколько существенно то или иное свойство для конкретной цели. В этих условиях выходят на первый план проблемы построения группировок и классификации по многомерным данным (т. е. проблемы классификации многомерных наблюдений), причем появляется возможность оптимизации этого построения с точки зрения наибольшего соответствия получаемого результата поставленной конечной цели классификации.

Цели классификации существенно расширяются, и одновременно содержание самого процесса классификации становится неизмеримо богаче и сложнее. Оно, в частности, дополняется проблемой построения самой процедуры классификации, ранее носившей чисто технический характер.

Для пояснения сущности основных типов задач классификации и конечных прикладных целей, которые ставит при этом перед собой исследователь, рассмотрим примеры.

Пример В.1. Выявление типологии потребительского поведения населения, анализ сущности дифференциации этого поведения, прогноз структуры потребления [154].

В качестве исходной информационной базы используются данные бюджетных обследований семей [105]. Поясним логическую схему исследования. Многомерная статистика рассматривает совокупность изучаемых многомерных объектов (В.1) как совокупность точек или векторов в пространстве описывающих их признаков. Применительно к схеме потребления совокупностью объектов, подлежащих изучению, является множество элементарных потребительских ячеек — семей. Каждая семья характеризуется, с одной стороны, некоторым набором X факторов-детерминантов (социально-демографические и другие признаки, описывающие условия жизнедеятельности семьи), а с другой — набором Y параметров поведения («переменных поведения»), в которых отражаются ее фактические потребности.

В качестве социально-демографических факторов, имеющих существенное значение для изучения потребительских аспектов социальной жизни, целесообразно использовать, например, общественную и национальную принадлежность, уровень образования и квалификацию, характер труда, демографический тип и возраст семьи, тип населенного пункта и характер жилища, размер и структуру имущества, уровень доходов.

Имеется некоторое сомнение относительно включения последнего показателя (уровень доходов), так как принципиально он может быть выражен через другие социальнодемографические характеристики. Величина доходов является производной от уровня образования, квалификации, характера трудовой деятельности (через заработки работников семьи), половозрастного и численного состава семьи. Поэтому доход остается в нашей конструкции как один из вспомогательных компонентов, в концентрированном виде выражающий разницу в основных факторах-детерминантах.

Различия в потребностях, складывающиеся под влиянием социально-демографических и природно-климатических условий, являются объективно существующими; они формируют весь строй поведения потребителя в конкретноисторических условиях, а в конечном счете порождают своеобразные типы потребителей, ориентированные на существенно разное потребление.

Весь комплекс социально-демографических и других факторов, существенно воздействующих на структуру потребления, будем называть типообразующим. Они имеют определяющее значение, в то время как все другие дают лишь случайную вариацию в пределах одной группы (типа) потребительского поведения.

В качестве признаков поведения Y можно рассматривать три группы параметров: а) уровень и структуру потребления; б) характер (объем и содержание) использования свободного времени; в) интенсивность изменения социального, трудового, демографического статуса (в [154] рассмотрена только первая группа признаков).

Итак, в задаче даны числовые характеристики и градации типообразующих и одновременно поведенческих признаков каждой семьи из анализируемой совокупности.

Решение общей проблемы, связанной с выявлением и прогнозом структуры и дифференциации потребностей населения, распадается в соответствии с принятой в [154] логической схемой исследования на следующие этапы.

1. Сбор и первичная статистическая обработка исходных данных. Исследуемые объекты (семьи) выступают в качестве многомерных наблюдений или точек в двух многомерных пространствах признаков. Фиксируя в качестве координат этих точек значения (или градации) типообразующих переменных X (т. е. факторов-детерминантов), рассматриваем их в «пространстве состояния» П (X), т. е. в пространстве, координатами которого служат основные показатели жизнедеятельности семей. Фиксируя же в качестве координат тех же самых объектов значения показателей Y их потребительского поведения, рассматриваем их в «пространстве поведения» П (Y). Очевидно, при надлежащем выборе метрики в пространствах П (X) и П (Y) геометрическая близость двух точек в П (X) будет означать сходство условий жизнедеятельности соответствующих двух семей, так же как и геометрическая близость точек в П (F) будет означать сходство их потребительского поведения. Среди методов первичной статистической обработки анализируемых данных, обычно используемых на этой стадии исследования (см., например, [12, гл. 10-11]), широко распространенными и весьма полезными являются методы изучения различных одно-, двух- и трехмерных эмпирических распределений, которые сводятся к построению и различным представлениям (графическим, табличным) упомянутых выше комбинационных группировок.

Пример табличного представления одной из таких двумерных комбинационных группировок приведен в табл. В.2.

Таблица В.2

Эта комбинационная группировка построена на основе статистического обследования 400 семей по двум признакам из пространства П (X): по — величине среднедушевого семейного дохода (с тремя градациями: «низкий», «средний» и «высокий»), и по (2) — качеству жилищных условий (с четырьмя градациями: «низкое», «удовлетворительное», «хорошее» и «очень хорошее»). Каждая клетка таблицы соответствует классу, полученному в результате проведенной комбинационной группировки; внутри клетки обозначено число семей, имеющих данное сочетание градаций анализируемых признаков (подобные таблицы называют также «таблицами сопряженности», см., например, [12, п. 10.3.5], а также [11, 3.1]).

Для более полного представления результатов подобной классификации можно было бы ввести в программу компьютера требование выпечатывать номера семей, попавших в каждую из двадцати клеточек таблицы.

Заметим, что непрерывным аналогом комбинационной группировки является обычный переход от исходных наблюдений непрерывной случайной величины к «группированным» выборочным данным [12, п. 5.4.2]. Результат такого перехода представляется либо в виде таблицы, подобной табл. В.2, либо в виде графика (гистограммы).

2. Выявление основных типов потребления с помощью разбиения исследуемого множества точек - семей на классы в «пространстве поведения» П(Y). Гипотеза существования «естественных», объективно обусловленных типов поведения, т. е. какого-то небольшого количества классов семей, таких, что семьи одного класса характеризуются сравнительно сходным, однотипным потребительским поведением, геометрически означает распадение исследуемой в «пространстве поведения» совокупности точек - семей на соответствующее число «сгустков» или «скоплений» точек.

Выявив с помощью подходящих методов многомерного статистического анализа (кластер-анализа, таксономии) эти классы-сгустки, тем самым определим основные типы потребительского поведения. Попутно в качестве «побочного результата» решения главной задачи этого этапа конструктивно реализуется метод построения целевых функций предпочтения, являющийся развитием и некоторой модификацией метода, предложенного в [47]. По существу, при этом решается одна и та же задача регрессионного анализа [11], но функция регрессии строится отдельно только по однородным данным, попавшим в один какой-то класс.

3. Отбор наиболее информативных типообразующих признаков (факторов-детерминантов) и выбор метрики в пространстве типообразующих признаков. Очевидно, неправомерно рассчитывать на то, что диапазоны возможных значений каждого из кандидатов в типообразующие признаки окажутся непересекающимися для семей с разным типом потребительского поведения. Другими словами, значения каждого из признаков в отдельности и их набора в совокупности подвержены некоторому неконтролируемому разбросу при анализе семей внутри каждого из типов потребления. Естественно считать наиболее информативными те факторы-детерминанты или те их наборы, разница в законах распределения которых оказывается наибольшей при переходе от одного класса потребительского поведения к другому. Эта идея и положена в основу метода отбора наиболее информативных (типообразующих) признаков-детерминантов. Наконец, отобрав небольшое число наиболее информативных признаков-детерминантов, мы можем попытаться снова разбить исследуемую совокупность семей на классы-сгустки, но уже в пространстве выявленных типообразующих признаков. При этом результат разбиения будет существенно зависеть не только от состава группы наиболее информативных типообразующих признаков, но и от способа вычисления расстояния между двумя точками-семьями в этом пространстве и, в частности, от того, с какими весами участвуют в этом расстоянии отобранные типообразующие признаки. Поэтому веса подбираются таким образом, чтобы результат разбиения семей на классы в пространстве наиболее информативных факторов-детерминантов в некотором смысле наименее отличался бы от разбиения тех же точек-семей, которое было получено в «пространстве поведения».

Таким образом, добиваемся наибольшего совпадения, наибольшей связности в результатах классификации одного и того же множества семей в двух разных признаковых пространствах — «пространстве поведения» П (V) и пространстве типообразующих признаков П(Х).

4. Анализ динамики структуры исследуемой совокупности семей в пространстве наиболее информативных типообразующих признаков. Конечной целью этого этапа является прогноз тех постепенных преобразований классификационной структуры совокупности потребителей (семей, рассматриваемых в пространстве типообразующих признаков), которые должны произойти с течением времени. Реализация этапа может быть осуществлена с использованием результатов и подходов, описанных в [50], а также с помощью привлечения математического аппарата марковских цепей (аналогично тому, как используется этот аппарат при анализе динамики структуры трудовых ресурсов; см., например, [17]) и многомерных временных рядов [146]. При этом, конечно, должны быть учтены существующие методы прогноза социально-демографической структуры населения [31], [145].

5. Прогноз структуры потребления. На этом этапе исследования опираемся на результаты, полученные в итоге проведения предыдущего этапа, т. е. исходим из заданной классификационной структуры потребителей в интересующий нас период времени в будущем. Восстанавливая классификационную структуру потребления (классификационную структуру совокупности семей в пространстве признаков П (Y), характеризующих потребительское поведение семьи) по классификационной структуре потребителей (по классификационной структуре той же совокупности, но в пространстве типообразующих признаков), будем относить каждую конкретную семью к тому типу потребления, для которого значения характеризующих ее типообразующих признаков являются, грубо говоря, наиболее типичными.

Пример В. 2. Классификация как необходимый предварительный этап статистической обработки многомерных данных [9]. Пусть исследуется зависимость интенсивности миграции населения (профессиональной или территориальной) от ряда социально-экономических и географических факторов таких, как средний заработок, обеспеченность жилой площадью, детскими учреждениями, уровень образования, возможности профессионального роста, климатические условия и т. п.

Естественно предположить (и результаты исследования это подтверждают), что для различных однородных групп индивидуумов одни и те же факторы влияют на в разной степени, а иногда и в противоположных направлениях. Поэтому до применения аппарата регрессионно-корреляционного анализа следует разбить все имеющиеся в нашем распоряжении данные

п) на однородные классы и решать далее поставленную задачу отдельно для каждого такого класса. Только в этом случае можно ожидать, что полученные коэффициенты регрессии по будут допускать содержательную интерпретацию, а мера тесноты связи между окажется достаточно высокой. Подобные задачи можно найти в [130, с. 77].

Другой вариант такого рода примера получим, если в качестве объектов исследования рассмотрим предприятия определенной отрасли, а в качестве вектора наблюдений — совокупность объективных (нерегулируемых) условий работы обследованного предприятия (сырье, энергия, оснащенность техникой и рабочей силой и т. п.). Классификация предприятий по X производится как необходимый предварительный этап для возможности последующей объективной оценки работы коллективов и разработки обоснованных дифференцированных нормативов: очевидно, лишь к предприятиям, попавшим в один класс по X, может быть применена одинаковая система нормативов и стимулирующих показателей (см. описание подобной задачи в [53]). Далее можно рассматривать задачу, аналогичную сформулированной выше, а именно: если — вектор показателей качества работы предприятия (объем и качество выпускаемой продукции, ее себестоимость, рентабельность и т.п.), — вектор регулируемых факторов, от которых зависят условия производства (число основных подразделений, уровень автоматизации и т. д.), то задачу описания интересующей нас зависимости вида естественно решать отдельно для каждого класса по X.

Пример В.3. Классификация в задачах планирования выборочных обследований [9]. Здесь речь пойдет о планировании выборочных экономико-социологических обследований городов. Предположим, что необходимо достаточно детально проанализировать подробные статистические данные о городах с целью выявления наиболее характерных черт в экономико-социологическом облике типичного среднерусского города.

Производить подробный, кропотливый анализ по каждому из городов РСФСР, очевидно, слишком трудоемко, да и нецелесообразно. По-видимому, разумнее попытаться предварительно выявить число и состав различных типов в совокупности обследованных городов по набору достаточно агрегированных признаков характеризующих каждый город (например, понимать под число жителей города, приходящееся на каждую тысячу жителей, обладающих заданным признаком, скажем, высшим образованием, специальностью металлурга и т.п.). А затем, отметив наиболее типичные города в каждом классе (наблюдения-точки наиболее близко располагающиеся к «центрам тяжести» своих классов), отобрать их для дальнейшего (более детализованного) социально-экономического анализа. При этом, очевидно, мера представительности отобранных «типичных городов» определится удельным весом количественного состава точек данного класса среди всех рассматриваемых точек (городов). Подробнее об этой задаче см. в [9, гл. 5]. Похожие задачи планирования выборочных обследований с использованием методов классификации рассмотрены в [130, с. 34].

Анализ рассмотренных примеров с учетом, конечно, и другого накопившегося к настоящему времени опыта решения практических задач классификации в экономике, социологии, психологии, технике, медицине, геологии, археологии и других сферах практической и научной деятельности человека позволяет произвести определенную систематизацию этих задач в соответствии с их основными типами и конечными прикладными целями исследования (табл. В.3).

В качестве комментария к табл. В.3 поясним методологическую общность задач 3.1-3.3: прогноза экономико-социологических ситуаций, диагностики и автоматического распознавания зрительных и слуховых образов. Для этого лежащую в основе их решения методологическую схему связной неупорядоченной типологизации представим следующим образом. Пусть в качестве исходных данных об объекте имеем вектор описательных (объясняющих) признаков (это, в частности, характеристики условий жизнедеятельности обследованной семьи в примере В.1, значения параметров исследуемого технологического процесса, геофизических характеристик грунта или результаты обследований пациента в задачах диагностики, геометрические, или частотные характеристики распознаваемого образа в п. 3.3) и некоторую информацию о том результирующем свойстве, по которому производится классификация объектов (специфика социально-экономического поведения семьи в примере В.1;

Таблица В.3

(см. скан)

Продолжение табл. В.3

(см. скан)

Продолжение табл. В.3

наличие или отсутствие сбоев в анализируемом технологическом процессе, месторождений полезных ископаемых на обследованном участке, заболевания у обследуемого пациента в задачах диагностики; конкретный содержательный смысл распознаваемого зрительного или слухового образа в задачах п. 3.3). Разница между задачами типа 3.1 и задачами 3.2 и 3.3 заключается в том, что в задачах прогноза экономико-социологических ситуаций информация об исследуемом результирующем свойстве объекта не является окончательной, т. е. не задает однозначно, как это делается и задачах 3.2 и 3.3, образа (класса, типа), к которому относится этот объект. Эта информация в задачах типа 3.1 носит лишь промежуточный характер и представляется, как правило, в виде вектора результирующих показателей

Поэтому в отличие от задач 3.2 и 3.3 (в которых уже «на входе» задачи имеем распределение анализируемых объектов-векторов по классам, что и составляет так называемую «обучающую выборку») в задачах типа 3.1 нужно предварительно осуществить простую типологизацию множества объектов в пространстве результирующих показателей и лишь затем использовать полученные в результате этой типологизации классы в качестве обучающих выборок для построения классифицирующего правила в пространстве описательных признаков

«На выходе» же всех задач типа 3.1 — 3.3 должны быть 1) набор наиболее информативных объясняющих переменных (так называемых типообразующих признаков) , которые либо отбираются по определенному правилу из числа исходных описательных признаков либо строятся в качестве некоторых их комбинаций; 2) правило отнесения (дискриминантная функция, классификатор) каждого нового объекта О, заданного значениями своих описательных признаков X, к одному из заданных (или выявленных в процессе предварительной простой типологизации) в пространстве П (Y) классов или образов. При этом типообразующие признаки и искомое правило классификации должны быть подобраны таким образом, чтобы обеспечивать наивысшую (в определенном смысле) точность решения задачи отнесения объекта к одному из анализируемых классов по заданным значениям его описательных признаков X.

Из сформулированных выше конечных целей классификации видно, что тематику разбиения многомерных данных на однородные (в определенном смысле) группы подчас трудно отделить от задачей ижен размерности исследуемых данных. Однако прикладные цели методов снижения размерности не исчерпываются сформулированной выше задачей перехода от исходного набора описательных признаков к существенно более скромному (по численному составу) набору так называемых типообразующих признаков , которые являются наиболее характерными, наиболее определяющими с точки зрения полноты и точности разбиения исследуемых объектов на классы.

Выделим в качестве основных следующие типовые прикладные задачи снижения размерности анализируемого признакового пространства, обслуживаемые соответствующими разделами многомерного статистического анализа.

I. Отбор наиболее информативных показателей (включая выявление латентных факторов). Речь идет об отборе из исходного (априорного) множества признаков или построении в качестве некоторых комбинаций исходных признаков относительно небольшого числа переменных , которые обладали бы свойством наибольшей информативности в смысле, определенном, как правило, некоторым специально подобранным для каждого конкретного типа задач критерием информативности

Так, например, если критерий «настроен» на достижение максимальной точности регрессионного прогноза некоторого результирующего количественного показателя у по известным значениям предикторных переменных то речь идет о наилучшем подборе наиболее существенных предикторов в модели регрессии [11, § 8.7]. Если же критерий устроен таким образом, что его оптимизация обеспечивает наивысшую точность решения задачи отнесения объекта к одному из классов по значениям X его описательных признаков, то речь идет о построении системы типообразующих признаков в задаче классификации (см. § 1.4, 2.5, 2.6, гл. 11) или о выявлении и интерпретации некоторой сводной (латентной) характеристики изучаемого свойства (см. гл. 15). Наконец, критерий может быть нацелен на максимальную автоинформативность новой системы показателей Z, т. е. на максимально точное воспроизведение всех исходных признаков по сравнительно небольшому числу вспомогательных переменных . В этом случае говорят о наилучшем автопрогнозе и обращаются к моделям и методам факторного анализа и его разновидностей (см. гл. 13 и 14).

II. Сжатие массивов обрабатываемой и хранимой информации. Этот тип задач тесно связан с предыдущим и, в частности, требует в качестве одного из основных приемов решения построения экономной системы вспомогательных признаков, обладающих наивысшей автоинформативностью, т. е. свойством наилучшего автопрогноза (см. выше). В действительности при решении достаточно серьезных задач сжатия больших массивов информации (подобные задачи весьма актуальны и в плане необходимости минимизации емкостей носителей, на которых хранится архивная информация, и в плане экономии памяти ЭВМ при обработке текущей информации) используется сочетание методов классификации и снижения размерности. Методы классификации позволяют подчас перейти от массива, содержащего информацию по всем статистически обследованным объектам, к соответствующей информации только по k эталонным образцам (), где в качестве эталонных образцов берутся специальным образом отобранные наиболее типичные представители классов, полученных в результате операции разбиения исходного множества объектов на однородные группы. Методы же снижения размерности позволяют заменить исходную систему показателей набором вспомогательных (наиболее автоинформативных) переменных

Таким образом, размерность информационного массива понижается от до , т.е. во многие десятки раз, если учесть, что и k обычно на порядки меньше соответственно .

III. Визуализация (наглядное представление) данных.

Вернемся к примеру В.1. При проведении простой типологизации семей в «пространстве поведения» приходится иметь дело с множеством точек (семей) в 98-мерном пространстве. А для формирования рабочих гипотез, исходных допущений о геометрической и вероятностной природе совокупности анализируемых данных важно было бы суметь «подсмотреть», как эти данные точки располагаются в анализируемом пространстве П (Y). В частности, уже на предварительной стадии исследования хотелось бы знать, распадается ли исследуемая совокупность точек на четко выраженные сгустки в этом пространстве, каково примерное число этих сгустков и т.д.? Но максимальная размерность «фактически осязаемого» пространства, как известно, равна трем Поэтому, естественно, возникает проблема: нельзя ли спроецировать анализируемые многомерные данные из исходного пространства на прямую, на плоскость, в крайнем случае — в трехмерное пространство, но так, чтобы интересующие нас специфические особенности исследуемой совокупности (например, ее расслоенность на кластеры), если они присутствуют в исходном пространстве, сохранились бы и после проецирования. Следовательно, и здесь речь идет о снижении размерности анализируемого признакового пространства, но снижении, во-первых, подчиненном некоторым специальным критериям и, во-вторых, оговоренном условием, что размерность редуцированного пространства не должна превышать трех. Аппарат для решения подобных задач называется в книге «целенаправленным проецированием» многомерных данных и излагается в гл. 18—20.

IV. Построение условных координатных осей (многомерное шкалирование, латентно-структурный анализ). В данном типе задач снижение размерности понимается иначе, чем прежде. До сих пор речь шла о подчиненном некоторым специальным целям переходе от заданной координатной системы X (т. е. от исходных переменных ), к новой координатной системе , размерность которой существенно меньше размерности и оси которой конструируются с помощью соответствующих преобразований осей

Теперь же рассматриваем ситуацию, когда исходной содержательно заданной координатной системы не существует вовсе, а подлежащие статистическому анализу данные представлены в виде (В. 1), т. е. в виде матрицы А попарных отношений между объектами (см. (В.1)). Ставится задача: для заданной, сравнительно невысокой, размерности определить вспомогательные условные координатные оси и способ сопоставления каждому объекту его координат в этой системе таким образом, чтобы попарные отношения (например, попарные взаимные расстояния) между объектами, вычисленные исходя из их содержательного смысла на базе этих условных координат, в определенном смысле минимально бы отличались от заданных величин . В определенных условиях (в первую очередь в задачах педагогики, психологии, построения различных рейтингов и т. п.) построенные таким образом условные переменные поддаются содержательной интерпретации и могут тогда рассматриваться в качестве латентных характеристик определенных свойств анализируемых объектов (такого типа задачи называют часто задачами латентно-структурного анализа). Снижение размерности происходит здесь в том смысле, что от исходного массива информации размерности переходим к матрице типа «объект — свойство» (см. (В.1)) размерности где . Аппарат для решения подобных задач состоит из методов так называемого многомерного шкалирования и представлен в гл. 16.

<< Предыдущий параграф Следующий параграф >>
Оглавление