Главная > Математика > Прикладная статистика: Классификации и снижение размерности
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

ВВЕДЕНИЕ. КЛАССИФИКАЦИЯ И СНИЖЕНИЕ РАЗМЕРНОСТИ. СУЩНОСТЬ И ТИПОЛОГИЗАЦИЯ ЗАДАЧ, ОБЛАСТИ ПРИМЕНЕНИЯ

B.1. Сущность задач классификации и снижения размерности и некоторые базовые идеи аппарата многомерного статистического анализа

Необходимость анализа и формализации задач, связанных со сравнением и классификацией объектов, сознавали ученые далекого прошлого. «Его (Аристотеля) величайшим и в то же время чреватым наиболее опасными последствиями вкладом в науку была идея классификации, которая проходит через все его работы ... Аристотель ввел или, по крайней мере, кодифицировал способ классификации предметов, основанный на сходстве и различии ...», — писал Дж. Берналл в «Науке истории общества» (М.: Изд-во иностр. лит., 1956.- C. 117). После Аристотеля с его «деревом вещей жизни» имеется еще в докомпьютерной эре ряд интереснейших примеров прекрасно построенных классификаций как в естественных, так и в общественных науках. Упомянем здесь (в хронологическом порядке) три из них: а) иерархическая классификация (основанная на понятии сходства) растений и видов М. Адансона (1757 г., [170]); б) знаменитая периодическая система элементов Д. И. Менделеева (1869 г.), представляющая собой, по существу, классификацию многомерных наблюдений (каждый химическии элемент может быть представлен в виде вектора характеризующих его разнотипных признаков, включая характеристики конфигурации внешних электронных оболочек атомов) с выявленным единым классифицирующим фактором (зарядом атомного ядра) и с упорядочением элементов внутри каждого класса; в) классификация крестьянских хозяйств, уездов и губерний России по характеру и уровню развития капитализма, полученная В. И. Лениным на основе анализа земско-статистических подворных переписей (1899 г., [1]).

Надо сказать, что, хотя аьторы упомянутых выдающихся классификаций и не располагали современным математическим аппаратом многомерного статистического анализа, основные идеи и методологические принципы этого аппарата явно или неявно пронизывают логику их конструкций, а подчас (в частности, в работе В.И. Ленина «Развитие капитализма в России») и прямо формулируются.

Остановимся на четырех генеральных идеях и методологических принципах многомерного статистического анализа, на которых базируются, по существу, все основные разделы и подходы математического аппарата классификации и снижения размерности.

1. Эффект существенной многомерности. Сущность этого принципа в том, что выводы, получаемые в результате анализа и классификации множества статистически обследованных (по ряду свойств) объектов, должны опираться одновременно на совокупность этих взаимосвязанных свойств с обязательным учетом структуры и характера их связей. В [5] природа эффекта существенной многомерности поясняется на таком примере: попытка различить два типа потребительского поведения семей, основанная на последовательном применении критерия однородности Стьюдента 112, п. 11.2.81 сначала по одному признаку (удельные расходы на питание), потом по другому (удельные расходы на промышленные товары и услуги) не дала результата, в то время как многомерный аналог этого критерия [12, п. 11.2.9], основанный на так называемом расстоянии Махаланобиса и учитывающий одновременно значения обоих упомянутых признаков и характер статистической связи между ними, дает правильный результат (т. е. обнаруживает статистически значимое различие между двумя анализируемыми совокупностями семей). Формулировку существа этого принципа мы находим уже в упомянутой работе В. И. Ленина [1]. Возражая против классификации крестьянских хозяйств изолированно по каждому из анализируемых признаков с ориентацией на их средние значения, он пишет [1, с. 96]: «Признаки для различения этих типов должны быть взяты сообразно с местными условиями и формами земледелия; если при экстенсивном зерновом хозяйстве можно ограничиться группировкой по посеву (или по рабочему скоту), то при других условиях необходимо принять в расчет посев промышленных растений, техническую обработку сельскохозяйственных продуктов, посев корнеплодов или кормовых трав, молочное хозяйство, огородничество и т. д. Когда крестьянство соединяет в широких размерах и земледельческие и промысловые занятия, — необходима комбинация двух указанных систем группировки (курсив наш. — С. А.), т. е. группировки по размерам и типам земледелия и группировки по размерам и типам «промыслов». Вопрос о приемах сводки подворных записей о крестьянском хозяйстве вовсе не такой узко специальный и второстепенный вопрос ...

Вследствие неудовлетворительной сводки масса драгоценнейших сведений прямо-таки теряется, и исследователь получает в свое распоряжение только «средние» цифры (по общинам, волостям, разрядам крестьян, по величине надела и т. д.). А эти «средние» зачастую совершенно фиктивны». Итак, статистический анализ множества объектов, даже если по каждому из них зарегистрированы значения набора признаков, будет неполным, ущербным, если ограничиваться при этом только средними значениями признаков и не использовать разнообразные характеристики тесноты и структуры связей между ними.

2. Возможность лаконичного объяснения природы анализируемых многомерных структур. Определим вначале, что понимается (здесь и в дальнейшем изложении) под многомерной структурой. Речь идет о множестве статистически обследованных объектов . Результаты статистического обследования представляются, как правило (но не всегда), в одной из двух форм;

таблицы (матрицы) «объект — свойство» вида

в которой — вектор значений анализируемых признаков (свойств) зарегистрированных на обследованном объекте;

или матрицы (таблицы) попарных сравнений вида

где элемент определяет результат сопоставления объектов и в смысле некоторого заданного отношения: может выражать меру сходства или различия объектов и меру их связи или взаимодействия в каком-либо процессе (например, поток продукции отрасли i в отрасль j), геометрическое расстояние между объектами, отношение предпочтения если объект не хуже объекта в противном случае) и т. д.

Под возможностью лаконичного объяснения природы анализируемой многомерной структуры подразумевается априорное допущение, в соответствии с которым существует небольшое (в сравнении с ) число определяющих (типообразующих) факторов, с помощью которых могут быть достаточно точно описаны как наблюдаемые характеристики анализируемых объектов (т. е. все элементы соответственно матриц X и А) и характер связей между ними, так и искомая классификация самих объектов. При этом упомянутые определяющие факторы могут находиться среди статистически обследованных характеристик, а могут быть латентными, т.е. непосредственно статистически не наблюдаемыми, но восстанавливаемыми по исходным данным вида (В.1) или . Гениальный пример практической реализации этого принципа дает нам периодическая система элементов Менделеева: в этом случае роль идеально информативного единственного определяющего фактора играет, как известно, заряд атомного ядра элемента.

Отметим, что на данном принципе многомерного статистического анализа построены такие важнейшие разделы математического аппарата классификации и снижения размерности, как метод главных компонент и факторный анализ (см. гл. 13, 14), многомерное шкалирование (см. гл. 16), целенаправленное проецирование в разведочном статистическом анализе данных (см. гл. 18—21) и др.

3. Максимальное использование «обучения» в настройке математических моделей классификации и снижения размерности. Для пояснения этого принципа представим задачи классификации и снижения размерности по схеме «на входе задачи — на выходе задачи» (табл. В.1).

Таблица В.1

Если исследователь располагает и «входами» и «выходами» задачи, то исходную информацию называют обучающей и целью исследования является описание процедур, с помощью которых при поступлении только входных данных нового объекта его можно было бы с наибольшей (в определенном смысле) точностью отнести к одному из классов (в задаче классификации) или снабдить значениями определяющих факторов (в задаче снижения размерности). Именно к таким ситуациям относятся типичные задачи медицинской диагностики, когда в клинических условиях в качестве исходных данных исследователь располагает как «входами» - результатами инструментальных обследований пациентов, так и «выходами» — уже установленным диагнозом («болен» - «здоров») по каждому из них. Цель исследований такого типа — использование имеющегося «обучения» для отбора из множества результатов обследований небольшого числа наиболее информативных (с точки зрения диагностической силы) показателей и для построения на их основе формального диагностирующего правила (см., например, [115]).

Однако в задачах социально-экономического профиля исследователь, как правило, располагает в качестве исходных данных лишь «входной» информацией (второй столбец табл. В.1) и в лучшем случае отдельными элементами «обучения»: например, известно, что определенная группа (из числа статистически обследованных) объектов относится к одному и тому же классу, но какие есть другие классы и как между ними распределены остальные статистически обследованные объекты, неизвестно. Сущность обсуждаемого принципа как раз и состоит в том, что даже такая урезанная и обедненная обучающая информация оказывается весьма полезной в решении узловых задач «настройки» используемых математических моделей, как, например, выбор метрики в исследуемом признаковом пространстве, оценка общего числа классов, выбор критерия качества классификации и т. д.

4. Оптимизационная формулировка задач классификации и снижения размерности. Среди множества возможных методов, реализующих поставленную цель статистической обработки данных (разбиение совокупности статистически обследованных объектов на однородные классы, переход от заданного широкого набора признаков к небольшому числу определяющих факторов), нужно уметь найти наилучший метод с помощью оптимизации некоторого экзогенно заданного критерия (функционала) качества метода.

Выбор конкретного вида этого критерия основан либо на априорном знании вероятностной и геометрической природы обрабатываемых данных, либо на соображениях содержательного (экономического, медицинского, технического и т. п.) плана. В сочетании с некоторыми другими (более специфицированными) базовыми идеями 1 этот подход дает возможность построить достаточно общую математическую конструкцию, в рамках которой удается «навести порядок» в огромном множестве существующих алгоритмов классификации и снижения размерности, подчас стихийно (и эвристически) возникающих из нужд разнообразных приложений.

<< Предыдущий параграф Следующий параграф >>
Оглавление