Главная > Математика > Прикладная статистика: Классификации и снижение размерности
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

ВЫВОДЫ

1. Разделение рассматриваемой совокупности объектов или явлений на однородные (в определенном смысле) группы называется классификацией. При этом термин «классификация» используют, в зависимости от контекста, для обозначения как самого процесса разделения, так и его результата. Это понятие тесно связано с такими терминами, как группировка, типологизация, систематизация, дискриминация, кластеризация, и является одним из основополагающих в практической и научной деятельности человека.

2. Переход от характеризующего состояние или функционирование некоторой совокупности объектов исходного массива данных к существенно более лаконичному набору показателей, отобранных из числа исходных или построенных с помощью некоторого их преобразования таким образом, чтобы минимизировать связанные с этим потери в информации (содержавшейся в исходном массиве данных относительно рассматриваемой совокупности объектов), составляет сущность процесса снижения размерности.

Этот процесс использует, в частности, логику и приемы классификации, и сам в свою очередь используется в классификационных процедурах.

3. В ситуациях, когда каждый из исследуемых объектов или явлений характеризуется большим чистом разнотипных и стохастически взаимосвязанных параметров, и исследователь имеет возможность получить, или уже получил, результаты статистического обследования по этим параметрам целой совокупности таких объектов или явлений, для решения задач классификации и снижения размерности следует привлекать специальный математический инструментарий многомерного статистического анализа: дискриминантный и кластер-анализ, методы расщепления смесей распределений, методы иерархической классификации, многомерное шкалирование, главные компоненты, факторный анализ, целенаправленное проецирование многомерных данных и т. п. Практическая реализация этих методов требует весьма сложных и трудоемких расчетов и стала возможной приблизительно лишь к середине нашего столетия, когда была создана необходимая вычислительная база.

4. К числу основных методологических принципов, которые лежат в основе большинства конструкций многомерного статистического анализа, следует отнести: а) необходимость учета эффекта существенной многомерности анализируемых данных (используемые в конструкциях характеристики должны учитывать структуру и характер статистических взаимосвязей исследуемых признаков); б) возможность лаконичного объяснения природы анализируемых многомерных структур (допущение, в соответствии с которым существует сравнительно небольшое число определяющих, подчас латентных, т. е. непосредственно не наблюдаемых, факторов, с помощью которых могут быть достаточно точно описаны все наблюдаемые исходные данные, структура и характер связей между ними); в) максимальное использование «обучения» в настройке математических моделей классификации и снижения размерности (под «обучением» понимается та часть исходных данных, в которой представлены «статистические фотографии» соотношений «входов» и «выходов» анализируемой системы); г) возможность оптимизационной формулировки задач многомерного статистического анализа (в том числе задач классификации и снижения размерности), т. е. нахождение наилучшей процедуры статистической обработки данных с помощью оптимизации некоторого экзогенно заданного критерия качества метода.

Первые два принципа относятся к природе обрабатываемых данных, а следующие два — к логике построения соответствующих аппаратных средств.

5. Среди типов прикладных задач (конечных прикладных целей) классификации следует выделить: 1) комбинационные группировки и их непрерывные обобщения — разбиение совокупности на интервалы (области) группирования; 2) простая типологизации: выявление естественного расслоения анализируемых данных (объектов) на четко выраженные «сгустки» (кластеры), лежащие друг от друга на некотором расстоянии, но не разбивающиеся на столь же удаленные друг от друга части; 3) связная неупорядоченная типологизация: использование реализованной в пространстве результирующих показателей простой типологизации в качестве обучающих выборок при классификации той же совокупности объектов в пространстве описательных признаков; 4) связная упорядоченная типологизация, которая отличается от связной неупорядоченной возможностью экспертного упорядочения классов, полученных в пространстве результирующих показателей, и использованием этого упорядочения для построения сводного латентного результирующего показателя как функции от описательных переменных; 5) структурная типологизация дает на «выходе» задачи дополнительно к описанию классов еще и описание существующих между ними и их элементами структурных (в том числе иерархических) связей; 6) типологизация динамических траекторий системы: в качестве классифицируемых объектов выступают характеристики динамики исследуемых систем, например дискретные или непрерывные временные ряды или траектории систем, которые в каждый момент времени могут находиться в одном из заданных состояний.

6. Основные типы прикладных задач снижения размерности: 1) отбор наиболее информативной системы показателей (в задачах регрессии, классификации и т.п.); 2) сжатие больших массивов информации, 3) визуализация (наглядное представление многомерных данных); 4) построение условного координатного пространства, в терминах переменных которого в некотором смысле наилучшим образом описываются и интерпретируются анализируемые свойства объектов рассматриваемой совокупности.

7. При выборе подходящего математического инструментария для решения конкретной задачи классификации следует исходить из согласованного с «заказчиком» типа конечных прикладных целей исследования и характера априорной и выборочной информации (см. табл. В.4);

при определении математической модели, лежащей в основе выбора метода решения задачи снижения размерности, следует идти от типа прикладной задачи (см. предыдущий пункт выводов) к характеристике состава и формы исходных данных, а затем — к смысловой нацеленности и конкретному виду подходящего критерия информативности (см. табл. В.5).

8. Вся процедура статистического исследования, нацеленного на решение задачи классификации или снижения размерности, может быть условно разбита на восемь этапов (см. рис. В.1): 1) установочный (предметно-содержательное определение целей исследования); 2) постановочный (определение типа прикладной задачи в терминах теории классификации и снижения размерности); 3) информационный (составление плана сбора исходной информации и его реализация, если ее не было уже на этапе 1, затем предварительный анализ исходной информации, ее ввод в ЭВМ, сверка, редактирование); 4) априорный математике-постановочный (осуществляемый до каких бы то ни было расчетов выбор базовой математической модели механизма генерации исходных данных); 5) разведочный (специальные методы статистической обработки исходных данных, например целенаправленное проецирование, нацеленные на выявление их вероятностной и геометрической природы); 6) апостериорный математико-постановочный (уточнение выбора базовой математической модели с учетом результатов предыдущего этапа); 7) вычислительный (реализация на ЭВМ уточненного на предыдущем этапе плана математико-статистического анализа данных); 8) итоговый (подведение итогов исследования, формулировка научных или практических выводов).

<< Предыдущий параграф Следующий параграф >>
Оглавление