Главная > Математика > Прикладная статистика: Классификации и снижение размерности
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

ПРЕДИСЛОВИЕ

Данная книга является третьей в трехтомном справочном издании, задуманном и реализуемом нашим авторским коллективом. В первом томе (Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: Основы моделирования и первичная обработка данных. — М.: финансы и статистика, 1983. — 472 с.) дается, в частности, определение прикладной статистики (см. с. 19) как самостоятельной научной дисциплины, разрабатывающей и систематизирующей понятия, приемы, математические методы и модели, предназначенные для организации сбора, стандартной записи, систематизации и обработки статистических данных с целью их удобного представления, интерпретации и получения научных и практических выводов. Второй том (Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: Исследование зависимостей. — М.: Финансы и статистика, 1985.-488 с.) посвящен описанию методов анализа структуры, тесноты и конкретного вида статистических связей между исследуемыми признаками разной природы — количественными, ординальными, номинальными (категоризованными), а также обзору программного обеспечения этих методов. В числе описанных методов — корреляционный, регрессионный, дисперсионный, ковариационный анализ, элементы анализа временных рядов и систем одновременных эконометрических уравнений.

При минимальной вероятностно-статистической подготовке читателя, обеспечиваемой, например, обычным вероятностно-статистическим курсом экономического или технического вуза, данный (третий) том пригоден для полностью автономного чтения (т.е. его понимание не требует знания каких-либо специальных сведений, содержащихся в первых двух томах). Он посвящен актуальнейшим аспектам общей проблемы статистического анализа данных — задачам классификации объектов, снижения размерности исследуемого признакового пространства и статистическим методам их решения.

Лишь в последние два-три десятилетия, когда определенного уровня достигли вычислительная база исследований и теоретические разработки многомерного статистического анализа, главной проблемой теории и практики классификации и снижения размерности стало развитие достаточно изощренного и эффективного в приложениях математического аппарата. На этом пути уже имеются серьезные достижения, однако до сих пор в отечественной, да пожалуй, и в мировой специальной литературе не было издания, в котором эти достижения были бы достаточно полно просистематизированы, выстроены в общую методологическую схему, снабжены необходимыми практическими рекомендациями (включая вопросы преодоления вычислительных трудностей и использования подходящего типового программного обеспечения).

Авторы предлагаемой вниманию читателей книги ставили перед собой именно такую целевую установку. При этом изложение построено таким образом, что уже знакомство с «Введением» должно позволить читателю составить достаточно ясное представление о сущности, роли и назначении статистических методов классификации и снижения размерности, понять их разноаспектную типологизацию, узнать о содержании и логических связях всех частей книги (включая основные постановки задач и «адреса» их решений в книге). Следует отметить в общем замысле и в содержании книги один аспект, который выделяет ее среди другой литературы данного профиля. Речь идет о том специальном и неослабном внимании, которое уделяется в книге реализации важнейшего, узлового этапа всякого прикладного исследования, использующего математические методы и модели, — этапа разведочного статистического анализа. Как известно, назначение этого этапа — тщательный предварительный анализ, своеобразное «прощупывание» исходных статистических данных с целью выявления их вероятностной и геометрической природы, формирования и верификации тех или иных рабочих гипотез, касающихся этого аспекта проблемы. Принятые на этом этапе рабочие исходные допущения о математической модели реального механизма генерирования анализируемых данных являются определяющими в выборе необходимого математического инструментария, а значит, — и в успехе всего статистического исследования. Однако, к сожалению, в существующей практике прикладных статистических исследований этот важнейший этап чаще всего либо полностью игнорируется, либо реализуется весьма поверхностно. И одна из главных причин этого — почти полное отсутствие необходимой научно-методологической литературы (изданный много лет назад перевод книги Дж. Тьюки «Разведочный анализ», в свое время весьма полезный, ныне приходится отнести к устаревшим источникам информации).

В данной же книге эти вопросы занимают центральное место: так или иначе с ними связано большинство глав (кроме гл. 1—4), а непосредственно этой проблематике посвящен специальный раздел IV (гл. 18—21). Авторы старались сопровождать изложение этих важных вопросов подробным описанием существа, роли и научно-прикладного значения результатов, полученных отечественными специалистами (в сравнении с результатами зарубежных исследователей).

Книга состоит из 4 разделов и 21 главы.

Раздел I (гл. 1—4) посвящен задачам классификации в ситуации, когда исследователь обладает так называемыми обучающими выборками (т. е. «классификации с учителем»). Математический аппарат, используемый при решении подобных задач, объединяется в разделе многомерного статистического анализа, именуемого дискриминантный анализ.

Раздел II (гл. 5—12) посвящен задачам «классификации без учителя» (исследователь не располагает обучающими выборками). Математический аппарат решения таких задач включает в себя методы кластер-анализа, или автоматической классификации (в том числе иерархические процедуры классификации), а также статистические методы расщепления смесей вероятностных распределений.

Раздел III (гл. 13—17) содержит описание наиболее разработанных и эффективных методов снижения размерности исследуемого признакового пространства и отбора наиболее информативных показателей. Среди представленных здесь методов — главные компоненты, факторный анализ, метод экстремальной группировки параметров, многомерное шкалирование, экспертно-статистический метод построения интегрального (латентного) показателя, методы нелинейного отображения многомерных данных в пространства низкой размерности по различным критериям, анализ соответствий в случае неколичественных переменных.

Раздел IV (гл. 18—21) объединяет в себе описание методов так называемого разведочного статистического анализа и одновременно вопросов вычислительной и программной реализации представленных в книге методов, включая обзор по соответствующему программному обеспечению ЭВМ (в том числе персональных ЭВМ) и краткое освещение проблем интеллектуализации статистического программного обеспечения.

Методы разведочного (предмодельного) статистического анализа данных (и, в частности, методы целенаправленного проецирования многомерных наблюдений) направлены на «прощупывание» геометрической и вероятностной природы обрабатываемых данных с целью формирования адекватных реальности рабочих исходных допущений, на которых строится дальнейшее исследование. Эти методы как один из инструментов разведочного анализа являются естественным и необходимым дополнением к методам первичной статистической обработки, описанным в гл. 10, 11 первого тома данного издания. Сделанный в книге особый акцент на этих методах обусловлен тем обстоятельством, что в существовавшей до последнего времени практике статистических исследований этапу предмодельного анализа, методам выявления геометрической и вероятностной природы обрабатываемых данных, различным приемам тестирования гипотетических структур используемых моделей, как правило, не уделялось должного внимания.

В книгу включен ряд оригинальных результатов исследований авторов, а также результаты, ранее не публиковавшиеся в отечественной литературе: общая теория автоматической классификации (гл. 10), экспертно-статистический метод построения единого сводного показателя эффективности (гл. 15), некоторые приемы томографического анализа и целенаправленного проецирования многомерных данных (гл. 18—20), методы классификации при наличии элементов обучения (гл. 11), методы оцифровки неколичественных переменных (гл. 17).

Книга написана: С. А. Айвазяном — предисловие, введение, гл. 5 (без п. 5.4.7), 6, 13 (без § 13.6), 14, 15 и § 21.2; В. М. Бухштабером — гл. 7, 8, 10, 20, а также гл. 9, 19 (совместно с И. С. Енюковым); И. С. Енюковым — гл. 11, 12, 16, 17, 18, а также гл. 9, 19 (совместно с В. М. Бухштабером), § 13.6 и § 21.1; Л. Д. Мешалкиным — гл. 1, 2, 3, 4; п. 5.4.7 написан Б. Г. Миркиным.

Поскольку книга завершает труд коллектива авторов, посвященный кругу проблем, обозначенному как прикладная статистика, попробуем обсудить положение дел в этой области.

Подавляющее большинство исследователей и целых научных коллективов, работающих в области теории и практики статистического анализа данных, понимают и признают, что эффективность прикладной реализации математикостатистических методов, успешное развитие конкретных проблемно- и методо-ориентированных систем автоматизированной статистической обработки данных (представляющих важную составную часть разнообразных автоматизированных систем поддержки принятия решений в различных отраслях человеческой деятельности) зависят не только от уровня теоретических вероятностно-статистических разработок (в этом плане отечественная школа традиционно относится к передовым), но и от степени продвинутости в разработке ряда смежных теоретических и прикладных проблем, остающихся, по существу, вне традиционных рамок математической статистики.

И дело, разумеется, не в том, как именно назвать статистическую дисциплину, занимающуюся комплексной разработкой всех необходимых инструментальных и методологических проблем: в некоторых странах (во Франции, например) ее чаще называют «анализом данных».

Мы считаем, что термин «прикладная статистика» вполне приемлем, тем более что он уже давно в обиходе в целом ряде стран (США, ФРГ и др.), в которых имеются специализации студентов, институты и журналы такого названия. Хотелось бы обратить внимание читателя на наиболее актуальные направления исследований этой научной дисциплины.

а) Развитие методов анализа данных, не апеллирующих к их вероятностной природе, а также методов, нацеленных на выявление вероятностной и геометрической природы обрабатываемых данных в условиях отсутствия соответствующей априорной информации. Именно таким методам уделено большое внимание в данной книге (кластер-анализ, многомерное шкалирование, томографические методы, целенаправленное проецирование многомерных данных и т. п., см. разделы II—IV книги) и именно они, как правило, оказываются вне поля зрения монографий и руководств по математической статистике.

б) Формализация (математическая постановка) реальных задач статистического анализа данных в различных предметных областях (экономике, социологии, медицине и т. д.) и на базе этого опыта выработка типовых математических постановок задач, выходящих за стеснительные рамки жестких канонических моделей. Этот самый важный и самый трудный этап математико-статистического исследования является и самым неблагодарным, поскольку de facto оказался как бы «незаконнорожденным дитем» теории и практики статистического анализа данных. Искусство реалистического моделирования формально не предусмотрено ни в одном из разделов инструментальной статистической науки, его развитие никак и ничем не стимулируется.

Разрозненный положительный опыт такого рода, однако, привел в последние полтора-два десятилетия к возникновению ряда интересных типовых постановок математических задач, связанных в основном с развитием подходов к получению устойчивых статистических выводов и к построению и обоснованию различных критериев качества метода, используемых в оптимизационных формулировках статистических задач (см. «Введение», а также § 2.4, 2.6, 3.1, 5.4, гл. 10, 15, 18 и др.).

в) Вычислительные вопросы компьютерной реализации методов статистического анализа данных. Это особенно актуально для сложных и подчас громоздких процедур многомерного статистического анализа. В книге этим вопросам посвящена (помимо отдельных пунктов) гл. 21.

г) Теория и практика генерирования на ЭВМ данных заданной природы и развитие на этой основе методов статистического анализа малых выборок. Этот подход предоставляет статистику эффективное (а иногда единственно возможное) средство исследования свойств обсуждаемых процедур многомерного статистического анализа, многие из которых не поддаются строгому аналитическому изучению.

д) Развитие прикладного программного обеспечения по методам статистического анализа данных с акцентом на создание интеллектуализированных проблемно- и методоориентированных программных комплексов, способных обеспечить исследователя развитой системой машинного ассистирования. В книге этим вопросам посвящена гл. 21.

Содержание и основные акценты теоретико-методологических и алгоритмических разработок прикладной статистики гораздо динамичнее, чем в традиционных математических дисциплинах, в том числе в математической статистике. Так, например, превалирующий удельный вес практической работы с существенно ограниченными выборками и возможности исследования свойств статистических процедур с помощью имитационного статистического моделирования на ЭВМ (см., например, г)) обусловливают исключение из категории актуальных (для прикладной статистики) значительной части асимптотической теории математической статистики. Равно как и теоретические разработки, основанные на понятии достаточности статистики или на принципе максимального правдоподобия, в той форме, как они формулируются сегодня: пока верили, что для распределений, близких к нормальному, целесообразно использовать рекомендации, гарантирующие оптимальность правил статистической обработки в рамках статистики нормального закона, упомянутые понятия и подходы казались актуальными для приложений.

В свете сказанного нам представляется вполне оправданной и объективно назревшей необходимость специальных изданий по прикладной статистике.

Данное справочное издание адресовано как статистикам, экономистам, социологам, медикам и специалистам в других областях, использующим статистические методы классификации и снижения размерности в ходе решения задач, так и математикам, профессионалам-разработчикам описываемого математического аппарата (включая математиков-программистов). Специалист не математик может ограничиться «потребительским» стилем пользования данной книгой, при котором внимание сосредотачивается на постановках задач и рекомендациях по реализации предложенных решений (алгоритмах, описании диапазона их применимости, практических приемах анализа данных, программах), а усвоение обоснований этих рекомендаций и свойств используемых процедур не является необходимым.

В заключение одно важное, с нашей точки зрения, наблюдение. Все мы в настоящее время являемся свидетелями и в той или иной мере участниками набирающего все большую силу глобального процесса информатизации общества. В проекции на проблематику данного издания это означает, в частности, что через сравнительно небольшое время персональный компьютер, а с ним и широкие возможности анализа данных станут неотъемлемой частью не только учрежденческого, но и домашнего уклада жизни. А следовательно, в повестке дня — бурная динамика роста спроса на методы и программы прикладной статистики.

Научный и научно-методический багаж, послуживший основой для написания данного издания, наработан авторами в основном в рамках их деятельности в Московском государственном университете им. М. В. Ломоносова, в Центральном экономико-математическом институте АН СССР, в Главном научно-исследовательском вычислительном центре 4-го Главного управления при Министерстве здравоохранения СССР и во Всесоюзном научно-исследовательском институте физико-технических и радиотехнических измерений Госстандарта СССР.

Бесспорное влияние на замысел и содержание книги оказали постоянные контакты авторов со своими коллегами по научному семинару «Многомерный статистический анализ и вероятностное моделирование реальных процессов», действующему с 1969 г. в рамках Научного совета АН СССР по комплексной проблеме «Оптимальное планирование и управление народным хозяйством» и Совета по автоматизации научных исследований при Президиуме АН СССР, а также по Всесоюзному научно-методическому семинару «Вычислительные вопросы математической статистики», функционирующему в Московском государственном университете им. М. В. Ломоносова под руководством акад. Ю. В. Прохорова.

Авторы признательны Е. Г. Ясину и Б. Г. Миркину, взявшим на себя труд прочесть рукопись настоящего издания и сделавшим ряд ценных замечаний.

С. А. Айвазян

<< Предыдущий параграф Следующий параграф >>
Оглавление