Главная > Математика > Прикладная статистика: Классификации и снижение размерности
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

21.2. Проблемы и опыт создания интеллектуализированного программного обеспечения по многомерному статистическому анализу

21.2.1. Что такое «интеллектуализация программного обеспечения» и почему она нужна в прикладной статистике.

Как известно, конечной целью общей программы разработки ЭВМ пятого поколения является создание компьютеров, в которых будет реализован такой резкий скачок их интеллектуальных возможностей, в результате чего машина сможет непосредственно «понимать» задачу, поставленную перед ней непрофессиональным пользователем на естественном языке, т. е. с помощью речи, чертежей, таем, графиков и т.п.

В этой общей программе можно выделить четыре основных направления разработок:

1) развитие элементной базы (в частности, уже сегодня реально решение задачи достижения плотности «упаковки» порядка нескольких тысяч вентилей на одном кристалле);

2) разработка новой архитектуры (и в первую очередь архитектуры с многими параллельными потоками команд и обрабатываемых данных, предусматривающей, в частности, использование спецпроцессоров);

3) совершенствование программной технологии (и в частности, разработка языков высокого уровня для параллельной обработки данных);

4) интеллектуализация, т. е. оснащение ЭВМ системой решения задач и логического мышления, обеспечивающей способность машины к самообучению, ассоциативной обработке информации и получению логических выводов, что в конечном счете позволит резко повысить уровень «дружелюбия» машины по отношению к пользователю.

Именно в русле ключевых задач пятого направления лежат проблемы разного уровня интеллектуализации прикладного (проблемно- и методо-ориентированного) программного обеспечения (ППО).

Экспертные системы принято относить к одной из основных форм высшего уровня интеллектуализации ППО. Их создание связано в первую очередь с разработкой методов и средств формализации и ввода знаний в компьютерные системы (круг этих вопросов составляет содержание специальной дисциплины так называемой «инженерии знаний») и манипулирования введенными знаниями.

Таким образом, проблематику, связанную с разработкой экспертных систем, можна отнести к кругу ключевых вопросов решения общей программы создания ЭВМ пятого поколения. Однако следует подчеркнуть разницу в уровне дружелюбия, характеризующем экспертную систему и ЭВМ пятого поколения: услугами последней смогут пользоваться лица, не имеющие опыта работы с ЭВМ, в то время как для работы с экспертной системой все-таки должна быть определенная профессиональная подготовка.

В дополнение к сказанному необходимо остановиться на еще одном факторе, стимулирующем развитие работ в области создания именно статистических экспертных систем (СЭС).

Дело в том, что бурно возрастающие объемы информации, требующие грамотной статистической обработки, и почти столь же интенсивно растущее количество промышленного (и коммерчески распространяемого) статистического программного обеспечения (СПО), в основном в виде специализированных пакетов и библиотек (см., например, [309]), находятся в явном дисбалансе с относительно медленно растущей численностью квалифицированных специалистов в области прикладной статистики. Это общая тенденция, но в СССР она проявляется особенно остро.

В результате катастрофически нарастающее число лиц, не являющихся специалистами в области статистического анализа данных, использует СПО независимо от того, получили ли они одобрение специалистов по прикладной статистике и нужно ли это для успешного решения стоящих перед ним задач. Это в свою очередь является причиной развития опасного процесса роста доли неквалифицированного, порой безграмотно-спекулятивного использования СПО, что приводит к дискредитации аппарата прикладной статистики, наносит вред делу.

Распространение опыта специалистов по прикладной статистике в виде СЭС, нацеленных на подсказки и машинное ассистирование, в первую очередь в области предмодельного (разведочного) анализа данных, выбора подходящих моделей и нужной последовательности применяемых методов, интерпретации промежуточных и конечных результатов статистического анализа, позволит в какой-то мере ослабить развитие упомянутого опасного процесса роста неквалифицированного использования СПО и смягчить причину этого процесса - дисбаланса между потребностью в квалифицированных специалистах по прикладной статистике и их фактическим наличием.

И наконец, о социальном аспекте проблемы создания СЭС. В этой связи следует упомянуть о наличии (в рядах специалистов по прикладной статистике) определенной доли скептиков и даже явных противников, которые считают, что СЭС снижают потребность в знаниях живых специалистов, в какой-то мере заменяют и вытесняют их, выступают в качестве их конкурентов; следовательно, необходимо устраниться от участия в работах по созданию СЭС.

В действительности СЭС позволяет существенно повысить лишь средний, так сказать «ширпотребовский», уровень использования статистических методов анализа данных. Им в настоящее время обладает выросшая в последние десятилетия целая армия особого рода пользователей — «смежников», которые, как правило, «понемногу» ориентируются и в предметной области, в рамках которой решаются соответствующие статистические задачи (в экономике, социологии, медицине, геологии, технике и т.д.), и в инструментарии прикладной статистики, не являясь профессионалами ни там, ни здесь. Вот для этой армии работников кондиционные СЭС действительно представляют угрозу, так как при наличии хороших СЭС этих работников с пользой для дела целесообразно заменить специалистами-профессионалами соответствующих предметных областей.

Что касается профессионалов-статистиков, то создание и распространение СЭС лишь позволит высвободить часть их рабочего времени, отводимого для выполнения функций специалиста средней квалификации (в основном рутинного характера), и переключить его на решение задач более высокого профессионального уровня. Если к этому добавить продуманную систему экономического стимулирования работ профессионалов-статистиков в области создания СЭС, то их заинтересованность в развитии этих работ станет не только профессионально-органичной, но и активной 21.2.2.

21.2.2. Интеллектуальные возможности статистической экспертной системы и основные вопросы, возникающие при ее создании.

Создатели большинства известных к настоящему времени статистических экспертных систем ставили перед собой задачу обеспечить пользователю СЭС машинное ассистирование последующему кругу вопросов:

1) подсказки по существующим литературным, методическим и программным материалам, относящимся к специфике решаемой задачи,

2) советы в выработке адекватных исходных допущений о природе обрабатываемых данных и в выборе общего вида модели;

3) предложение «меню» подходящих методов статистической обработки с пояснением (в случае запроса пользователя) их сущности, особенностей, сфер применимости;

4) подсказки в построении технологической цепочки статистических процедур и алгоритмов, из которых должна состоять основная обрабатывающая (счетная) программа, и ее автоматическая реализация на ЭВМ;

5) помощь в проведении осмысления и интерпретации промежуточных и конечных результатов статистического анализа и (в случае необходимости) в выработке корректирующих управляющих команд к проведению дальнейшего статистического анализа;

6) помощь в выборе форм представления результатов проведенного статистического анализа

Основной круг пользователей, на который рассчитаны подобные СЭС. это прикладные статистики и математики разного уровня квалификации, а также специалисты предметных областей (экономисты, социологи, медики, инженеры и т. д.), обладающие вероятностно-статистической подготовкой в объеме экономического или технического вуза.

В процессе создания СЭС разработчикам приходится последовательно анализировать следующие вопросы (и уточнять их решение):

а) На какого именно пользователя (предметная область, уровень квалификации) ориентирована создаваемая статистическая экспертная система, каковы конечные прикладные цели разработки и требования к уровню ее интеллектуализации?

б) Какова структура функционального наполнения и сценария диалога СЭС?

в) Какова главная концептуальная направленность (базовый методологический принцип) создаваемого машинного ассистирования (консультации в выборе и реализации используемых статистических методов, помощь в выборе стратегии статистического исследования и т. д.)?

г) Какие именно технические средства целесообразно привлечь для реализации создаваемой СЭС?

д) Какие типовые и оригинальные программные средства и алгоритмические языки необходимы для создания СЭС?

е) Какие средства интеллектуального ассистирования и интерактивного режима необходимы для построения СЭС?

ж) В какой мере возможно использование существующих, а в какой — необходима разработка новых методов и средств формализации и ввода знаний в компьютерные системы, манипулирования введенными знаниями?

з) Как проводить апостериорную оценку уровня интеллектуализации созданной СЭС?

21.2.3. Серия методо-ориентированных статистических экспертных систем (серия МОСЭС).

Серия методо-ориентированных статистических экспертных систем состоит из определенного числа автономных СЭС, каждая из которых может быть использована для решения задач различных предметных областей (экономики, социологии, медицины, техники и т. п.), объединяемых лишь общностью необходимого для их решения статистического инструментария. Другими словами, каждая отдельная экспертная система серии реализует статистический инструментарий одного из разделов прикладной статистики: СЭС по регрессионному анализу, СЭС по классификации объектов и признаков, СЭС по разведочному статистическому анализу и т. п., и в этом смысле может быть отнесена к методо-ориентированным. Допускается включение в серию и отдельных проблемно- и методо-ориентированных СЭС, т. е. СЭС, предназначенных для решения задач определенной предметной области. Но при этом они требуют использования лишь однородного статистического инструментария (например, в экономике это могут быть СЭС по решению систем одновременных эконометрических уравнений или по построению и анализу производственных функций: обе эти системы основаны, в инструментальном плане, на статистическом аппарате регрессионного анализа и анализа временных рядов).

Общность различных автономных СЭС, составляющих серию, заключается в их совместимости, а также в возможности расширяемости серии.

Совместимость различных компонентов серии состоит в одинаковой ориентации на тип пользователя и уровень интеллектуализации; общности базового методологического принципа создаваемого в СЭС машинного ассистирования; общности технических и программно-инструментальных средств, на базе которых создается СЭС; возможности взаимных ссылок (т. е., например, пользователь СЭС по регрессионному анализу в процессе диалога с машиной может получить от нее на какой-то стадии решения своей задачи совет произвести такю-то процедуру статистической обработки с помощью, скажем, СЭС по классификации из данной серии).

Возможность расширяемости серии, т. е. ее пополнения новыми СЭС, сопряжена лишь с необходимостью соблюдения при конструировании новой СЭС вышеупомянутых условий совместимости.

Ниже приводится краткое описание функционального наполнения компонентов серии методо-ориентированных экспертных систем — «Серии МОСЭС». При выборе разделов прикладного статистического анализа разработчики руководствовались, помимо профессиональных пристрастий и имеющихся научных заделов, интересами экономических и социально-экономических приложений.

1. МОСЭС-АВР — методо-ориентированная статистическая экспертная система по анализу временных рядов (см. например, [12, гл 12, 17] и др.). Необходимость текущего, оперативного анализа динамики показателей, характеризующих состояние или функционирование системы (экономической, технической и т.п.) - одна из наиболее распространенных черт характера деятельности многомиллионной армии плановых и управленческих работников на разных иерархических уровнях экономики. Такого же типа задачи постоянно возникают и в разнообразной практике исследовательской деятельности. Здесь и задачи сглаживания временных рядов, их разложения на трендовую, периодическую (сезонную) и случайную составляющие, их экстраполяции (прогноз), улавливания моментов и характера резких структурных сдвигов и т.д. Именно на решение таких задач нацелена МОСЭС-АВР.

2. МОСЭС-РАЗВАД — методо-ориентированная статистическая экспертная система по разведочному анализу данных. В практике статистических исследований сложилась печальная традиция (ей, правда, можно найти объективное историческое объяснение), в соответствии с которой важнейший, ключевой этап формирования и обоснования исходных рабочих допущений, закладываемых в основание модели генерирования обрабатываемых статистических данных, как правило, игнорировался Схема подобных исследований строилась примерно так - «будем полагать (или «есть основания считать»), что анализируемая регрессионная зависимость линейна и характеризуется независимыми и нормально распределенными случайными остатками Тогда...». На самом деле обрабатываемые статистические данные могут быть не только не нормальными и не независимыми, но и не однородными (в регрессионном смысле) Именно мимо таких «натяжек» в исходных допущениях и приходилось проходить исследователям Интенсивно развиваемый в последние 10—15 лет аппарат разведочного анализа и, в частности, такие его методы, как целенаправленное проецирование многомерных данных, как раз и нацелены на всестороннее предварительное «прощупывание» исходных данных с целью формирования адекватных рабочих предположений об их вероятностной и геометрической природе, о механизме их генерирования К настоящему времени в мире имеются считанные единицы программных продуктов, реализующих этот аппарат (см., например, [143]), и ни одной (по нашим сведениям) экспертной системы Сказанное мотивирует выбор разведочного анализа в качестве «начинки» для одного из компонентов «Серии МОСЭС». В МОСЭС-РАЗВАД, в частности, реализованы методология и значительная часть математического инструментария, описанного в разделах III и IV данной книги.

3 МОСЭС-РЕГРАН — методо-ориентированная статистическая экспертная система по регрессионному анализу. Статистический аппарат, позволяющий выявлять и описывать зависимость некоторого количественного результирующего показателя от набора объясняющих переменных, составляет содержание регрессионного анализа и относится, бесспорно, к наиболее широко и часто эксплуатируемому в разнообразных приложениях статистическому инструментарию Особая актуальность интерактивного диалогового режима общения с ЭВМ в процессе использования этого аппарата связана с реализацией таких его слабо формализованных этапов, как подбор подходящих преобразований для переменных модели, выбор ее общего вида, исследование явлени я мультиколлинеарности, анализ влияния резко выделяющихся наблюдений и т.п.

Именно в эти моменты «беседа» с СЭС и ее подсказки особенно ценны для пользователя В обоснование мотивировки выбора этого раздела прикладной статистики в качестве «начинки» одного из компонентов «Серии МОСЭС» следует включить и необходимость программно-вычислительной реализации последних теоретикометодических разработок в данной области и весьма высокую частоту ссылок на этот раздел других компонентов «Серии МОСЭС» В МОСЭС-РЕГРАН реализованы методология и математический инструментарий, описанные в [12]

4 МОСЭС-КЛАСС — методо-ориентированная статистическая экспертная система по классификации объектов и признаков Наряду с регрессионным анализом статистические методы классификации (распознавания образов, дискриминантного анализа, автоматической классификации, кластер-анализа и т. п.) относятся к наиболее широко и часто эксплуатируемому в приложениях, и в первую очередь в экономических и социально-экономических приложениях, статистическому инструментарию Задачи выявления типологии и типообразующих признаков, технической и медицинской диагностики, предварительной обработки массивов информации с целью их разделения на однородные (в определенном смысле) порции и многие др. обслуживаются методами именно этого раздела ПСА Продвинутость отечественных теоретико-методических разработок в данной области позволяет рассчитывать на достаточно высокую конкурентоспособность (по меньшей мере но своему функциональному наполнению) данного программного продукта В нем, в частности, реализованы методология и математический инструментарий, описанные в разделах I и II данной книги

5 МОСЭС-СЭУ — проблемно- и методо-ориентированная статистическая экспертная система по решению и анализу систем одновременных эконометрических уравнений. В ней реализованы методология и математический инструментарий, описанные в [12, гл 141.

6 МОСЭС-ПАПРОФ — проблемно- и методо-ориентированная статистическая экспертная система по построению и анализу производственных функций. Производственные функции, как известно, позволяют в сжатой математической форме представить характерные для анализируемой экономической системы (предприятия, отрасли, всего народного хозяйства) соотношения между объемом выпускаемой продукции, с одной стороны, и размерами основных производственных ресурсов (включая факторы научно-технического прогресса) — с другой.

Используемый для их построения и анализа статистический аппарат — это регрессионный анализ и анализ временных рядов.

Конечный пользователь «Серии МОСЭС» и характер ее интеллектуализации. «Серия МОСЭС» адресуется как статистику, так и пользователю нестатистику, который, с одной стороны, уже располагает постановкой задачи и четко представляет себе конечные прикладные цели исследования, а с другой стороны, может иметь лишь общее поверхностное представление об аппарате прикладной статистики (на уровне знания основных определений и понятий, таких, как модель регрессии и назначение регрессионного анализа, временный ряд и его тренд, содержание задачи классификации в условиях наличия или отсутствия обучающих выборок, многомерное наблюдение и его проекция на плоскость и т. п.). В эту категорию пользователей попадает, в частности, значительная доля (более 50 %) специалистов той предметной области, к которой относится решаемая задача. Таким образом, среди пользователей «Серии МОСЭС» могут быть как статистики (разного уровня квалификации), так и нестатистики — специалисты соответствующих предметных областей (экономисты, социологи, инженеры, медики и т.д.), имеющие минимальную статистическую подготовку.

При пояснении характера и направленности интеллектуализации описываемых МОСЭС примем следующее условное разложение технологии статистического исследования на элементы.

Элемент 1 (стратегически-постановочный): уточнение постановки задачи и конечных прикладных целей исследования.

Элемент 2 (тактико-методический): выбор подходящего статистического инструментария, включая определение состава и последовательности реализации статистических процедур, используемых для обработки исходных данных.

Элемент 3 (счетный): вычислительная реализация выбранного комплекса методов статистического анализа данных.

Элемент 4 (интерпретационный): интерпретация промежуточных и итоговых результатов статистической обработки данных, формулировка выводов, в том числе по поводу направлений дальнейших исследований.

Из этих четырех основных элементов технологии статистического исследования экспертные системы «Серии МОСЭС» претендуют на частичную автоматизацию и машинное ассистирование лишь трех последних: тактико-методического, счетного и интерпретационного.

При этом акцент делается на помощь пользователю в выработке адекватных исходных допущений (гипотез) о вероятностной и геометрической природе обрабатываемых статистических данных и в правильном подборе и описании модели, генерирующей эти данные («МОСЭС-РАЗВАД» целиком предназначена для решения этих вопросов, а в остальных компонентах «Серии» этому аспекту уделяется существенное внимание).

Общая логическая схема построения диалога «пользователь-ЭВМ». Диалог строится в компонентах «Серии» по принципу «от общего к все более узко методо-ориентиро-ванному», а именно: на «входе» в систему-«паспорт» задачи;

1-й уровень диалога: ЭВМ — «имеет ли задача статистическую природу?»; пользователь — «да» или «нет»;

2-й уровень диалога: если «нет», работа СЭС заканчивается;

если «да», то к какой из нижеперечисленных (в «меню») областей ПСА она относится: регрессионный анализ, классификация, временные ряды и т.д.;

3-й уровень диалога: (при работе, напркмер, с системой «МОСЭС-КЛАСС», т. е. при ответе «классификация» на предыдущем уровне): «в какой форме представлены исходные данные?» «меню» возможных форм;

4-й уровень диалога: (если данные представлены в виде многомерных наблюдений): «располагаете ли Вы обучающими выборками?»

5-й уровень диалога: если «нет», то «известно ли Вам число искомых классов?»;

6-й уровень диалога: если «нет», то «желаете ли Вы произвести целенаправленное проецирование исходных данных с целью выработки гипотез о возможном числе классов?»,

7-й уровень диалога: если «да», то обратитесь к «МОСЭС-РАЗВАД» и т. д.

Каждый вопрос ЭВМ сопровождается вспомогательным «примечанием — вопросом» типа: «если какое-нибудь из понятий, участвующих в нашем вопросе, требует разъяснения, сделайте соответствующий запрос».

Инструментальные средства, использованные при создании «Серии МОСЭС». Каждый из компонентов «Серии МОСЭС» оперирует с базой знаний, содержащей не более 400—500 правил и утверждений. Это позволило использовать в качестве технической базы персональные компьютеры IBM PC/XT или IBM PC АТ (или полностью с ними совместимые 16-разрядные персональные ЭВМ).

В качестве базовых алгоритмических языков использовались языки «С», «LISP» и некоторые другие (специальные). Операционная система — MS-DOS.

<< Предыдущий параграф Следующий параграф >>
Оглавление