Главная > Математика > Прикладная статистика: Классификации и снижение размерности
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Глава 21. ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ДЛЯ ЗАДАЧ СОКРАЩЕНИЯ РАЗМЕРНОСТИ И КЛАССИФИКАЦИИ

Задачи сокращения размерности и классификации часто возникают при обработке данных в различных областях науки и техники. К настоящему времени разработано и продолжает развиваться обширное программное обеспечение (ПО) для решения этих задач.

Подробный обзор программных средств для решения подобных задач, а также для обеспечения других разделов статистического анализа приведен в [143], где рассмотрено значительное число программных продуктов, разработанных у нас в стране и за рубежом. Сведения о программных средствах, полезных в данном разделе статистического анализа, имеются в [12]. Почти все описанные там пакеты и системы статистической обработки данных имеют в своем составе процедуры для сокращения размерностей и классификации. (см. также [66, 75, 89, 95, 120, 203, 204, 249, 256].)

В настоящей главе основное внимание уделено программному обеспечению для персональных ЭВМ (при этом рассматривается программное обеспечение не только для задач сокращения размерностей и классификации, ной для других разделов статистического анализа), а также развитию экспертных систем в статистике.

Рассматриваются также программные средства, предназначенные для таких сравнительно новых подходов в статистическом анализе, как визуализация многомерных данных, разведочный анализ.

21.1. Программное обеспечение прикладного статистического анализа для ПЭВМ

Рассмотрим статистическое ПО в основном для ПЭВМ типа IBM PC и совместимых с ними. В настоящее время статистическое ПО ПЭВМ является весьма развитым. Обзор его по состоянию на 1985 г. приведен в [309]. Здесь же ограничимся рассмотрением сравнительно небольшого списка программных средств, которые, судя по литературным источникам [255] и некоторому нашему личному опыту, представляются наиболее интересными. Данные по ПО сосредоточены в нескольких таблицах, которые представляют характеристики ПО по следующим позициям

Использование ресурсов. В табл. 21.1 представлены характеристики рассматриваемых пакетов. Следует учесть, что разные версии одного и того же пакета могут так же сильно отличаться друг от друга, как и разные пакеты. В графе RAM (random access memory) приведен минимальный объем внутренней памяти, необходимый для работы пакета. В графе «Твердый диск» приводятся две цифры: первая — минимальная память на диске необходимая для работы пакета, и вторая — максимальная, запрашиваемая для работы только некоторых программ.

Таблица 21.1

Знак означает необходимость диска, — желательность его, — ненужность.

В графе «Сопроцессор» знак указывает на необходимость сопроцессора Intel 8087 для работы пакета, «0» — его использование носит опциональный характер. Заметим, что использование сопроцессора повышает скорость обработки в среднем в 3 раза.

В графе «Максимальное число объектов» буква D означает, что объектов может быть столько, сколько их размещается на диске, число килобайт (К) указывает, что объектов может быть столько, сколько поместится в области памяти такого объема (при заданном числе переменных).

Здесь рассматриваются две версии пакета BMDP — базисная (basis) и полная (full), две версии пакета SRSS/PC + (basis и full) и две версии пакета STATA (basis и full).

Базисная версия BMDP содержит 6 программ, а полная — 28 программ. Базисная версия SPSS/PC + не включает некоторые программы по многомерному анализу данных и имеет существенно сокращенные возможности графического анализа данных.

Базисная версия STATA, в отличие от полной, не содержит графических средств анализа.

Управление пакетом и данными. Некоторые сведения, связанные с этими характеристиками, приведены в табл. 21.2. В графе «Способ управления» указано, каким образом осуществляется управление пакетом — с помощью системы меню или команд. С одной стороны, использование меню проще для пользователя-неспециалиста, с другой развитая система команд позволяет создавать подготовленному пользователю сложные схемы обработки. В графе «Импорт/экспорт» пакеты оцениваются по их возможности взаимодействовать по данным с другими широко используемыми ПО для ПЭВМ — интегрированными пакетами, «spreed sheet» (типа Lotus 1—2—3), базами данных II/III и т. д.). Здесь, как и в других графах этой таблицы, означает хорошо развитый и легко доступный для пользователя обмен, удовлетворительный уровень, -возможность имеется, но реализация достаточно трудна. В графе «Манипуляция» приведены оценки возможностей пакетов по работе с файлами слияние и разделение файлов по переменным и объектам. В четвертой графе в аналогичной шкале оцениваются возможности, предоставляемые пользователю для создания новых переменных, преобразования переменных, перекодировки данных и т.д.

Таблица 21.2

В графе «Пропуски» оцениваются возможности по работе с пропусками в данных, присвоения весов объектам. В последней графе оценивается уровень документированности и консультаций (help).

Возможности статистической обработки. Данные о реализации в пакетах процедур статистической обработки приведены в табл. 21.3, 21.4 Знак «-» в этих таблицах указывает на отсутствие соответствующей процедуры, «-» — наличие ее, а знак — на то, что имеются ограниченные возможности. Так, для пакета STATGRAPHICS имеется лишь одна кластер-процедура (метод A-средних) и та реализована для небольшого числа объектов .

Следует отметить, что все пакеты хорошо приспособлены для получения дескриптивной статистики одномерных данных и коэффициентов ассоциации (корреляций разных типов, корреляционных отношений, -статистик и т.д.). Наименьшими возможностями в этом отношении обладает пакет ABC.

Таблица 21.3

(см. скан)

Таблица 21.4

(см. скан)

Наиболее полный набор статистических процедур предоставляет пакет BMDP/PC (full). Самым гибким в отношении управления данными является пакет P-STAT.

STATGRAPHICS — сравнительно медленно работающий пакет, и его лучше использовать на более мощных ЭВМ типа IBM АТ.

<< Предыдущий параграф Следующий параграф >>
Оглавление