Главная > Математика > Прикладная статистика: Классификации и снижение размерности
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Глава 4. ПРИМЕНЕНИЯ ДИСКРИМИНАНТНОГО АНАЛИЗА

Статистические методы классификации применяются при распознавании сигналов, диагностике состояний сложных технических систем и человека, а также при прогнозировании будущих отказов, неисправностей, заболеваний. Использование статистических методов для решения принципиально новых для конкретной области знания задач всегда носит творческий характер и часто требует приспособления и развития соответствующего математического аппарата. Поэтому при изложении материала большое внимание уделяется как методическим особенностям применения описанных в предшествующих главах методов, так и изложению математического инструментария, направленного на решение тех же задач, что и классификация, с обязательным указанием связи между методами.

4.1. Группы риска и сравнительные испытания

4.1.1. Группы риска.

Пусть группа объектов периодически подвергается осмотру с целью обнаружения неисправных объектов, а также выделения объектов, которые исправны в момент осмотра, но могут выйти из строя до следующего осмотра Для решения поставленной задачи, если, конечно, нет прямых надежных индикаторов возникновения в будущем неисправности, можно воспользоваться методом статистической классификации. Пусть X — результат осмотра исправного объекта. Тогда на основании значения X можно попытаться принять одно из двух решений (гипотез): «объект останется исправным до следующего осмотра» или — «объект выйдет из строя до следующего осмотра». Если условные распределения основательно пересекаются, а это типичный случай, то ошибки классификации (см. § 1.2) будут высокими и такой подход индивидуального предсказания судьбы объекта малопродуктивен. Вместе с тем можно оценить и тем самым отнести соответствующий объект к одной из групп риска Такой прогноз, в отличие от первого, иногда называют групповым (не путать с групповой классификацией). Оба метода прогноза почти не отличаются по используемому математическому аппарату, различны лишь формы представления результатов (см. § 1.2). Однако с точки зрения приложения они принципиально различны. Нечетким предсказанием индивидуальной судьбы объекта (в терминах ) воспользоваться трудно. В то же время указание группы риска весьма информативно. В самом деле, если есть ограниченный дополнительный ресурс для более полного обследования объектов, то его, видимо, целесообразно применить к объектам, принадлежащим к группам более высокого риска. Так, например, поступают при диспансеризации населения. При лечении профилактические средства с заметным побочным действием также стоит давать только тем больным, у которых ожидаемый основной эффект лекарства будет выше ожидаемого ущерба от побочных действий, т. е. и здесь учет крайне существен

В разобранной выше задаче лишь немного отклонились от традиционной формы представления результатов и сразу же получили очень интересные варианты практического использования ДА.

4.1.2. Индикаторы и факторы риска.

Предположим, что в разобранной в предыдущем пункте задаче хотим найти компоненты X, наиболее тесно связанные с осуществлением события .

С помощью описанных в предыдущих главах методов (см. § 1.4, 2.5) можем выделить группу переменных такую, что сила прогноза при расширении набора до исходного X на имеющемся в распоряжении материале статистически значимо не увеличивается. Переменные, входящие в X, называют риск-индикаторами При этом в слове индикатор выделяются два смысловых оттенка: 1) на индикатор не всегда можно воздействовать, например, как на возраст объекта и 2) индикатор не обязательно причинно обусловливает возникновение Он, например, может быть только связан с внутренним механизмом, порождающим

Перевод части индикаторов в факторы риска. Предположим, что можно воздействовать на часть риск-индикаторов, например изменяя их значение на новые в то время как остальные риск-индикаторы остаются без изменения. Обозначим вектор риск-индикаторов для i-го объекта после изменения. Если после различных воздействий частота события останется сопоставимой с где условная вероятность подсчитывается по установленным ранее для X формулам и профессиональный анализ показывает, что переменные можно рассматривать как непосредственные составляющие механизма возникновения то эти переменные называют риск-факторами На этом пути были, в частности, установлены риск-факторы развития ишемической болезни сердца, послужившие основой развертывания широкой программы профилактики сердечно-сосудистых заболеваний [277, 322].

4.1.3. Сравнительные испытания.

Предположим, что кописанным в п. 4.1.1 объектам, признанным исправными при осмотре, применяются определенные воздействия с целью предотвратить их выход из строя за определенный промежуток времени. Для того чтобы эмпирически отобрать наиболее эффективное воздействие, проводятся так называемые сравнительные испытания. В простейшем случае они заключаются в следующем. Пусть требуется сравнить два воздействия: А — старое и В — новое. Из объектов образуются две по возможности близкие по свойствам группы: О — основная и К — контрольная. К объектам основной группы применяется воздействие В, а к объектам контрольной группы — воздействие А. Об эффективности воздействий судят по альтернативному признаку: остался ли объект исправным (событие ) или вышел из строя (событие ).

Вопросам формирования сравниваемых групп посвящена обширная статистическая литература [85, 102]. Тем не менее добиться полного сходства групп даже при умеренной размерности X удается редко. Это обстоятельство мешает интерпретации результатов испытаний, поскольку априори известно, что зависит от X.

В случае, когда заранее известны риск-группы при старом воздействии , поправку на неоднородность основной и контрольной I рупп сделать не трудно. Для этого достаточно оценить разность

и далее проверять гипотезу, что

Частным, но практически важным случаем «испытаний» является анализ эффективности разных воздействий на ретроспективных данных Возможность такого анализа обусловлена тем, что четкие однозначные правила назначения воздействия в зависимости от X обычно или отсутствуют, или всил разных причин не соблюдаются и поэтому в банках данных накапливается довольно обширная информация о различных сочетаниях пар (X, воздействие) и соответствующих исходах. Многочисленные примеры проведенных исследований показывают, что на основании априорных профессиональных соображений исследователь может разделить объекты на относительно однородные группы риска — страты и проводить анализ эффективности внутри соответствующих групп [85, 1791 Видимо, целесообразно включать проведение подобного анализа в качестве специальной задачи информационных технологических систем с целью автоматизированного подбора гипотез для дальнейшего их анализа исследователем.

В случае, когда риск-группы априори не известны и не могут быть убедительно назначены исследователем, приходится рассматривать полную математическую модель ситуации.

Простейшая модель влияния X и воздействия на условную вероятность имеет вид:

где — неизвестные параметры. Проверяемая в испытании гипотеза заключается в том, что эффект сравниваемых воздействий тождествен, т. е. что

Очевидно, при более эффективно новое воздействие, а при — старое. Предположения (4.3) и (4.4) надо дополнить предположениями, что при заданных X и V результаты испытаний независимы и что распределения X в основной и контрольной группах независимы между собой, и задать эти распределения. Например, положив, что в основной группе

а в контрольной

где — неизвестные параметры, причем . Базовые предположения (4.3)-(4.6) погрузим в одну из асимптотик: традиционную или растущей размерности (см. п.2.2.1). Можно также пополнить модель упрощающими предположениями о взаимной близости векторов и о структуре .

Сводку практических рекомендаций по методам интерпретации результатов сравнительных испытаний с учетом возможного несовпадения распределений в контрольной и основной группах можно найти в [179].

<< Предыдущий параграф Следующий параграф >>
Оглавление