Главная > Математика > Прикладная статистика: Классификации и снижение размерности
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

4.2. Методы описания риска развития события

4.2.1. Мгновенный риск и факторизация Кокса.

В предыдущем параграфе для описания вероятности возникновения неисправности за время от одного осмотра до другого использовалось понятие риск-группы. Но для той же цели можно использовать понятие мгновенного риска (или просто риска)

Риск и вероятность события (появление неисправности за интервал ) связаны соотношением

По аналогии с (4.7) можно ввести условный риск в момент t при условии, что в момент осмотра объект имел вектор показателей исправен в

Понятие условного риска — более тонкий инструмент для описания закономерностей возникновения неисправности, чем — понятие условной вероятности. Однако вообще говоря, требует для своей оценки заметно большего числа наблюдений.

С целью частичного преодоления этой трудности в 1972 г. Д. Кокс [206] предложил факторизовать путем представления

или

где в (4.9) — функция «возраста» объекта, а в функция времени, прошедшего после осмотра; — функция изучаемых признаков. В зависимости от соображений предметной области выбирается одна из указанных моделей. Поскольку обе модели трактуются одинаково, в дальнейшем будет рассмотрена только первая из них.

При предположении, что , где — известная функция, а — вектор неизвестных параметров, факторизация (4.9) позволяет оценивать g (X) независимо от функции h. Для этого на шкалу возраста наносятся точки соответствующие возрасту объекта в момент наступления неисправности, и для каждой точки выписывается — условная вероятность, что среди всех объектов возраста i, в исследовании неисправность наступит только у объекта при условии, что она действительно наступила у объекта возраста

где суммирование проводится по всем объектам в возрасте находившимся в исследовании. Полученные вероятности объединяются в общую функцию условного правдоподобия

Параметры оцениваются из условия максимизации Наиболее часто используется функция Процедуры оценки входят во многие статистические пакеты. Асимптотические свойства изучены пока только в традиционной асимптотике.

4.2.2. Связь между риском и линейной дискриминантной функцией.

Формула (4.8) показывает, что всегда возможен переход от риска события (возникновение неисправности) к вероятности его осуществления за заданный промежуток времени.

Проанализируем с точки зрения риск

Эта формула важна для медицинских приложений, так как достаточно хорошо описывает средний риск кардиоваскулярной смерти для лиц старше 30 лет, а — наиболее часто используемое предположение о g (X).

Пусть Ни — как прежде, гипотеза, что неисправность не наступила. Если объект был обследован в возрасте s, имел при этом вектор показателей X и пробыл в исследовании Т лег, то

С другой стороны, в классической модели Фишера дискриминантного анализа для описания той же вероятности используется логистическая функция, в которой s — возраст объекта — в момент обследования рассматривается в качестве одной из переменных

Формулы (4.12) и (4.13) похожи в том смысле, что в обеих в качестве аргумента используются линейные комбинации координат X и s, но они различны аналитически.

Если положить то для оба выражения для вероятности численно близки. Это видно из табл. 4.1, в которой приведены значения функций

Это позволяет связать оба метода и, в частности, использовать оценки, полученные с помощью дискриминантного анализа, в качестве первого приближения в итеративных процедурах оценки .

При работе с риском события информация, содержащаяся в исходных данных, используется более полно, чем при работе с вероятностью осуществления события за время Т, описывается ли она формулой (4.12) или (4.13)

Таблица 4.1

Если в факторизации (4.9) ограничено снизу, a h (t) не убывает с ростом t, то при «разрешающая» сила любого метода ДА стремится к нулю, поскольку все объекты становятся случаями При использовании функций риска это не страшно, так как при оценке параметров используется информация о том, когда объекты становятся случаями.

4.2.3. Измерение динамики силы влияния факторов.

Естественно думать, что влияние того или нного фактора или группы факторов различно в ближайшем и отдаленном периодах. Несмотря на высокую практическую важность количественного изучения динамики силы фактора или интенсивности событий, строго документированные сведения в ряде областей знания практически отсутствуют. Немалую роль в этом сыграло отсутствие до последнего времени подходящего математического аппарата, позволяющего проводить исследование при сравнительно умеренных затратах.

В [271] показано, что повышенное систолическое артериальное давание у мужчины в возрасте 45—60 лет весьма информативно в отношении коронарной смерти в ближайшие 20 месяцев, что со временем информативность падает и что она весьма мала через 90 месяцев после первоначального измерения. Ниже приводятся результаты этой работы с целью демонстрации возможностей, открываемых соответствующим математическим аппаратом.

Пусть s — возраст в момент включения субъекта в исследование, когда проводилось начальное измерение систолического артериального давления, — величина систолического артериального давления (в мм ); - нижний и верхний квартили распределения х; t — текущий возраст; — условный риск коронарной смерти для субъекта возраста t при условии, что в возрасте s он имел систолическое артериальное давление . В исследовании использованы данные из London Busmen Study, эпидемиологического исследования, направленного на выявление риск-факторов, ведущих к развитию ишемической болезни сердца.

Рис. 4.1. Сила предсказания для двух математических моделей [271]

В исследование были включены 684 мужчины в возрасте от 39 до 65 лет. Здоровье каждого из них прослеживалось в течение десяти и более лет. За это время случилось 66 кардиоваскулярных смертей. Если бы имеющиеся данные были разделены на несколько групп согласно возрасту и величине артериального давления, то численность наблюдений в каждой из получившихся групп была бы недостаточной для каких-либо выводов. Только комплексное использование всего материала на базе предположений о форме зависимости риска смерти от и t делает анализ возможным.

В качестве показателя прогностической силы использовано

Модельные предположения о

где a, b, с — неизвестные постоянные; , a , где — постоянные. Анализ можно было бы провести и без конкретизации вида , но при этом на 25 % возросла бы длина доверительных интервалов.

На рис. 4 1 показатель прогностической силы, определенный в предположении (4.14), обозначен в предположении (4.15) . Как видим, качественного различия при использовании моделей (4.14) и (4.15) нет. Предсказующая сила убывает очень быстро, уменьшаясь в два раза к концу второго года.

Общая математическая модель для изучения динамики влияния нескольких факторов строится [107] из геометрических соображений модели Фишера классического дискриминантного анализа (см. § 2.3). Пусть t, s, X определены как выше, М — вектор средних, а — ковариационная матрица X, тогда

где

неизвестные параметры модели. Асимптотические свойства модели (4.16) в асимптотике растущей размерности пока не исследованы.

<< Предыдущий параграф Следующий параграф >>
Оглавление