Главная > Разное > Математика в биологии и медицине
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

11.5. КРИТЕРИИ ЗНАЧИМОСТИ

Как при рассмотрении в разд. 11.2 методики распознавания заболевания, так и в случае бейесовского подхода, описанного в разд. 11.3 и 11.4, мы предполагали, что каждый больной страдает только одним из нескольких взаимно исключающих заболеваний. Однако нередко у больного бывает не одно, а несколько заболеваний, и это обстоятельство должно быть учтено в любом математическом методе медицинской диагностики. Кроме того, возможно, что у данного больного вообще нет ни одного заболевания из числа рассматриваемых. Но если уж бейесовский аппарат пущен в ход, то больного неизбежно отнесут к той группе, вероятность которой является относительно наибольшей, даже если в абсолютном выражении она совсем невелика. В определенной степени эту трудность можно преодолеть, сделав одну из категорий достаточно расплывчатой, например обозначив ее как «прочие». Однако вполне возможен случай, когда заболевание ряда больных просто не попадает в ту ограниченную группу, на которой мы остановили свое внимание. Иногда больной с неопределенным симптомокомплексом первоначально будет совершенно неправильно отнесен к какой-то категории. В этом случае строгий бейесовский метод все же припишет ему одно из заболеваний, относящихся к этой категории.

Другой подход состоит в том, чтобы проверить, сходен ли симп-томокомплекс, обнаруживаемый у данного больного, с симпто-мокомплексами, характерными для определенного заболевания. Если сходство отсутствует, а говоря точнее, если различие оказывается статистически значимым, то можно допустить, что у больного этого конкретного заболевания практически нет. Если же окажется, что симптомы, обнаруживаемые у больного, значимо отличаются от симптомов, характерных для всех заболеваний группы, то можно предположить, что у него имеется какое-то совсем иное заболевание, которого раньше не предполагали.

Если данные ограниченны, то вполне возможно, что установить статистическую значимость различий не удастся. В этом случае поставить правильный диагноз без дополнительных данных невозможно.

Рассмотрим вначале случай, когда имеются обширные данные за прошлое время и все симптомы независимы и распределены по нормальному закону. Допустим, что, как и ранее, случайная величина характеризующая симптом, имеет математическое ожидание и среднее квадратическое отклонение для заболевания. Тогда при нулевой гипотезе, согласно которой данный больной имеет заболевание, можно проверить значимость отклонения случайной величины от обычным способом, рассматривая нормально распределенную случайную величину имеющую нулевое математическое ожидание и единичную дисперсию. В частности, случайная величина имеет распределение с одной степенью свободы. Следовательно, соответствующий критерий для проверки значимости всех s симптомов, рассматриваемых совместно, имеет распределение с s степенями свободы:

Малые значения свидетельствуют о близком сходстве между симптомами, наблюдаемыми у больного, и известным перечнем симптомов, характерных для данного заболевания, а при значительных отклонениях появляются большие значения Фактическая значимость проверяется обычным способом.

Допустим далее, что рассматриваются дискретные случайные величины, обнаруживающие простую дихотомию, например «наличие» или «отсутствие» признака. Обозначим вероятность наличия симптома при заболевании через а его отсутствие — через Введем случайную величину принимающую значение 1 при наличии симптома и значение 0 в его отсутствие. Таким образом, — биномиально распределенная случайная величина, основанная на единичной выборке. Пусть — значение симптома, наблюдаемого у больного. Если бы величина была получена на основе довольно большой выборки объемом , то для измерения отклонений от математического ожидания можно было бы построить приближенный критерий

При маловероятно, что эта аппроксимация окажется удовлетворительной. Однако рассмотрим статистику

(11.14)

во всяком случае, измеряющую отклонение от математического ожидания.

Математическое ожидание случайной величины равно Ради, а ее дисперсия составляет рцдц Поэтому мы могли бы использовать статистику полученную из предыдущей с помощью соответствующей нормировки (т. е. статистику с нулевым математическим ожиданием и единичным средним квадратическим отклонением):

Сумма s таких статистик по всем симптомам, т. е.

(11.16)

согласно центральной предельной теореме, имеет приближенно нормальное распределение с нулевым математическим ожиданием и дисперсией s. При этом необходимо построить односторонний критерий значимости для положительных отклонений от нуля.

Полученный критерий можно использовать и для непрерывных случайных величин, если заменить выражение (11.12) соответствующим аналогом для непрерывного случая. Каждый член правой части выражения (11.12) распределен как с одной степенью свободы, т. е. имеет единичное математическое ожидание и дисперсию, равную 2. Соответствующая нормированная случайная величина z имеет вид

Таким образом, в общем случае можно использовать для проверки статистику заданную формулой (11.16), где члены будут вычисляться по формуле (11.15) для дискретных случайных величин и по формуле (11.17) для непрерывных случайных величин.

На практике должны быть учтены и некоторые дальнейшие усложнения. Прежде всего необходимо рассмотреть дискретные случайные величины, распадающиеся более чем на два класса. Основная проблема здесь состоит по существу в том, чтобы измерить возможную значимость одного наблюдения, полученного из совокупности, имеющей мультиноминальное распределение. Для этого можно приписать случайным величинам значения, определяемые вероятностями самого мультиноминального распределения. Другими словами, если вероятность того, что симптом при заболевании относится к классу, равна то случайная величина принимает значение с вероятностью

В случае дихотомии этот способ не отличается от предыдущего, так как мы лишь производим линейное преобразование случайной величины и, как и ранее, завершаем выкладки выводом выражения (11.15). При наличии более чем двух классов нормированная случайная величина соответствующая формуле (11.15), вычисляется просто, хотя и оказывается несколько громоздкой. По существу, нам необходим показатель

где — математическое ожидание, — дисперсия, a — четвертый центральный момент случайной величины при наличии заболевания. Выражение (11.18) можно записать более развернутом виде, однако вряд ли это целесообразно. На практике все необходимые величины будут, по-видимому, специально вычисляться на электронной вычислительной машине.

Еще одно важное затруднение, как указывалось в разд. 11.4, возникает вследствие относительной неполноты исходных данных. Если рассматриваемые случайные величины непрерывны, то необходимо заменить в формуле (11.11) случайную величину, имеющую распределение Стьюдента, соответствующей нормированной случайной величиной. Для дискретных случайных величин при дихотомии необходимо рассмотреть статистику выраженную формулой (11.14), заменив на (в обозначениях, принятых в разд. 11.4), и получить выражение, соответствующее формуле (11.15). Аналогичные видоизменения возможны и для дискретных случайных величин, распадающихся более чем на два класса. Это сопряжено со значительным усложнением алгебраических выражений, и к моменту написания книги необходимые для этой модели расчеты еще не были закончены.

Кроме того, возникает проблема взаимосвязанных симптомов, и при установлении значимости также необходимо преодолевать затруднения, аналогичные тем, о которых шла речь в разд. 11.4.

Существуют также затруднения, вызываемые отсутствием некоторых данных, о чем уже говорилось в предыдущем разделе. Очевидно, что сумма в некотором смысле объединяет всю имеющуюся информацию относительно s рассматриваемых симптомов. Если s велико, то случайная величина имеет приближенно нормальное распределение с нулевым математическим ожиданием и единичным средним квадратическим отклонением, не зависящими от s. Таким образом, мы можем сравнивать, скажем, , и даже если дифференциальные диагнозы заболеваний должны быть основаны на различных совокупностях симптомов, т. е. на различных значениях s (например, вследствие того, что некоторые вероятности или их оценки отсутствуют).

Далее, можно рассматривать функцию правдоподобия каждого наблюденного значения как замену функции правдоподобия или Поэтому мы имеем возможность использовать в формулах (11.2) или (11.5) правило Бейеса даже в тех случаях, когда данные по некоторым симптомам отсутствуют или недостаточно полны (при условии, конечно, что бейесовский подход удовлетворителен в остальных отношениях). Логическая обоснованность этого предложения не вполне безупречна, однако оно заслуживает дальнейшего рассмотрения.

Рассмотренные в данном разделе методы проверки значимости позволяют подойти к исследованию проблемы постановки множественного диагноза. Что станет с предложенными критериями, если у больного два или больше заболеваний? На первый взгляд этот вопрос кажется в значительной степени эмпирическим. Если, например, у больного имеется заболевание, то вероятность появления (дискретного) симптома равна а если у него есть заболевание, то соответствующая вероятность равна . Какова в этом случае вероятность появления симптома, если у больного имеются оба эти заболевания? И так далее для всего симптомокомплекса. Этот вопрос очень важен, и для его решения требуется провести специальное эмпирическое исследование.

<< Предыдущий параграф Следующий параграф >>
Оглавление