Главная > Разное > Математика в биологии и медицине
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

11.4. ИСПОЛЬЗОВАНИЕ НЕБОЛЬШИХ ВЫБОРОК

Во многих случаях альтернативные симптомокомплексы весьма специфичны, и хороший врач может поставить диагноз без большого труда и, более того, довольно быстро. В этих случаях такие сложные средства, как вычислительные машины и вероятностные модели диагностического процесса, практически не нужны, разве что для выполнения научных исследований и обучения. Другими словами, мозг врача, на основе интуиции производящий с достаточной точностью (и не требуя больших затрат) необходимые вычисления, оказывается здесь самой лучшей машиной. Однако существуют и более трудные ситуации. В предыдущем разделе мы уже указывали на сложности, связанные с непрерывным увеличением числа наблюдаемых симптомов и с появлением все более разнообразных методов медицинского обследования. В конце концов само обилие данных вынудит врачей обратиться к автоматическим методам их обработки и интерпретации.

Другая трудность заключается в том, что некоторые заболевания встречались или описывались в прошлом не очень часто, и при появлении нового случая диагноз приходится ставить, исходя из чисто субъективных соображений, поскольку имеющиеся данные крайне недостоверны. Так, изучая материалы по мегалобластической анемии (любезно предоставленные проф. Лесли Уиттсом из Радклиффской больницы в Оксфорде), автор и его коллега Дж. Андерсон обнаружили 92 документально описанных случая, на которых можно основываться при постановке диагноза у новых больных.

Всего существует 12 основных форм этого заболевания, однако две из них не были представлены вообще, а четыре другие — всего одним случаем каждая. И только данные по остальным шести формам можно было считать пригодными для постановки диагноза математическими методами. Самая малочисленная из групп, соответствующих этим формам, содержала всего два случая, а самая многочисленная насчитывала пять случаев. Конечно, на практике врач при постановке диагноза новому больному черпает данные о других случаях из журналов и книг. Но если он самостоятельно разрабатывает новые тесты или имеет основания выбрать несколько другую систему классификации то ему приходится полагаться только на собственный опыт, который неизбежно будет ограниченным. Поэтому крайне важно научиться извлекать максимальное количество информации из малочисленных данных, тем более что они могут иметь очень большое значение с научной точки зрения. Но если имеющиеся выборки данных малы, а статистическая изменчивость значительна, то обычно получение правильных выводов сопряжено с известными трудностями. Именно здесь вероятностный метод может оказаться крайне полезным (см. [10]).

В предыдущем разделе мы предполагали, что данные за прошлое время весьма обширны, и поэтому вполне можно допустить, что вероятности известны с высокой точностью. В этом случае можно использовать формулу (11.1). Но если имеющийся материал не очень велик, а возможно, совсем скуден, то необходимо действовать более осторожно. Прежде всего обозначим его символом R. Теперь есть априорная вероятность того, что случайно выбранный больной страдает заболеванием определенная до того, как будет принята во внимание какая-либо конкретная информация, содержащаяся в исходном материале. Нужно найти вероятность того, что некоторый случайным образом выбранный больной страдает заболеванием при условии, что информация, содержащаяся в исходном материале, известна, но симптомокомплекс еще не определен. После этого требуется вычислить вероятность появления симпто-мокомплекса S при условии, что имеет место данное заболевание и известна информация, содержащаяся в исходных данных. Теперь для определения апостериорной вероятности того, что больной страдает заболеванием можно использовать формулу Бейеса

Это выражение является обобщением соответствующей формулы (11.1).

Более точно, мы должны получить формулу

соответствующую выражению (11.2). Наконец, если, как и ранеег все s симптомов взаимно независимы, формулу (11.3) можно заменить соотношением

Теперь необходимо определить количество информации в материале R. Допустим, что имеется представительный набор случаев с примерами заболевания и что случаев заболевания изучались в отношении симптома Допустим, что симптомы дискретны и поэтому S, можно подразделить на классов. Пусть имеется случаев заболеванпя с симптомом относящимся к классу ). В случае простой дихотомии

Если нам совершенно неизвестна относительная частота различных заболеваний в той конкретной ситуации, с которой мы встречаемся (например, в определенной больнице или клинике), то естественно принять, что все априорные вероятности равны другу другу, т. е.

Разумеется, при выборе различных значений могла бы учитываться и любая дополнительная информация (помимо материала R). Теперь, используя обобщение правила Лапласа на случай мультиномиальной классификации (см., например, [37], разд. 3.23), находим выражение для вероятности

Если окажется, что исходный материал не содержит надежной информации о частоте заболеваний, то необходимо допустить, что все . В этом случае выражение (11.8) переходит в (11.7).

Применяя далее это правило, можно получить выражение для вероятности . Вероятность того, что симптом S у больного с заболеванием относится к классу, равна

Используя формулу (11.6), находим функцию правдоподобия для всего симптомокомплекса:

где каждое .

Теперь, подставляя выражения (11.8) и (11.9) в формулу (11.5), получаем искомое апостериорное распределение различных заболеваний. В принципе эти вычисления довольно просты, хотя они могут быть весьма громоздкими при рассмотрении большого числа симптомов, особенно если перейти от дискретных симптомов к непрерывным.

В разд. 11.3 мы показали, как обращаться с непрерывными случайными величинами в том простом случае, когда исходных данных много; аналогичные идеи можно использовать и здесь. Вначале необходимо определить количество информации в материале R, касающейся какой-либо непрерывной случайной величины. Допустим, что случайная величина непрерывна и распределена по нормальному закону (возможно, после соответствующего преобразования) с математическим ожиданием и средним квадратическим отклонением для заболевания. Имеющиеся данные (полученные, скажем, на основании наблюдений) дают эмпирические оценки Функция правдоподобия в данном случае заменяется оценкой плотности , где — наблюдаемая интенсивность симптома у данного нового больного. Эта плотность определяется выражением

Вывод этой формулы на основании строгих вероятностных рассуждений можно найти в литературе [29, 37]. Однако форму выражения (11.10) можно было бы легко предсказать, исходя из следующих общих рассуждений. Случайная величина имеет нормальное распределение в повторных выборках с нулевым средним и дисперсией — независимая оценка дисперсии основанная на материале с степенями свободы. Следовательно, случайная величина

имеет -распределение Стьюдента с степенями свободы и, следовательно, ее плотность распределения описывается формулой (11.10).

Однако этот вывод необходимо строго проверить, учитывая все входящие в формулу различные условные вероятности.

Если наблюдается какая-то непрерывно распределенная случайная величина, например для симптома, то вероятность того, что наблюдаемое измерение будет лежать в интервале можно записать в виде где При подстановке этого выражения в формулу (11.6), как и ранее, в выражении для вероятности появляется сомножитель Но если мы переходим к апостериорной вероятности, заданной формулой (11.5), то этот сомножитель появляется как в числителе, так и в каждом члене знаменателя правой части формулы и поэтому сокращается.

Запрограммировать этот математический метод для расчетов на электронной вычислительной машине нетрудно, но, чтобы его можно было с успехом применять в реальных условиях, необходимо обратить особое внимание на ряд моментов. Бейли и Андерсон (неопубликованные данные) проверили этот метод на упоминавшихся ранее данных о мегалобластической анемии, и для очень небольшой группы из девяти больных в семи случаях он себя полностью оправдал. Полученные результаты можно считать обнадеживающими, хотя, разумеется, для того, чтобы сделать окончательный вывод, необходимо провести проверку на значительно большей выборке. Основные трудности вызываются тем, что, когда исходных данных не очень много или даже совсем мало, нередко их можно вообще упустить из виду. Если отсутствует зарегистрированная информация о каком-либо определенном симптоме, связанном со всеми заболеваниями рассматриваемой группы, то никаких проблем не возникает, поскольку в таком случае этот симптом можно просто игнорировать. Но если для одних заболеваний данные о симптоме имеются, а для других таких данных нет, то в этом случае, естественно, необходимо использовать любые возможности дифференциальной диагностики, а не игнорировать данный симптом полностью.

Если рассматриваются дискретные случайные величины, то с этой трудностью справиться легко. Так, допустим, что в исходных данных отсутствует информация об симптоме в связи с заболеванием. Это означает, что и в соответствующем сомножителе правой части формулы (11.9) равны нулю и остается априорная вероятность, равная

Случай непрерывных вероятностей более сложен, так как при отсутствии информации трудно сформулировать априорные утверждения о случайных величинах с бесконечным диапазоном изменений, и неясно, каким образом можно выполнить соответствующие подстановки в формулу (11.5).

Эта задача еще не исследована полностью. Один из практических методов состоит в превращении непрерывного симптома, о котором имеется лишь частичная информация, в дискретную форму, что приводит к случаю, рассмотренному в предыдущем абзаце. На самом деле при формулу (11.10) все равно применять нельзя. Вместо этого можно воспользоваться излагаемой в конце следующего раздела идеей об объединении имеющейся информации по всем симптомам в одну переменную в формуле (11.16)]. Это позволяет избежать трудностей, о которых говорилось при выводе формулы (11.5), хотя справедливость данного метода вызывает некоторые сомнения.

При рассмотрении непрерывных случайных величин возникает еще одно затруднение, состоящее в том, что формулу (11.10) нельзя использовать даже при если что имело бы место, если бы все результаты наблюдений были одинаковыми в пределах достижимой точности. Необходимо либо провести более точный анализ, принимая во внимание, что в конечном счете наблюдения имеют дискретный характер, либо применить какой-нибудь особый прием, например использовать взвешенные значения основанные на данных, полученных по другим заболеваниям (как это предложил Дж. Андерсон), либо действовать так, как если бы данные по всем заболеваниям, для которых отсутствовали (последнее сопряжено, однако, с потерей ценной информации).

До сих пор в большинстве случаев мы предполагали, что при любом заболевании отдельные симптомы статистически независимы. Как указывалось в разд. 11.3, иногда такое упрощающее допущение приближенно выполняется, однако принимать независимость симптомов за общее правило, конечно, нельзя. В принципе необходимо выяснить, к каким последствиям приводит наличие корреляции между различными симптомами. Однако на практике возникают две серьезные трудности. Первая из них состоит в том, что, хотя в упоминавшейся ранее статье Гейссера [29] приводятся результаты, полезные для выполнения соответствующего анализа непрерывных случайных величин, имеющих многомерное нормальное распределение, анализ дискретных случайных величин более сложен. Возможно, здесь подойдет недавно разработанная теория взаимодействий в таблицах сопряженности (см., например, [17, 30]), однако пригодность ее для медицинской диагностики еще не ясна. Вторая трудность более существенна. Она состоит в том, что если имеющиеся материалы недостаточно полны, то они дают очень мало информации о распределениях отдельных компонент многомерной случайной величины, не говоря уже о характере корреляции между ними. В настоящее время мы не располагаем никакими количественными данными о характере или степени ожидаемых ассоциаций между различными симптомами.

Детальное исследование этого вопроса имело бы очень большое значение, так как это позволило бы определить, в каких случаях можно с уверенностью принять допущение о независимости симптомов и какие дополнительные минимальные допущения можно принять, когда есть основания предполагать наличие некоторой корреляции. При этом, конечно, нужно было бы стремиться к тому, чтобы число параметров, подлежащих оценке, было сведено к минимуму. Некоторые дальнейшие замечания по этому вопросу приводятся в разд. 11.6.

<< Предыдущий параграф Следующий параграф >>
Оглавление