Главная > Разное > Математика в биологии и медицине
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

11.3. ДИФФЕРЕНЦИАЛЬНЫЙ ДИАГНОЗ В ОБЩЕМ СЛУЧАЕ ВЫБОРА МЕЖДУ НЕСКОЛЬКИМИ ЗАБОЛЕВАНИЯМИ

Часто врач должен произвести выбор между несколькими возможными диагнозами. В этом случае разработать удовлетворительную эмпирическую систему подсчета очков, аналогичную описанной в предыдущем разделе, крайне трудно. Кроме того, отсутствие четко сформулированной исходной математической модели сильно осложняет интерпретацию и оценку результатов. Разумеется, можно было бы попытаться использовать метод дискриминантных функций, о котором говорилось в предыдущем разделе, но при этом в свою очередь возникает ряд новых проблем. Прежде всего при классическом подходе к делению больных на две группы предполагается, что корреляционные матрицы отмеченных симптомов в каждой группе одинаковы и что распределения являются многомерными нормальными. Первое допущение не имеет существенного значения, однако позволяет упростить математические выкладки. Вполне можно рассмотреть более общий случай, когда корреляционные матрицы неодинаковы, но он почти наверняка потребует большого объема вычислений на ЭВМ. Допущение о многомерном нормальном распределении также вряд ли приемлемо в общем случае. Еще более серьезные затруднения возникают при обобщении метода дискриминантных функций на случай нескольких групп (если их нельзя расположить в определенном однозначном линейном порядке и если не выполняются допущения о многомерном нормальном распределении и равенстве корреляционных матриц). Можно было бы использовать обобщенный показатель расстояния Махаланобиса, однако и в этом случае возникает много затруднений в применении теории и интерпретации получаемых результатов.

Однако существует целый ряд статистических методов, которые стоило бы испробовать. Масуяма [44] перечисляет 11 методов, но из них только три-четыре существенно отличаются друг от друга. По мнению автора, один-два метода обладают значительными преимуществами. Одним из них является анализ вероятностей появления отдельных симптомов при определенных заболеваниях, позволяющий вычислить вероятность того, что данный больной страдает определенным заболеванием, относящимся к рассматриваемой группе (см., например, [39]). По существу это так называемый бейесовский подход (по названию одного правила теории вероятностей, носящего имя Томаса Бейеса). Поскольку основные идеи выражаются через простые вероятности, не представляет труда описать исходную математическую модель и нонять смысл практических результатов. Рассмотрим этот метод более детально.

Допустим, что рассматривается ограниченная группа d различных заболеваний и что каждый больной страдает только одним из них (т. е. из этого упрощенного описания исключается более сложный случай сочетания нескольких заболеваний). Допустим также, что имеется список s признаков, симптомов или результатов лабораторных анализов (на основе которых обычно получают необходимую информацию), обозначаемых Часто бывает удобно рассматривать всю совокупность признаков, симптомов и т. для этой цели используется символ S без индекса. Пока мы будем считать, что все симптомы дискретны, т. е. каждый из них относится к одному из двух или нескольких конкретных классов (например, «наличие» и «отсутствие» признака в случае простой дихотомии).

Допустим далее, что за прошлые годы накоплен обширный материал по всем этим заболеваниям, и поэтому для любого данного заболевания можно задать вероятность наблюдения определенного симптомокомплекса S. Если этот материал достаточно представителен, то можно также определить вероятность того, что больной, выбранный случайным образом, страдает заболеванием эта вероятность, определяемая еще до того, как будет принято во внимание клиническое состояние данного больного, является априорной вероятностью наличия заболевания Хотя врач, производящий обследование больного, может и не пользоваться этими статистическими категориями при обдумывании возможного диагноза, он скорее предположит какое-нибудь распространенное заболевание, чем заболевание, встречающееся крайне редко.

Далее врач сообщает информацию о симптомах, наблюдаемых у данного больного. Вполне возможно, что предварительный диагноз будет поставлен довольно быстро, но при этом врач нередко будет иметь в виду и другие возможности. В конце концов наступает момент, когда накоплено достаточное (во всяком случае, на данный момент) количество существенной информации. Эти данные характеризуют определенный симптомокомплекс S. Для того чтобы немедленно начать лечение и, возможно, назначить специальные дополнительные проверки, необходимо поставить предварительный диагноз. Выражаясь математическим языком, врачу нужно знать вероятность каждого заболевания при данном симптомокомплексе, т. е. Это по существу просто численный способ описания того, что происходит в каждодневной клинической практике. Если заболевание диагностируется с большой уверенностью, то вероятность будет относительно велика, а все остальные вероятности будут значительно меньше (возможно, в 10 или 100 раз).

Если же два заболевания кажутся почти одинаково возможными, а все остальные исключаются, то каждая из вероятностей будет равна примерно 0,5, а все остальные вероятности будут близки к нулю и т. д. Обычно уверенность врача в правильности поставленного им диагноза покоится на его общем опыте и субъективном мнении. Но последние должны всегда основываться в конечном счете на накопленных ранее знаниях или клинических данных (наблюдавшихся им лично или другими врачами и опубликованных в медицинских журналах и руководствах), а также на данных, полученных в результате обследования больного.

Известно, что апостериорная вероятность пропорциональна произведению априорной вероятности на функцию правдоподобия т. е.

Так как сумма всех апостериорных вероятностей для различных заболеваний должна быть равна единице, более точно выражение (11.1) можно записать в виде

(11.2)

По существу это формула Бейеса, позволяющая вычислить вероятность справедливости некоторой гипотезы на основании ее априорной вероятности и некоторых эмпирических данных. Этот метод в строгом смысле оправдан, только если альтернативные гипотезы (в данном случае заболевания) имеют априорные вероятности. Однако всегда имеется возможность выбрать модель статистического вывода (см. разд. 3.3), в которой априорные вероятности существуют и задаются соответствующими правилами даже при полном отсутствии информации.

В принципе апостериорную вероятность любого заболевания вычислить совсем нетрудно, так как на основе имеющегося материала можно вычислить как так и Однако к величине необходимо относиться с известной осторожностью, так как даже при наличии обширного материала он может содержать мало данных о частоте появления определенного симпто-мокомплекса S. Так, если имеется s различных симптомов и все они являются дихотомическими, то число различных симптомокомплексов будет равно При это число столь велико что применение данного способа оказывается невозможным. Поэтому обычно необходимы некоторые упрощающие предположения. Чаще всего принимается допущение о том, что отдельные симптомы имеют независимые распределения. Это допущение не настолько серьезно, как могло бы показаться.

Так, ван Верком и Бродмен [65] пришли к заключению, что в их материале отсутствует сколько-нибудь значительная корреляция между различными симптомами. Неопубликованные работы, выполненные автором совместно с Дж. Андерсоном, подтверждают эту точку зрения, но, конечно, необходимо исследовать этот вопрос более тщательно.

Если считать, что s симптомов статистически независимы, то можно записать соотношение

и на основе имеющегося материала с достаточно высокой точностью вычислить вероятности

Хотя для простоты мы ввели предположение о дискретности симптомов, это ограничение можно легко ослабить и распространить наш метод на непрерывные величины. Конечно, для описания непрерывных переменных можно было бы задать некоторую «нормальную» область значений этих величин, а все значения, лежащие за пределами этой области, считаются «аномальными». Тогда мы имели бы простую дихотомию типа «наличие» и «отсутствие» признака. Однако при этом теряется большой объем статистической информации, и по возможности нужно использовать непрерывное распределение. Допустим, что симптом является непрерывным с плотностью распределения для заболевания. Это означает, что вероятность наблюдения величины, лежащей в интервале равна При подстановке этого выражения в выражение в формуле для появляется сомножитель Этот сомножитель появляется также в числителе и в каждом члене знаменателя правой части выражения (11.2), а поэтому он сокращается и не вызывает никаких осложнений. Таким образом, переход к непрерывным случайным величинам связан лишь с заменой дискретной вероятности соответствующей непрерывной плотностью распределения, вычисленной для рассматриваемой величины.

Конечно, приведенное выше вероятностное описание процесса постановки диагноза крайне упрощенно и в некоторых отношениях, возможно, даже несколько наивно. Тем не менее, как мы вскоре увидим, в ряде частных случаев оно оказывается плодотворным. Рассмотрим теперь одно из наиболее серьезных возражений против этого метода. Дело в том, что врач, сталкиваясь с реальным больным, часто может поставить диагноз на основе самых незначительных симптомов, заметных лишь опытному наблюдателю, не вдаваясь в анализ механизма развития этих симптомов. В то же время при вычислении вероятностей, которое возможно лишь на основе тщательно зарегистрированных данных, теряется многое из того, что могут дать непосредственные наблюдения.

По поводу этого возражения необходимо сделать два замечания. Во-первых, при определенных условиях с помощью математической оценки можно получить такие же (если не лучшие) результаты, к каким врач приходит сам, и, следовательно, при такой оценке учитывается практически все, что имеет диагностическое значение. Во-вторых, если «вычисленные» диагнозы (т. е. диагнозы, поставленные на основании вычисления вероятностей) оказываются менее точными, то это означает, что либо имеется какой-то недочет в самом математическом методе, либо объем обрабатываемой информации значительно меньше, чем при постановке диагноза врачом. В обоих случаях выявление и устранение недочетов даст возможность получить новые знания о процессе постановки диагноза и, вполне возможно, разработать значительно лучший вычислительный метод.

Одним из самых первых и наиболее интересных приложений описанного здесь метода была работа Уорнера, Торонто, Визи и Стефенсона [63], посвященная врожденным порокам сердца. Авторы пользовались перечнем 33 заболеваний и 50 различных дискретных симптомов. Таким образом, исходная матрица «симптомы — заболевания» содержала 1650 элементов. Ясно, что вычисление данных для каждого нового больного с помощью уравнений (11.2) и (11.3) требует большого объема хотя и элементарных, но утомительных и поглощающих много времени арифметических вычислений. Поэтому для этой цели крайне желательно и даже необходимо применять электронную вычислительную машину. В связи с этим возникает важный вопрос использования в будущем вычислительных машин для решения этих задач. Поскольку число поддающихся наблюдению симптомов, и особенно объем лабораторных тестов, непрерывно увеличивается, вскоре может наступить такой момент, когда даже опытный врач не сможет воспользоваться всей той информацией, которую он будет иметь в своем распоряжении. Таким образом, мы сталкиваемся с парадоксальной ситуацией — потенциально у нас есть возможность получить значительно более точные результаты, но на самом деле использовать ее мы не можем и даже оказываемся в худшем положении именно из-за наличия очень большого количества данных (аналогичная ситуация была описана в разд. 4.2). Применение вычислительной техники для хранения и обработки исходных данных, а также для вычисления вероятностей приобретает в этой ситуации кардинальнейшее значение.

По данным Уорнера и др. [63], использование вероятностного метода оказалось весьма успешным. Правильность предположительных диагнозов, поставленных, с одной стороны, врачами-кардиологами, а с другой — с помощью вычислительной машины, проверялась затем по данным катетеризации сердца или хирургического вмешательства.

При анализе 36 случаев оказалось, что вычисленный наиболее вероятный диагноз совпадает с истинным диагнозом не реже, чем заключения, сделанные на основе тех же клинических данных тремя опытными врачами-кардиологами. Эти поразительные результаты убедительно подтвердили возможности математики и вычислительной техники при правильном выборе области их приложения.

К сожалению, Уорнер и его коллеги не подвергли результаты сравнения клинических и вычисленных диагнозов тщательному статистическому анализу. Позже Густафсон и др. (см. [20]) выполнили вполне аналогичную работу на группе из 38 больных с врожденными пороками сердца. В этой работе использовался значительно измененный вариант первоначальной программы для вычислительной машины. Авторы приводят сравнительные цифры, характеризующие правильность диагнозов, поставленных вычислительной машиной и разными врачами на основании перечня симптомов, наблюдавшихся у каждого больного. Шести врачам — двум педиатрам-кардиологам, двум терапевтам-кардиологам, педиатру и врачу-хирургу (специалисту по сердечно-сосудистой хирургии) — предложили составить список всех возможных диагнозов в порядке убывания вероятностей, а программа для вычислительной машины была составлена таким образом, чтобы на печать выдавались четыре наиболее вероятных диагноза (в том же порядке).

Таблица 20. Сравнение правильности диагнозов, поставленных вычислительной машиной и разными врачами

Полученные результаты, приведенные в табл. 20, достаточно наглядны. Так, диагноз, выбранный вычислительной машиной в качестве наиболее вероятного, был правильным в 63% случаев, диагноз, выбранный вторым, оказался правильным в 16% случаев, и в 18% случаев правильный диагноз упоминался в числе возможных. Только в 3% случаев правильный диагноз вообще не был упомянут. Каждому врачу и машине ставили по три очка за правильный диагноз, выбранный первым, по два — за правильный диагноз, выбранный вторым, и по одному — за упоминание правильного диагноза.

Хотя можно считать, что в данном случае применение вычислительной машины оказалось довольно успешным, авторы подчеркивают, что опытный педиатр-кардиолог, работающий на своем собственном материале, поставил бы правильный диагноз в 90% случаев. Но при этом следует учесть, что он располагал бы такими материалами, как электрокардиограммы и рентгеновские снимки, которые не были включены в перечень симптомов, так что ни вычислительная машина, ни шесть врачей не могли ими воспользоваться. Авторы отмечают также, что, хотя специалисты, принимавшие участие в эксперименте, и смогли обработать всю полученную ими информацию, менее опытные врачи не справились бы с этой задачей. На основании этих результатов делается вывод, что даже при современном состоянии вопроса математический метод позволяет извлечь из количественных записей столько же (если не больше) информации, сколько ее извлекает самый опытный врач. В то же время в некоторых случаях врачи имеют то преимущество, что они могут использовать материал, который пока еще трудно ввести в вычислительную машину. Очевидно, необходимо приложить все усилия к тому, чтобы найти способы введения в машину этих дополнительных данных.

Очень близкие результаты (главным образом в области кардиологии) были получены несколькими другими исследователями в различных странах (см., например, работу К. Такахаши и др. [60] и статью А. А. Вишневского, И. И. Артоболевского и М. Л. Быковского [68];) все они использовали упоминавшийся нами ранее бейесовский подход или какой-либо аналогичный статистический метод. Мы не собираемся обсуждать здесь достоинства и недостатки различных методов, хотя в начале этого раздела были высказаны некоторые замечания по этому поводу и в разд. 11.5 будет рассмотрен другой подход.

Определенные успехи достигнуты также в области идентификации бактерий, выделяемых из исследуемого материала, где используются по существу те же принципы (см. [51]). Так, из существующих данных можно установить частоту обнаружения определенных стандартных признаков у самых разнообразных бактерий.

При появлении новой неопознанной культуры производится ряд исследований и осуществляется предварительная идентификация. Если предварительные данные оказываются недостаточно надежными, производятся дополнительные опыты до тех пор, пока не будет получено приемлемое заключение. В современной микробиологической практике этот процесс обычно основывается на субъективном суждении и личном опыте, и опытный микробиолог может довольно быстро получить правильные результаты. Однако существуют более сложные ситуации, когда результаты лабораторных тестов сильно варьируют. В этих случаях может оказаться целесообразным ставить вероятностный диагноз на основе какой-то ориентировочной группы тестов. Если удовлетворительная дифференциация не достигается, то можно подобрать более действенную группу тестов для дальнейшего исследования материала. Эти идеи столь же важны и в области диагностики, где обычно желательно свести к минимуму объем исследований, требуемых для принятия решения (особенно если некоторые тесты болезненны или даже опасны).

<< Предыдущий параграф Следующий параграф >>
Оглавление