Главная > Разное > Математика в биологии и медицине
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

3.3. МОДЕЛИ СТАТИСТИЧЕСКОГО ВЫВОДА

При обсуждении в разд. 2.2 одного из наиболее распространенных методов проверки статистической значимости упоминались различные модели статистического вывода. Хотя на практике использование разных теоретических подходов чаще всего приводит к выводам, мало отличающимся друг от друга, при общем описании процесса научного исследования следует упомянуть о многообразии логических доказательств. Нас интересуют здесь не столько детали дедуктивных рассуждений (словесных или математических), в результате которых на основе четко определенных теоретических допущений получаются логически правильные выводы, сколько более неопределенный тип индуктивного, или недостоверного (эвристического), вывода, при котором делается попытка получить обоснованные обобщения реальных явлений.

В настоящее время большинству авторов научных статей известны простейшие статистические рассуждения, особенно благодаря тому, что редакторы журналов часто просят авторов «вставить статистику», которая, по их мнению, придает статьям необходимую респектабельность. Конечно, пытаться включать статистический материал в уже завершенную экспериментальную программу не имеет смысла. Чтобы достигнуть наилучших результатов, нужно планировать экспериментальную работу таким образом, чтобы в ней с самого начала была предусмотрена соответствующая статистическая обработка данных. Разумеется, множество глубоких биологических и медицинских исследований было успешно выполнено без особого внимания к статистическим тонкостям. Но во многих случаях планирование эксперимента, предусматривающее достаточное использование статистики, значительно повышает эффективность работы и обеспечивает получение большего объема информации о большем числе факторов при меньшем числе наблюдений. В противном случае эксперимент может оказаться неэффективным и неэкономичным и даже привести к неверным выводам.

В этих случаях новые гипотезы, построенные на таких необоснованных выводах, не смогут выдержать проверку временем. Если проводится непрерывная последовательность экспериментов, то рано или поздно свойственный научному методу механизм самокоррекции позволит исправить большинство допущенных ошибок.

Отсутствием статистического подхода можно в какой-то мере объяснить периодическое появление «модных» препаратов или методов лечения. Очень часто врачи ухватываются за те или иные новые препараты или методы лечения и начинают широко применять их только на основании кажущихся благоприятных результатов, полученных на небольших выборках данных и обусловленных чисто случайными колебаниями. По мере того как у медицинского персонала накапливается опыт применения этих препаратов или методов в больших масштабах, выясняется, что возлагавшиеся на них надежды не оправдываются. Однако для такой проверки требуется очень много времени и она весьма ненадежна и неэкономична; в большинстве случаев этого можно избежать путем правильно спланированных испытаний на самом начальном этапе.

В настоящее время специалисты в области биоматематики настоятельно рекомендуют применять статистические методы при проверке гипотез, оценке параметров, планировании экспериментов и обследований, принятии решений или изучении работы сложных систем. Все эти виды деятельности постоянно связаны с использованием эвристических выводов. Целесообразно рассмотреть различные методы статистического вывода, существующие в настоящее время, иначе исследователь может упустить из виду или вообще игнорировать некоторые из них просто потому, что неправильно понимает их или считает, что они противоречат другим известным ему методам.

Детальное математическое изложение этих вопросов можно найти в соответствующих руководствах, например в книге Кендалла и Стюарта [38]. В данном разделе мы остановимся лишь на основных чертах различных методов. Рассмотрим, например, простую статистическую проверку, описанную в разд. 2.2. Суть ее состоит в тол, что мы строим какую-либо подходящую нулевую гипотезу, а затем смотрим, не соответствуют ли имеющиеся данные появлению события, которое следовало бы (Считать довольно редким, если предположить, что нулевая гипотеза верна. Если это так, то исходная нулевая гипотеза отвергается (при выбранном уровне значимости) и рассматривается некоторая видоизмененная гипотеза, которая в свою очередь подвергается проверке.

Фигурально выражаясь, мы ставим перед собой ряд деревянных кукол чтобы сбивать их по очереди, если этого потребуют обстоятельства.

Многим, вероятно, покажется, что в тех случаях, когда сложные суждения можно сжато выразить простыми терминами, большинство ученых работает именно таким или, во всяком случае, весьма аналогичным методом. Но существует и другой метод проверки гипотез, хорошо известный тем, кто занимается приемочным контролем в промышленности. Допустим, что имеется простая альтернатива для нулевой гипотезы; скажем, последняя утверждает, что некоторый параметр 0 (например, математическое ожидание некоторой случайной величины, распределенной по нормальному закону) равен нулю, а альтернативная гипотеза утверждает, что он принимает некоторое другое значение . В данном случае с помощью критерия Фишера для проверки значимости (о котором уже говорилось) можно установить некоторый уровень значимости, например означающий вероятность того, что верная нулевая гипотеза будет отклонена; однако об альтернативной гипотезе ничего конкретного сказать нельзя. Если она точно известна, то можно построить критерий, который задает уровень значимости и в то же время позволяет минимизировать вероятность того, что будет отвергнута верная альтернативная гипотеза (т. е. принята ложная нулевая гипотеза). Величины обычно называют ошибками первого и второго рода соответственно. Этот подход по существу и составляет основу теории статистических испытаний Неймана — Пирсона. Если вероятностям можно задать приемлемые значения, то эта теория позволяет получить весьма удовлетворительное объяснение статистических критериев и дает удобный способ нахождения новых критериев, когда они потребуются.

В промышленности при выборочной проверке некоторого продукта обычно можно в денежном выражении оценить убытки, причиняемые при допущении ошибок первого и второго рода. Руководствуясь мотивом прибыли, можно выбрать оптимальные значения . В том случае, когда имеется несколько альтернативных гипотез или даже непрерывный спектр альтернатив, ситуация значительно усложняется, хотя основные идеи останутся неизменными. В чисто научном плане эта задача состоит в том, чтобы решить, существует ли какая-либо основа для выбора определенной альтернативной гипотезы. Многие считают, что научное исследование — это по существу бесконечно продолжающийся процесс, и если окажется, что какая-либо гипотеза не подходит, то нужно рассмотреть возможные альтернативы в свете самых последних данных, а не предрешать возможность существования какой-либо определенной гипотезы.

Эта точка зрения естественным путем приводит к методу Фишера.

В целом для ученых представляет больший интерес проверка конкретных нулевых гипотез, а теория Неймана — Пирсона кажется им громоздким и необоснованным усложнением. Однако, поскольку теория Неймана — Пирсона определяет свои задачи более точно, она в большей степени допускает возможность математических обобщений и выводов. По этой причине многие статистики утверждают, что ученые должны изменить свое мнение и воспользоваться преимуществами этого более сложного подхода. В некоторых частных случаях теория Неймана — Пирсона может применяться совершенно естественным образом. Однако в общем случае трудно предвидеть, к каким практическим последствиям приведут ошибки второго рода, даже если предполагается, что конкретные альтернативные гипотезы могут быть сформулированы достаточно четко. Довольно трудно также решить, какими должны быть наилучшие вероятности для ошибок первого рода, т. е. обычные уровни значимости, хотя с практической точки зрения объяснить их значительно легче.

Еще один подход к решению всех этих задач дает так называемая теория статистических решений. Совершенно ясно, что проверки значимости связаны с решениями о принятии или отклонении нулевой гипотезы, и очень многие статистические задачи проверки значимости и получения оценок можно сформулировать как задачи принятия решений. Обращение к тому или иному методу в значительной мере зависит от личных склонностей отдельных математиков. Однако существует много практических ситуаций, особенно в задачах исследований операций, когда сам характер задачи предполагает необходимость принятия решений. Так, врач может принять решение посетить одного больного, а не другого; он может выбрать один предварительный диагноз вместо другого и, следовательно, в дальнейшем будет вынужден действовать соответствующим образом; он может сам лечить больного или же направить его на консультацию в больницу и т. д. Если мы начинаем искать точный ответ на вопрос о том, как найти правильный, или оптимальный, образ действий, возникают самые разнообразные осложнения. Нужно суметь учесть все возможные решения, а также вероятности различных последствий, к которым может привести каждое из них. Кроме того, потребуется некоторая оценка значения этих последствий для врача, больного и общества. Если всю эту информацию удастся получить, то в принципе можно рассчитать оптимальный образ действий. На практике, когда необходимо быстро принимать решения на основе весьма неполных данных, обычно приходится полагаться на субъективные суждения в надежде, что они позволят получить довольно хорошие, если не наилучшие, результаты.

Может показаться, что подход к анализу сложных реальных проблем с точки зрения теории статистических решений является безнадежно абстрактным и утопическим. Однако имеется ряд причин считать, что это не так. Естественно, что в книгах по теории решений для иллюстрации приводятся лишь чрезмерно упрощенные варианты реальных задач. Конечно, в тех случаях, когда то или иное действие нужно произвести немедленно, такие методы применяются пока редко, однако вполне возможно, что с дальнейшим развитием быстродействующих вычислительных устройств они найдут более широкое применение. Еще важнее, что теория статистических решений дает основу для количественного подхода к очень сложным административным и организационным задачам, которые до самого последнего времени считались недоступными для математических методов. Таким образом, мы вправе сказать, что эта теория позволяет получить представление о том, что происходит на уровне административного управления, а также помогает более четко представить, что здесь в действительности требуется. Следующий этап, на котором будут предприниматься попытки производить выбор между различными моделями принятия решений, еще только начинает развиваться. В настоящее время такие модели имеют главным образом теоретическое значение, однако в будущем они, по-видимому, приобретут значительно большую практическую ценность.

С проверкой гипотез связан еще один фундаментальный вопрос: можно ли считать, что гипотезы характеризуются некоторым распределением вероятностей? При частотной интерпретации те или иные значения вероятности можно приписать лишь результатам таких экспериментов, которые, во всяком случае в принципе, можно повторить, причем эти вероятности определяются через наблюдаемые частоты. Гипотезы же бывают либо справедливы, либо ложны и обычно не имеют распределений, хотя они с большей или меньшей вероятностью соответствуют имеющимся данным. Критерии для проверки значимости, предложенные Фишером или Нейманом и Пирсоном, не связаны с допущениями о существовании априорных вероятностей гипотез. Однако в частных случаях эти априорные вероятности могут существовать. Если это так, то, используя правило Бейеса, можно определить апостериорные вероятности самих гипотез.

Допустим, например, что для дальнейшего экспериментирования мы выбрали какую-то особь с доминантным признаком, полученную при скрещивании Априорная вероятность того, что эта особь обладает генотипом АА, равна 1/3, а вероятность генотипа равна 2/3; третья возможность, для нее исключается.

Если мы теперь проведем аналитическое скрещивание с особыо, несущей два рецессивных аллеля, то появление хотя бы одной особи с рецессивным признаком покажет, что проверяемая особь является гетерозиготой Допустим, что вместо этого мы получили три особи с доминантным признаком. Вероятность этого события равна единице (т. е. это событие достоверно), если проверяется особь при генотипе . Таким образом, апостериорные вероятности равны или и соответственно. Нормируя эти относительные частоты таким образом, чтобы их сумма была равна единице, находим, что вероятности генотипов АА и равны соответственно . С полным основанием можно сказать, что с вероятностью проверяемая особь гомозиготна по доминантному гену. Этот вывод подтверждается реально только в том случае, если существуют априорные вероятности. Если при использовании критерия Фишера достигается уровень значимости, равный, скажем, то часто говорят, что шансы на то, что нулевая гипотеза справедлива, составляют 1 : 100. Хотя с логической точки зрения это утверждение не вполне строго, оно вряд ли покажется кому-нибудь недостаточно ясным, разве только теоретикам.

Невозможность оценить шансы за и против гипотезы при частотной интерпретации вероятности часто рассматривается как недостаток этой теории по сравнению со здравым смыслом. С другим подходом мы встречаемся в так называемой теории инверсных (субъективных) вероятностей, превосходное изложение которой можно найти в книге Джеффри [37]. Эта теори развита на основе допущений, предполагающих использование распределения вероятностей для измерения степени уверенности или доверия. Так, в том случае, если о некотором параметре 0 ничего не известно, за исключением того, что он может принимать любое из трех значений а, b и с, этим значениям приписываются одинаковые априорные вероятности, равные 1/3. Если первоначально отдается предпочтение значению то этому событию приписывается большее значение вероятности. Хотя можно спорить о том, правильную или неправильную форму имеет то или иное априорное распределение, преимущество этого метода состоит в том, что он позволяет учесть уже имеющиеся данные, тогда как при частотной интерпретации вероятности сделать это трудно. Метод субъективных вероятностей имеет много привлекательных свойств; некоторые его приложения более подробно излагаются в гл. 11, где рассматривается ряд задач медицинской диагностики.

Типичная задача постановки диагноза легко и совершенно естественно формулируется через субъективные вероятности. Составление окончательного перечня различных возможных диагнозов, каждому из которых ставится в соответствие определенная субъективная вероятность, по-видимому, ближе к клинической практике, чем методы, основанные на частотной интерпретации вероятности. Разумеется, как уже отмечалось ранее, при постановке диагноза более эффективным был бы подход, основанный на теории решений, однако использовать его на практике пока еще трудно, поскольку обычно отсутствуют очень многие существенные элементы, необходимые для применения этого метода.

Мы кратко остановились на методе субъективных вероятностей в связи с вопросом о проверке гипотез. Однако сюда легко включить и получение оценок. Если рассматривается некоторый непрерывный параметр 0, то его апостериорное распределение показывает, какая степень уверенности ставится в соответствие всей области возможных значений этого параметра. При достаточном количестве данных это распределение будет сконцентрировано около некоторого предпочтительного значения, которое можно использовать как оценку. Концентрация вероятности вокруг этого значения измеряет соответствующую степень уверенности и во многих случаях выражается известной нам средней квадратической ошибкой.

Многие исследователи выдвигают принципиальные возражения против использования априорных вероятностей в тех случаях, когда они вводятся для измерения степени уверенности, а не как фактические частоты, как в рассмотренном выше примере из области генетики. Чтобы обойти это возражение, Фишер ввел так называемое фидуциалъное распределение. В этом методе никакие допущения относительно априорного распределения неизвестного параметра не принимаются, однако данные используются таким образом, что для параметра 0 можно составить математические выражения, эквивалентные вероятностному распределению . При частотной интерпретации вероятности такого распределения не существует, и в этом состоит суть дела. Однако при интерпретации вероятности как степени уверенности рекомендуется использовать это фидуциальное распределение как показатель того, какая степень уверенности ставится в соответствие различным возможным значениям . По форме фидуциальное распределение выглядит в точности так же, как и апостериорное распределение, хотя по своей логической основе они заметно отличаются друг от друга. Во многих простых задачах математической статистики, например при оценке математического ожидания нормального распределения, применение фидуциального распределения, апостериорного распределения или же частотной интерпретации вероятности дает практически одинаковые результаты, однако в более сложных задачах появляются различия.

Еще важнее существование некоторых аномалий и очевидных логических несоответствий при использовании фидуциальных распределений. По этим причинам многие математики очень критически относятся ко всему этому подходу в целом. Если бы эти трудности удалось преодолеть, то фидуциальные распределения стали бы более популярны среди теоретиков и их охотнее применяли бы ученые, ведущие практическую исследовательскую работу. Последним, естественно, необходим такой статистический метод, который позволял бы ставить в соответствие неизвестным гипотезам или различным значениям неизвестного параметра определенные вероятности, однако явно небезопасно использовать метод, имеющий логические изъяны.

Чем кончатся дебаты о различных интерпретациях вероятности, сказать трудно. Но пока философы и математики обязаны искать ответ на ряд насущных вопросов. Чем следует руководствоваться, решая, какому из нескольких хорошо разрекламированных продуктов стоит отдать предпочтение? Будет ли исследование более эффективным, если основным принципом получения информации явится теория статистических решений, а не критерий статистической значимости Фишера и не фидуциальное распределение? Будут ли результаты, полученные в сотрудничестве со специалистом в области биометрии, предпочитающим использовать субъективные распределения, отвергнуты научным журналом, редакторы которого являются сторонниками ортодоксальной частотной интерпретации вероятности? Ученый-практик может избежать бесконечных дебатов и бесплодного обсуждения мелких вопросов логического характера, заняв ту же самую прагматическую позицию, которой он руководствуется в своих делах и решениях, касающихся более знакомых ему технических деталей в его собственной области. В своей практической работе он привык к широкому использованию моделей, сформулированных главным образом в словесной форме или же преимущественно математических (в данной книге мы отстаиваем необходимость более широкого применения именно этих моделей). Различные теории и методы статистического вывода можно рассматривать точно в таком же плане, хотя и на более абстрактном уровне. Это просто разные модели статистического вывода, разные способы получения обоснованных выводов при определенных исходных данных и допущениях. Очень часто получаемые выводы оказываются совершенно одинаковыми, какую бы модель мы ни выбирали, и этому вряд ли стоит удивляться. Однако иногда различные модели, представляющие собой по существу различным образом построенные изображения некоторого сложного процесса, приводят к неодинаковым выводам. Если эти выводы дополняют друг друга, то никаких проблем не возникает, и налицо определенный выигрыш.

Если же получаемые выводы несовместимы, то необходимы дальнейшие исследования, и при попытке разрешить возникшие противоречия можно получить новые данные.

Цель этого раздела состоит не в детальном описании различных методов статистического вывода, а скорее в том, чтобы показать многообразие существующих методов и подчеркнуть, что в определенной ситуации тот или иной из них может оказаться наиболее подходящим. Выбор метода может зависеть от целого ряда факторов, в том числе от формулировки исходной задачи, характера вопросов, наличия соответствующего математического аппарата, возможности использовать электронную вычислительную машину и, наконец, от личных склонностей самого исследователя.

<< Предыдущий параграф Следующий параграф >>
Оглавление