Главная > Разное > Математика в биологии и медицине
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

7.5. ПОСТРОЕНИЕ ФЕНОНОВ

Итак, у нас уже имеется матрица t x t, составленная из вычисленных коэффициентов сходства, и мы можем перейти к третьему этапу процесса, описанного в разд. 7.3. В дальнейшем мы будем считать, что все коэффициенты нормированы и заключены между 0 и 1.

Как уже указывалось в предыдущем разделе, таким образом обычно нормируют коэффициенты ассоциации, связанные с дискретными случайными величинами; коэффициенты корреляции лежат между —1 и +1, а показатели расстояния могут лежать совсем в другом интервале. Если для всех случайных величин используются коэффициенты одного типа, то никаких затруднений не возникает, поскольку их можно сравнивать друг с другом, какая бы шкала ни была выбрана. Если же в одном и том же исследовании используются коэффициенты разного типа, то их можно сделать сравнимыми, произведя некоторые простые преобразования. Это очевидный, хотя и важный пункт.

С помощью матрицы сходства мы хотим разбить операбельные таксономические единицы на такие группы, чтобы единицы одной группы обладали близким сходством, а между единицами, принадлежащими к разным группам, сходство было значительно меньшим. Проиллюстрируем эту операцию на искусственном примере с небольшим числом таксономических единиц. Допустим, что у нас есть 10 О. Т. Е., для которых нижняя половина 10х10-матрицы коэффициентов имеет вид, показанный в табл. 3, где для простоты все коэффициенты округлены до 0,1.

Таблица 3. Типичная 10 х 10-матрица коэффициентов сходства для 10 О. Т. Е.

Минимальное значение коэффициента сходства в табл. 3 равно 0,5. Произвольно примем 0,5 и 0,6 за относительно слабое, а 0,7, 0,8 и 0,9 (особенно последние два значения) за относительно сильное сходство.

Изучение табл. 3 показывает, что О. Т. Е. № 1 имеет близкое сходство с О. Т. Е. № 2, 5 и 9, причем последние три имеют очень близкое сходство друг с другом; связь любой из этих четырех О. Т. Е. с любой из остальных шести значительно слабее. Таким образом, О. Т. Е. № 1, 2, 5 и 9 выглядят как особая группа. Кроме того, следует выделить О. Т. Е. № 4 и 8. Они сильно связаны друг с другом, но не связаны с какими-либо другими О. Т. Е. Наконец, оставшиеся О. Т. Е. № 3, 6, 7 и 10 также можно собрать в группу, хотя в этом случае два «внутренних» коэффициента сходства равны всего 0,7. Разобьем эти 10 О. Т. Е. на три названные группы. Тогда матрица примет вид, показанный в табл. 4.

Таблица 4. Перегруппированный вариант матрицы коэффициентов сходства, изображенной в табл. 3

Структура исходной матрицы теперь довольно ясна. Правда, нам точно не известна статистическая значимость этих трех групп, которые можно рассматривать как три фенона, определенных на основе первоначальных данных о признаках при 70%-ном уровне значимости, но, во всяком случае, у нас теперь есть основа для числовой таксономической классификации.

К сожалению, описанный выше процесс распределения операбельных таксономических единиц по группам, основанный на визуальном изучении матрицы коэффициентов сходства, крайне субъективен и его трудно выполнить, когда число таксономических единиц больше 10. Сокэл и Снит [59] описывают метод, который по существу аналогичен данному и в котором интервал значений коэффициентов сходства указывается с помощью квадратов, имеющих различную густоту штриховки.

В этом случае группировку произвести несколько легче, однако при большом числе таксономических единиц возникают те же проблемы. Ясно, что необходим некоторый более систематический метод анализа, особенно в тех случаях, когда требуется выявить иерархию групп.

Один из методов, используемый Снитом и другими исследователями, состоит в тол, что вначале образуют группу из наиболее близких друг другу таксономических единиц (двух или более), для которых коэффициент сходства имеет некоторое произвольно выбранное высокое значение. Затем последовательно рассматривают ряд более низких уровней сходства; те О. Т. Е., которые обнаруживают рассматриваемую или более высокую степень сходства с каким-либо представителем предыдущей группы, включают в эту группу, а остальные выделяют в отдельную группу. Такая методика может привести к росту первоначальной группы или появлению новых групп. По очевидным причинам этот метод называется односвязным (single-linkage). Допустим, что имеется ряд коэффициентов сходства 0,99; 0,98; 0,97 и т. д. и распределение групп оказалось таким, как показано в табл. 5. Смысл этой таблицы состоит в том, что только О. Т. Е. № 1 и 2 имеют коэффициент сходства не менее 0,99; О. Т. Е. № 3 имеет коэффициент сходства не менее 0,98 с О. Т. Е. № 1 и 2, а О. Т. Е. № 4 и 5 имеют такой же коэффициент сходства друг с другом, но ни с одним из представителей первой группы. При уровне 0,97 обе эти группы смыкаются и появляется новая группа, содержащая О. Т. Е. № 6 и 7. Применять этот метод нетрудно, однако он может привести к образованию разбросанных групп, в которых крайние члены относительно мало похожи друг на друга.

Таблица 5. Образование групп односвязным методом

Другим критерием, который использовал Сёренсен в экологических исследованиях, служит правило «полной связи» («соmplete-linkage» rule).

Оно состоит в том, что в данную группу может быть помещена только такая новая таксономическая единица, у которой коэффициент сходства с любым членом группы достигает требуемого уровня. Естественно, что это довольно строгое условие приводит к образованию довольно компактных, четко определенных групп.

Более приемлемым следует считать критерий «средней связи» («average-linkage» criterion), предложенный Сокэлом и Миченером. Как следует из названия, этот критерий допуска новой таксономической единицы в группу основан на ее среднем сходстве со всеми представителями этой группы. Существует несколько способов формирования групп в этом случае. Один из простейших (и наиболее легкий для программирования при использовании ЭВМ) — так называемый взвешенный парно-групповой метод («weighted pair-group» method). Согласно этому методу, первую группу образуют из двух наиболее близких таксономических единиц. Затем матрицу коэффициентов преобразуют путем замены первой пары таксономических единиц соответствующей группой. После этого вычисляют новые коэффициенты сходства, показывающие связь между данной группой и любой другой таксономической единицей. Так, если О. Т. Е. № 1 и 2 образуют первую группу (обозначим ее, скажем, № 1), то коэффициент сходства для О. Т. Е. № 3 и группы № 1 равен среднему значению коэффициентов сходства для О. Т. Е. № 3 и 1 и О. Т. Е. № 3 и 2. Изучение новой матрицы с целью нахождения максимального коэффициента сходства показывает, какая таксономическая единица должна объединяться с группой № 1 или какие две таксономические единицы должны образовать следующую новую группу. Этот процесс можно выполнять просто и однозначно шаг за шагом, образуя на каждом этапе вычислений только одну новую группу или включая одну новую таксономическую единицу в существующую группу. Разумеется, существует ряд технических деталей, связанных, в частности, с тем, используются ли коэффициенты ассоциации, коэффициенты корреляции или же показатели расстояния. В нашу задачу не входит обсуждение всех этих вопросов, поскольку нас интересуют лишь основные принципы числовой таксономии. Более полно этот вопрос рассматривается в упоминавшейся ранее книге Сокэла и Снита [59], особенно в приложении А.3, где дается несколько конкретных примеров.

Результаты таких вычислений удобно представлять схематически в виде дендрограммы, показывающей, при каком уровне сходства образуются различные группы. Допустим, что применение взвешенного парно-группового метода к шести таксономическим единицам дало результат, изображенный на фиг. 1, где порядок таксономических единиц выбран лишь для графического удобства. Из этой схемы можно видеть, что наибольшим сходством обладают О. Т. Е. № 1 и 2 (коэффициент сходства 0,98).

После объединения этих двух таксономических единиц и вычисления новой матрицы коэффициентов оказывается, что наибольшим сходством обладают О. Т. Е. № 4 и 5 (коэффициент сходства 0,96). Таким образом, эти таксономические единицы образуют вторую группу.

Фиг. 1.

На следующем этапе находим, что О. Т. Е. № 3 объединяется с группой, состоящей из О. Т. Е. № 4 и 5, при уровне 0,94, а затем при уровне 0,90 добавляется О. Т. Е. № 6. После этого группа, состоящая из О. Т. Е. № 1 и 2, объединяется с группой, образованной О. Т. Е. № 3—6, при коэффициенте сходства 0,82. Таким образом, эта диаграмма изображает построенное в результате вычислений таксономическое древо, в котором различные группы определяют вычисленные таксоны или феноны.

Ясно, что рассмотренная выше методика автоматически выявляет иерархическую структуру, которую можно довольно гибко описать через номенклатуру фенонов. Допустим, например, что мы оцениваем дендрограмму при 95%-ном уровне сходства. Посмотрим, где этот уровень пересекает древо. На фиг. 1 он отделяет феноны, образованные О. Т. Е. № 1, 2 и 4 и 5, а О. Т. Е. № 3 и 6 остаются разделенными. Однако при 85%-ном уровне можно различить только два фенона. Один из них составлен, как и ранее, из О. Т. Е. № 1 и 2, а другой состоит из остальных четырех О. Т. Е. и имеет определенную внутреннюю структуру.

Очевидно, что можно образовать группы, или феноны, более высокого «ранга», чем те, которые получены при первой группировке основных таксономических единиц. По своему общему виду таксономическое древо, полученное вычислительными методами, и древо, полученное преимущественно на основании биологических соображений, несомненно, близки. Вопрос о надежности таких построений имеет исключительно большое значение, и в следующем разделе мы обсудим с этой точки зрения некоторые результаты, полученные к настоящему времени с помощью методов числовой таксономии.

<< Предыдущий параграф Следующий параграф >>
Оглавление