Главная > Разное > Математика в биологии и медицине
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Показатели расстояния

Еще один способ установления степени сходства двух таксономических единиц состоит в использовании некоторого показателя «расстояния» между ними. Поясним это понятие, рассмотрев для простоты случай, когда имеется всего три признака (т. е. ). Пусть измерения показали, что эти признаки характеризуются значениями для . Для k-й О. Т. Е. Тогда эти две таксономические единицы можно однозначно изобразить в трехмерном пространстве точками расстояние между которыми определяется выражением

Если бы признаков было бы только два, то каждую таксономическую единицу можно было бы представить точкой на двумерном графике. В общем случае число признаков очень велико, и для изображения таксона необходимо -мерное пространство. Обобщенное выражение для расстояния между таксономическими единицами в этом пространстве имеет вид

Если значения для всех i (т. е. для каждого признака) в точности совпадают, то расстояние между точками равно нулю. Любое различие приводит к возрастанию этой величины, и потому интуитивно представляется вполне разумным рассматривать расстояние как показатель различия.

Определенные проблемы возникают при нормировке, поскольку относительные веса различных признаков очень сильно зависят от используемой шкалы. Один из возможных способов состоит в кодировании каждой случайной величины таким образом, чтобы ее значения лежали в интервале от 0 до 1. Это всегда можно выполнить путем соответствующих математических преобразований. Если, например, изменяется от 0 до , то (где а — некоторая произвольная положительная постоянная) изменяется от 0 до 1. Но если мы изменим шкалу таким образом, что наибольшее наблюдаемое значение не будет превосходить единицы, то при рассмотрении новых таксономических единиц с более высокими максимальными значениями всегда будет существовать опасность того, что значительную часть данных потребуется перекодировать заново.

Другой метод состоит в нормировке данных по рядам матрицы, как это было описано при рассмотрении коэффициентов корреляции. В этом случае все признаки имеют одно и то же математическое ожидание и одно и то же среднее квадратическое отклонение, равные соответственно нулю и единице, что придает им значительно большую взаимную эквивалентность. При добавлении новой О. Т. Е. возникает еще одна проблема теоретического характера, поскольку первоначально определенные средние значения и средние квадратические отклонения всех рядов при этом изменятся и все элементы матрицы придется нормировать заново. Однако введение только одной-двух новых таксономических единиц должно потребовать лишь ничтожных изменений и на практике ими можно будет пренебречь. Так, на основе первоначальной нормировки необходимо пересчитывать данные только по новым таксономическим единицам.

Если мы решаем оперировать с нормированными измерениями , то введенную ранее формулу (7.8) для расстояния нужно заменить формулой

Величина зависит не только от самих результатов измерений , но и от числа сравниваемых признаков п. Лишь в одном случае, когда сравнения между всеми парами таксономических единиц основаны на одном и том же значении , это не имеет существенного значения. Для облегчения сравнения в тех случаях, когда используются различные значения лучше вычислять средний квадрат расстояния

С точки зрения числовой таксономии показатели таксономического расстояния (7.9) и (7.10) являются простейшими и, по-видимому, наиболее удобными. В частных случаях используются некоторые другие показатели расстояния или связанные с ними коэффициенты (например, коэффициент расового сходства Карла Пирсона), однако вряд ли есть необходимость рассматривать их здесь. В частности, для диагностики широко используется обобщенный показатель расстояния Махаланобиса Однако для рассматриваемых здесь проблем числовой таксономии этот коэффициент не подходит, так как мы не учитываем колебаний данного признака внутри одной таксономической единицы.

Если в каком-либо частном случае все признаки имеют одинаковый характер, т. е. все они непрерывны или дискретны, то можно выбрать метод измерения сходства, который будет приемлем в общем случае. Но если одни признаки дискретны, а другие непрерывны, то возникают известные трудности (аналогичная проблема встречается при использовании математических методов для диагностики; см. гл. И). В этом случае можно либо применять для всех признаков коэффициенты корреляции (или показатели расстояния), рассматривая непрерывные случайные величины обычным способом, а дискретные — описывая числовыми значениями 0 и 1, либо произвольным образом разбить непрерывные случайные величины на дихотомические классы и для каждого признака использовать коэффициент ассоциации. С теоретической точки зрения ни один из этих методов нельзя считать удовлетворительным, однако на современном начальном этапе развития числовой таксономии они могут иметь известную практическую ценность. По мере того как точность числовой таксономии будет повышаться, потребуются, конечно, более точные методы анализа.

Для тех, кто знаком с выполнением статистических исследований, ясно, что любой процесс получения оценок связан с такими понятиями, как значимость и точность. Можно, например, поинтересоваться, значимо ли различие двух коэффициентов сходства. До сих пор в этом отношении сделано очень мало. Нелегко разработать математическую модель, которая бы учитывала совместное влияние таксономических единиц и признаков на результаты измерений и удовлетворительно описывала бы изменения, ожидаемые при повторном выборочном измерении. Кроме того, нас интересует не сравнение каких-либо двух коэффициентов сходства, а оценка всей t -матрицы коэффициентов (см. разд. 7.5). Эта задача теории выборочного метода весьма сложна, и она может приобрести исключительно важное значение при более широком использовании методов числовой таксономии. Мы описали здесь применение нормировки применительно к некоторым распределениям, хотя это выполнялось в довольно эвристической манере, а не на основе какой-либо точно сформулированной модели повторного выбора. Поэтому на данном этапе описанные здесь методы необходимо рассматривать как полезное средство, точность которого неизвестна.

<< Предыдущий параграф Следующий параграф >>
Оглавление