Главная > Математика > Прикладная статистика: Классификации и снижение размерности
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

1.2.3. Условная вероятность быть случаем.

В исследованиях, направленных на выявление риск-факторов стать за фиксированное время случаем, принято разбивать исходные объекты на несколько частей равного объема согласно увеличивающемуся риску стать случаем и для каждой части указывать соответствующую долю случаев [277, 322]. Если дополнительно предположить, что распределения для случаев и не случаев приближенно нормальны с общей дисперсией, то по заданному значению d и частоте случаев легко найти распределение доли случаев для разбиения изучаемой популяции согласно риску быть случаем. В табл. 1.2 частота случаев указана для квартилей риска. Подобные таблицы можно использовать и в обратном направлении: по данной частоте случаев и долям случаев в квартилях (или децилях) найти соответствующее d.

Таблица 1.2

(см. скан)

Аналогично, если при классификации используется трехградационное правило («объект является случаем», «отказ от классификации», «объект является не случаем»), известны частоты принятия каждого из решений и соответствующие частоты ошибочных заключений, то опять, зная общую частоту случаев в тех же предположениях о распределениях для случаев и не случаев, можно оценить d. Верны и обратные утверждения для известных d и частоты случаев: 1) для заданных частот каждого из трех решений можно рассчитать соответствующие вероятности ошибок или 2) для заданных вероятностей ошибок найти частоты соответствующих решений.

Рис. 1.4. Прямые «чувствительность — специфичность» для различных значений d (модель Фишера) на двойной нормальной бумаге

Таким образом, при известной доле случаев и дополнительных предположениях о распределении величина d является очень удобной характеристикой разделения, позволяющей придать результатам классификации самую разнообразную форму: от графиков «чувствительность — специфичность» до доли случаев в квартилях риска и доли ошибочных заключений при заданном числе отказов от решения.

Желательна определенная стандартизация представления результатов классификации. Величина d, определенная графически с помощью двойной нормальной бумаги, может служить универсальным эмпирическим параметром, характеризующим разделимость распределений.

<< Предыдущий параграф Следующий параграф >>
Оглавление