Главная > Математика > Прикладная статистика: Классификации и снижение размерности
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Глава 6. КЛАССИФИКАЦИЯ БЕЗ ОБУЧЕНИЯ (ПАРАМЕТРИЧЕСКИЙ СЛУЧАЙ). РАСЩЕПЛЕНИЕ СМЕСЕЙ ВЕРОЯТНОСТНЫХ РАСПРЕДЕЛЕНИИ

6.1. Понятие смеси вероятностных распределений

6.1.1. Примеры. Начнем пояснение понятия смеси распределений с рассмотрения ряда конкретных примеров.

Пример 6.1. Контроль (по количественному признаку) изделий (полуфабрикатов) совокупности, составленной из продукции двух разных станков. В отдел технического контроля (ОТК) поступают партии изделий, составленные с помощью случайного извлечения из объединенной продукции двух станков (станка А и станка В). Изделия контролируются по некоторому количественному параметру (линейному размеру) мм, так что результатом контроля изделия партии является число мм (изделия на станках не маркируются, так что в ОТК не известно, на каком именно станке произведено каждое из них). Производительность станка Л в 1,5 раза выше производительности станка В. Задано номинальное значение контролируемого параметра а мм и известно, что точность работы станков характеризуется одинаковой величиной среднеквадратических отклонений равной . Позже выяснилось, что станок А был настроен правильно (производил изделие со средним значением мм, равным номиналу), в то время как настройка станка В была сбита в направлении завышения номинала (а именно мм).

Известно также, что распределение размеров изделий, произведенных на каком-то определенном станке, описывается нормальным законом с параметрами или ).

Очевидно, анализируемая в ОТК по наблюдениям генеральная совокупность будет состоять из смеси двух нормальных генеральных совокупностей, одна из которых представляет продукцию станка А и описывается в соответствии с вышесказанным плотностью

а другая — продукцию станка В и описывается плотностью

Обозначая а удельный вес изделий стайка у через , можем записать уравнение функции плотности описывающей закон распределения анализируемого признака во всей (объединенной) генеральной совокупности, в виде:

Учитывая, что в объединенной генеральной совокупности продукции станка А в 1,5 раза больше, чем продукции станка В (поскольку производительность станка А в -раза выше), а также то, что мм, мм, имеем:

Правыми частями уравнений (6.1) и и представлен частный случай того, что принято называть смесью вероятностных распределений .

На рис. 6.1 представлены графики функций плотности .

В соотношениях (6.1) и величины представляют удельные веса соответствующих компонентов смеси (их еще называют априорными вероятностями появления наблюдений именно из данного компонента смеси), и — векторные параметры, от значений которых зависят законы распределения компонентов смеси.

Если сотрудники ОТК или потребители изделий-полуфабрикатов захотят по наблюдениям определить, на каком именно станке произведено каждое из них, то как раз и возникает одна из типичных задач классификации наблюдений в условиях отсутствия обучающих выборок (конечно, в данном примере можно представить себе специально организованное производство этих изделий, в результате которого можно получить отдельно изделия от станка А и отдельно — от станка В и использовать их в дальнейшем в качестве обучающих выборок).

Рис. 6.1. Графики функции плотности отдельных компонентов и самой смеси из примера 6.1 для

Пример 6.2. Выявление и анализ типов потребительского поведения по данным обследований семейных бюджетов [154, с. 47—48, 68—69]. Здесь представлен один из фрагментов исследования, проведенного с целью изучения (на базе семейных бюджетов) дифференциации потребностей, выявления основных типов потребительского поведения и определения главных типообразующих признаков (социально-демографической, региональной, экономической природы). Исследуемым многомерным признаком является вектор У показателей ), потребительского поведения семьи, т. е. каждой обследованной семье ставится в соответствие многомерное наблюдение

где — удельное (т. е. рассчитанное в среднем на одного члена семьи) количество вида благ (товаров или услуг, включая сбережения), потребляемое обследованной семьей в базовый период (за год) и выраженное в натуральных или денежных единицах.

В соответствии с одним из принятых в исследовании базовых исходных допущений постулируется существование в анализируемом пространстве сравнительно небольшого (и неизвестного) числа k типов потребительского поведения, таких, что различия в структуре потребления Y семей одного типа носят случайный характер (т. е. обусловлены влиянием множества случайных, не поддающихся управлению и учету факторов) и незначительны по сравнению с различиями в потребительском поведении семей, представляющих разные типы. При этом предполагается, что случайный разброс структур потребительских поведений внутри любого типа описывается многомерным (в нашем случае -мерным) нормальным законом распределения с некоторым вектором средних (и в то же время — наиболее характерных, наиболее часто наблюдаемых) значении

и с ковариационной матрицей

(см. сведения о многомерном нормальном законе в [11, п. 6.1.5]).

Однако в начале исследования нет сведений об упомянутых гипотетических типах потребительского поведения: неизвестно ни их число k, ни значения определяющих эти типы многомерных параметров . Поэтому вынуждены рассматривать имеющиеся в нашем распоряжении результаты бюджетных обследований семей

как выборку из генеральной совокупности, являющейся смесью многомерных нормальных законов распределения.

Другими словами, функция плотности , описывающая распределение вектора Y в этой объединенной генеральной совокупности, имеет вид

где — не известный нам удельный вес (априорная вероятность) семей типа потребительского поведения в общей совокупности семей;

многомерная нормальная плотность, описывающая закон распределения исследуемого признака внутри совокупности семей типа потребительского поведения .

Далее необходимо по выборке (6.2) оценить неизвестные значения параметров к, модели (6.3), чтобы в конечном счете суметь расклассифицировать (в определенном смысле наилучшим образом) семьи (6.2) по искомым типам потребительского поведения. Общая схема действий, увязывающая задачу статистическою оценивания параметров смеси типа (6.3) с задачей автоматической классификации, изложена в п. 6.2.

6.1.2. Общая математическая модель смеси распределений.

Рассмотренные в примерах смеси (6.1) и (6.3) представляют собой частные случаи общей модели смеси, определение которой дадим здесь. Обобщение рассмотренных в примерах смесей может быть произведено в направлении: 1) отказа от конечности и даже дискретности компонентов, составляющих смесь, распространения понятия смеси на непрерывную смешивающую функцию; 2) отказа от однотипности участвующих в смеси компонентов (под однотипностью компонентов-распределений понимается их принадлежность к общему параметрическому семейству распределений, например к нормальному).

Итак, пусть имеется двухпараметрическое семейство -мерных плотностей (полигонов вероятностей) распределения

где одномерный (целочисленный или непрерывный) параметр в качестве нижнего индекса функции f определяет специфику общего вида каждого компонента — распределения смеси, а в качестве аргумента при многомерном, вообще говоря, параметре 0 определяет зависимость значений хотя бы части компонентов этого параметра от того, в каком именно составляющем распределении он присутствует.

И пусть

— семейство смешивающих функций распределения.

Функция плотности (полигон вероятностей) распределения

называется Р-смесыо (или просто смесью) распределений семейства F (интеграл в (6.6) понимается в смысле Лебега— Стильтьеса; см., например, [86]).

Нас интересует использование моделей смесей в теории и практике автоматической классификации, поэтому сузим данное выше определение смеси и будем рассматривать в дальнейшем лишь случай конечного числа k возможных значений параметра что соответствует конечному числу скачков смешивающих функций Величины этих скачков как раз и будут играть роль удельных весов (априорных вероятностей) компонентов смеси так что (6.6) в этом случае может быть записано в виде

Если же дополнительно постулировать однотипность компонентов-распределений , т. е. принадлежность всех к одному общему семейству то модель смеси может быть представлена в виде

Интерпретация в задачах автоматической классификации компонента смеси генеральной совокупности) в качестве искомого класса (сгустка, скопления) обусловливает естественность дополнительного ограничения условия, накладываемого на плотности (полигоны вероятностей) и заключающегося в их одномодальности.

6.1.3. Задача расщепления смеси распределений.

Решить эту задачу в выборочном варианте — значит по выборке классифицируемых наблюдений

извлеченной из генеральной совокупности, являющейся смесью (6.6) генеральных совокупностей типа (6.4) (при заданном общем виде составляющих смесь функций ), построить статистические оценки для числа компонентов смеси k, их удельных весов (априорных вероятностей) и, главное, для каждого из компонентов анализируемой смеси (6.6). В некоторых частных случаях имеющиеся априорные сведения дают исследователю точное знание числа компонентов смеси k, а иногда и априорных вероятностей Тогда задача расщепления смеси сводится лишь к оцениванию функций

Однако не следует ставить знак тождества между задачей расщепления смеси и задачей статистического оценивания параметров в модели (6.6) по выборке (6.7), поскольку задача расщепления сохраняет смысл и применительно к генеральным совокупностям, т. е. в теоретическом варианте. В этом случае она заключается в восстановлении компонентов и смешивающей функции по заданной левой части соотношения (6.6) и называется задачей идентификации компонентов смеси. В п. 6.3 показано, что эта задача не всегда имеет единственное решение.

<< Предыдущий параграф Следующий параграф >>
Оглавление