Главная > Математика > Прикладная статистика: Классификации и снижение размерности
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

18.3. Преобразования данных в разведочном анализе данных

В данном параграфе речь идет о нелинейных преобразованиях исходных данных, представленных в виде матрицы «объект — признак». Нелинейные преобразования могут быть использованы в РАД: а) для линеаризации зависимостей между переменными, б) для упрощения структуры данных.

Линеаризация зависимостей между переменными. Цель использования таких преобразований состоит в переходе к новому набору переменных, зависимость между которыми является, возможно, более близкой к линейной. Если такое преобразование удается найти, то дальше к новой матрице данных можно с большим основанием применять такие линейные статистические методы, как главные компоненты, факторный анализ, линейную регрессию и т. д.

Будем рассматривать только преобразования вида

где — функции из некоторого класса допустимых функций Ф.

В качестве критерия, по которому ищется преобразование, можно использовать, например, критерий

аналогичный критерию (17.30). Получить приближенное решение можно, если переменные предварительно градуировать (область значения переменной разбить на градаций) и дальше использовать алгоритм из § 17.3.

Естественно, после градуирования для получения преобразований можно использовать и множественный анализ соответствий.

Дальше, в § 19.6, будет необходим случай максимизации (18.5), когда число переменных

Из регрессионного анализа известно [12, гл. 5], что, когда имеются две случайные величины и наилучшим, в смысле средней квадргплческой ошибки, регрессором вида для случайной величины (т. е. для регрессии вида ) будет условное математическое ожидание этой случайной величины при и, следовательно, функция имеет максимальный коэффициент корреляции с . Аналогично верно и для регрессии на Поэтому функции должны удовлетворять уравнениям

Константы с, и не влияют на коэффициент корреляции. Кроме подхода, связанного с предварительным градуированием переменных, можно использовать и некоторые семейства монотонных преобразований, например преобразования Бокса — Кокса [196]:

или более обширное двухпараметрическое семейство

Коэффициенты корреляции являются теперь функциями от и задача (18.5) есть задача максимизации по этим параметрам.

Упрощение структуры данных. В этом случае стремятся получить преобразования, после применения которых распределение становится максимально похожим на многомерное нормальное. Используется некоторый класс преобразований, например (18.17), (18.8), но параметры и оцениваются уже не на основе максимизации критерия (18.5), а при максимизации функции правдоподобия.

Рассмотрим случай преобразования (18.7). Если предположим, что векторная случайная величина подчинена многомерному нормальному распределению , то для функции правдоподобия имеем следующее выражение:

где ; — число объектов; - якобиан преобразования.

Оценки параметров получаются из решения задачи

Можно использовать и логарифм функции правдоподобия.

<< Предыдущий параграф Следующий параграф >>
Оглавление