Главная > Математика > Прикладная статистика: Основы моделирования и первичная обработка данных
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

12.1.5. Первичная обработка неколичественных данных.

Рассмотрим следующие методы обработки неколичественных данных:

1. Анализ таблиц сопряженности, включающий

1) оценку параметров и проверку гипотез независимости для различных моделей таблиц сопряженности;

2) оценку параметров логлинейной модели таблицы сопряженностей;

3) вычисление различных коэффициентов связи в двумерных таблицах сопряженности.

2. Приведение переменных к системе двоичных переменных (п. 10.2.4).

3. Оцифровка неколичественных переменных.

Анализ таблиц сопряженности (1.1 и 1.3) реализован в пакетах BMDP 75 и BMDP 79 (программы P9D, P\F), по 1.3 — в ППСА. Оценка параметров логлинейной модели реализована в BMDP 79 (программа P7D).

Представление переменных в бинарной форме используется при решении задач классификации в пакете ОТЭКС. В пакетах BMDP 75, BMDP 79, ППСА переход к двоичному представлению легко осуществляется с помощью средств функционального преобразования признаков, хотя специальные программы для такого преобразования отсутствуют.

Дадим более подробное изложение подхода к оцифровке неколичественных переменных. Суть этого подхода состоит в присвоении категориям (градациям) неколичественных переменных «разумных», в рамках решаемой задачи, числовых меток. Далее с оцифрованными переменными обращаются как с дискретными числовыми переменными. Критерий, согласно которому присваиваются метки, зависит от последующей статистической обработки — анализа главных компонент, регрессионного анализа, дискриминантного анализа. Допустимость присвоения числовых меток градациям ординальных переменных представляется достаточно естественной.

Допустимость оцифровки номинальных переменных основывается на том, что в рамках конкретной задачи градациям номинальный переменной соответствует некоторая совокупность значений скрытых, непосредственно неизмеряемых, но реально существующих переменных. Так что число, присваиваемое какой-либо градации некоторой номинальной переменной, является обобщенным (результирующим) значением для совокупности значений неизмеряемых переменных, характерной для объектов, соответствующих данной градации рассматриваемой номинальной переменной.

Критерии, на основе которых производится оцифровка (см. [32]), зависят от используемого далее метода статистического анализа. Однако все они являются некоторыми функционалами матрицы ковариаций (корреляций) в пространстве оцифрованных признаков. Это связано прежде всего с тем, что матрица ковариаций (корреляций) является основным объектом, который используется перечисленными выше методами статистического анализа.

Сущность указанных методов состоит в выделении одной или нескольких линейных комбинаций исходных переменных, обладающих некоторыми экстремальными свойствами, а успешность их применения к реальным данным в первую очередь зависит от того, насколько сильно связаны переменные и насколько полно матрица ковариаций отражает эту зависимость, т. е. насколько точно эти зависимости можно считать линейными.

Например, в случае когда после оцифровки предлагается использовать методы сокращения размерности или регрессионного анализа в программе CODAGE пакета ППСА, категориям неколичественных признаков приписываются числовые метки, максимизирующие величину

где — число признаков, подлежащих кодировке; — коэффициенты корреляции между признаками после кодировки, a — неотрицательные весовые коэффициенты. Вычислительная схема в этом случае такова.

Пусть — вектор размерности — число категорий для i-го признака), коэффициентами которого являются метки, приписанные соответствующим категориям признака.

Оценим по исходной выборке матрицу (таблицу) сопряженности размера , у которой значением элемента является оценка вероятности для признака принять категорию одновременно с принятием категории для признака. Пусть Р — диагональная матрица, элементами которой являются частоты категорий признака, — симметричная неотрицательно определенная матрица с элементами

где l и меняются от 1 до числа градаций признака; — скалярное произведение строки матрицы на вектор координатами которого являются метки соответствующих категорий признака.

Числовые метки, максимизирующие величину критерия (12.2), находятся в результате следующего итерационного процесса.

Напервом шаге задаются начальные значения для (например, координатами каждого вектора являются натуральные числа, т. е. номера градаций признака). Эти метки нормируются и центрируются. Затем по формуле (12.3) вычисляется матрица и находится собственный вектор с максимальным собственным значением для уравнения

Координаты этого вектора и будут новыми значениями меток для

Теперь, зная определим матрицу при фиксированных значениях и находим новый вектор Далее определяется и т. д.

Вычислив все значения меток переходим к определению при фиксированных и вычисления повторяются.

Процесс останавливается, когда разница между значениями критерия (12.2) на соседних шагах итерации будет меньше заданной пороговой величины.

Замечание. В случае когда число признаков в результате работы программы получаются так называемые метки Ланкастера [40].

<< Предыдущий параграф Следующий параграф >>
Оглавление