12.1.5. Первичная обработка неколичественных данных.
Рассмотрим следующие методы обработки неколичественных данных:
1. Анализ таблиц сопряженности, включающий
1) оценку параметров и проверку гипотез независимости для различных моделей таблиц сопряженности;
2) оценку параметров логлинейной модели таблицы сопряженностей;
3) вычисление различных коэффициентов связи в двумерных таблицах сопряженности.
2. Приведение переменных к системе двоичных переменных (п. 10.2.4).
3. Оцифровка неколичественных переменных.
Анализ таблиц сопряженности (1.1 и 1.3) реализован в пакетах BMDP 75 и BMDP 79 (программы P9D, P\F), по 1.3 — в ППСА. Оценка параметров логлинейной модели реализована в BMDP 79 (программа P7D).
Представление переменных в бинарной форме используется при решении задач классификации в пакете ОТЭКС. В пакетах BMDP 75, BMDP 79, ППСА переход к двоичному представлению легко осуществляется с помощью средств функционального преобразования признаков, хотя специальные программы для такого преобразования отсутствуют.
Дадим более подробное изложение подхода к оцифровке неколичественных переменных. Суть этого подхода состоит в присвоении категориям (градациям) неколичественных переменных «разумных», в рамках решаемой задачи, числовых меток. Далее с оцифрованными переменными обращаются как с дискретными числовыми переменными. Критерий, согласно которому присваиваются метки, зависит от последующей статистической обработки — анализа главных компонент, регрессионного анализа, дискриминантного анализа. Допустимость присвоения числовых меток градациям ординальных переменных представляется достаточно естественной.
Допустимость оцифровки номинальных переменных основывается на том, что в рамках конкретной задачи градациям номинальный переменной соответствует некоторая совокупность значений скрытых, непосредственно неизмеряемых, но реально существующих переменных. Так что число, присваиваемое какой-либо градации некоторой номинальной переменной, является обобщенным (результирующим) значением для совокупности значений неизмеряемых переменных, характерной для объектов, соответствующих данной градации рассматриваемой номинальной переменной.
Критерии, на основе которых производится оцифровка (см. [32]), зависят от используемого далее метода статистического анализа. Однако все они являются некоторыми функционалами матрицы ковариаций (корреляций) в пространстве оцифрованных признаков. Это связано прежде всего с тем, что матрица ковариаций (корреляций) является основным объектом, который используется перечисленными выше методами статистического анализа.
Сущность указанных методов состоит в выделении одной или нескольких линейных комбинаций исходных переменных, обладающих некоторыми экстремальными свойствами, а успешность их применения к реальным данным в первую очередь зависит от того, насколько сильно связаны переменные и насколько полно матрица ковариаций отражает эту зависимость, т. е. насколько точно эти зависимости можно считать линейными.
Например, в случае когда после оцифровки предлагается использовать методы сокращения размерности или регрессионного анализа в программе CODAGE пакета ППСА, категориям неколичественных признаков приписываются числовые метки, максимизирующие величину

где
— число признаков, подлежащих кодировке;
— коэффициенты корреляции между
признаками после кодировки, a — неотрицательные весовые коэффициенты. Вычислительная схема в этом случае такова.
Пусть
— вектор размерности
— число категорий для i-го признака), коэффициентами которого являются метки, приписанные соответствующим категориям
признака.