11.4. Методы статистической обработки при наличии «стертых» (пропущенных) наблюдений
В настоящем разделе описываются методы обработки матрицы данных вида X в случае, когда в ней отсутствует часть измерений (см. § 1.1). Мы будем полагать, что отсутствие значения какого-либо признака у некоторого объекта (столбца матрицы данных) связано с причинами технического характера, например с неисправностью измерительного прибора или грубой ошибкой при подготовке данных, в результате которой истинное значение признака стало неизвестным и т. д., но не с состоянием самого объекта. В зависимости от решаемой проблемы исследователю может потребоваться либо оценить некоторые параметры при наличии пропущенных значений, либо оценить сами пропущенные значения, либо то и другое вместе. Две последние задачи требуют больше исходных допущений, чем задача оценки параметров. Методы их решения основаны на использовании некоторой избыточной информации, которая возникает вследствие связи между признаками.
Введем для дальнейшего следующие определения и обозначения. Комплектным объектом (столбцом) назовем объект, у которого измерены значения всех признаков. Аналогично комплектным признаком (комплектной строкой) назовем признак, который измерен у всех объектов. Множество объектов с измеренным признаком
будем обозначать через
, а число таких объектов — через
Для множества объектов, у которых измерены признаки
используется обозначение
и для числа таких объектов —
.
Простой подход к обработке пропущенных данных состоит в выделении максимально возможного фрагмента исходной матрицы данных, в котором все строки и столбцы будут комплектными. Когда выборка содержит достаточное число комплектных объектов и задача заполнения пропусков не является целью обработки, этот подход следует признать наиболее целесообразным. Однако в условиях выборок малых и средних объемов и высокой стоимости измерений естественно попытаться использовать всю имеющуюся информацию.