Главная > Математика > Прикладная статистика: Основы моделирования и первичная обработка данных
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

11.4.4. Непараметрический подход к оценке пропусков в матрице данных.

Рассмотренный в предыдущем пункте «метод неподвижной точки» требует аналитического задания вида закона распределения, из которого извлечена обрабатываемая матрица данных, что сужает область его применения. Существуют, однако, методы заполнения пропусков в матрице данных, которые не требуют знания закона распределения, а основаны на использовании расстояния между парами объектов (в некоторой метрике), определяемого по значениям признаков, измеренных у обоих объектов. Считается, что если два объекта близки в пространстве измеренных признаков, то из этого следует и их близость по неизмеренным признакам [35]. Метрика и пороговое значение расстояния, определяющее близость объектов, вводятся в зависимости от условий конкретной задачи — шкал, в которых признаки измерены, количества пропусков и т. д.

Одна из возможных конкретизаций этого подхода в общих чертах такова. Пусть у объекта требуется оценить значение пропущенного признака , т. е. оценить элемент в матрице данных X. Для этого из матрицы X формируется подматрица столбцов (объектов) с измеренными значениями признака из которой далее выделяется однородная группа объектов, наиболее близких к в пространстве измеренных у этого объекта признаков. Затем неизмеренное значение заменяется средним по выделенной однородной группе объектов значением признака

Такая схема реализована в алгоритме «ZET», подробное описание которого дано В [35]. Как следует из примеров, приведенных в [35], применение этого алгоритма дает хороший результат.

Рассмотрим теперь вопрос оценки качества заполнения пропусков, который относится не только к алгоритму «ZET», но и к ранее рассмотренным методам. Ввести формализованную меру качества восстановления пропущенных элементов довольно трудно. Однако существует приближенный способ оценки [35], который состоит в том, что из матрицы данных X случайным образом исключается часть измеренных значений и далее эти пропуски заполняются тем или иным способом. Мера отклонения (например, сумма квадратов отклонений) истинных значений от значений, полученных в результате заполнения, и является мерой качества применения данного алгоритма заполнения к обрабатываемой матрице данных.

<< Предыдущий параграф Следующий параграф >>
Оглавление