Главная > Математика > Прикладная статистика: Исследование зависимостей
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

8.6.4. Вычисление элементов ковариационной матрицы.

Коэффициенты системы линейных уравнений для центрированных переменных являются элементами матрицы ковариаций с точностью до множителя . В связи с этим возникает задача аккуратного вычисления элементов матрицы ковариаций, чтобы избежать внесения дополнительной погрешности в решение исходной системы (8.69) при переходе к соответствующей нормальной системе уравнений.

Для этого следует воспользовать так называемой двухэтапной оценкой

Эта оценка названа двухэтапной, поскольку требует предварительного вычисления средних значений Довольно часто в литературе по регрессионному анализу предлагается использовать оценку вида

Эта оценка обладает определенным преимуществом перед двухэтапной оценкой (8.65) с точки зрения организации вычислений, поскольку позволяет вычислить элементы за один просмотр данных. Однако она является неудовлетворительной в отношении величины погрешности, с которой вычисляются элементы ковариационной матрицы.

Приведем некоторые результаты, позволяющие сравнить точность оценки диагональных элементов при использовании формул (8.65) и (8.66). Далее для упрощения формул опустим индекс номера переменной и будем считать, что оценивается дисперсия некоторой переменной соответственно по одной из двух схем:

Теоретически Для оценки погрешности введем, следуя [173], число обусловленности данных где — точное значение дисперсии

Легко видеть, что значение и оно возрастает, когда убывает при фиксированном значении . Для относительной погрешности оценок (8.67) и верны следующие неравенства:

где — машинная ошибка округления.

Для реальных задач лемаш и, следовательно, двухэтапная оценка существенно точнее оценки (8.66), особенно когда значение числа обусловленности для данных k велико. В некоторых случаях оценка (8.66) может дать даже отрицательные значения для Не вдаваясь в детальный анализ, можно сказать, что относительно низкая точность оценки (8.66) объясняется тем, что она представляет собой разность двух неотрицательных величин, которые при больших k (малых значениях ) близки друг другу. При вычислении на ЭВМ такая ситуация как раз и приводит к потере точности.

В некоторых ситуациях, например, когда объем данных велик, и они размещены во внешней памяти, желательно избежать двукратного считывания данных при вычислении элементов ковариационной матрицы. Для этого можно использовать оценки типа скользящего среднего, которые позволяют вычислять ковариационную матрицу с той же относительной погрешностью, что и двухэтапная оценка. Приведем один из возможных вариантов алгоритмов вычисления элементов

Однако этот алгоритм без дополнительных затрат памяти нельзя использовать при наличии пропущенных наблюдений.

Когда значения велики, величина погрешности для двухэтапного алгоритма может стать недопустимо большой. Один из простых способов улучшения оценки в этом случае состоит в вычислении средних значений с двойной точностью. Тогда имеет место следующее неравенство для погрешности ошибки:

Для оценки скользящего среднего этого же эффекта можно добиться, накапливая с двойной точностью значения и

О некоторых дальнейших возможностях повышения точности оценок ковариационной матрицы см. [173].

<< Предыдущий параграф Следующий параграф >>
Оглавление