Главная > Математика > Прикладная статистика: Исследование зависимостей
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

8.7.4. Пошаговые процедуры генерации наборов.

Существенного сокращения числа генерируемых для сравнения наборов предсказывающих переменных можно добиться с помощью пошаговых (STEP—WISE) процедур отбора переменных. Хотя ни одна из пошаговых процедур не гарантирует получения оптимального по заданному критерию набора переменных (соответствующие примеры приведены, например, в [226, 205, 79]), все же обычно получаемые с их помощью наборы переменных являются достаточно хорошими для практического применения. Кроме того, возможны простые модификации традиционных пошаговых схем, которые позволяют преодолеть ряд присущих им недостатков.

Основными пошаговыми процедурами генерации наборов являются процедура последовательного присоединения, процедура присоединения-удаления и процедура последовательного удаления.

Рассмотрим один из возможных способов организации вычислений в пошаговой процедуре последовательного присоединения.

На первом шаге из исходного набора предсказывающих переменных выбирается переменная имеющая максимальное значение квадрата коэффициента парной корреляции с , т. е.

Признак составляет информативный набор предсказывающих переменных . Применяя теперь к матрице А прямой оператор симметричного выметания (см. п. 8.7.5), получим матрицу и переходим ко второму шагу.

Второй шаг состоит в следующем.

Пусть уже построен информативный набор из q предсказывающих переменных пусть — матрица, полученная из исходной матрицы А путем применения оператора выметания по переменным из . Ищем переменную имеющую максимальное значение квадрата коэффициента частной корреляции с у при фиксированных переменных из

При этом как кандидаты на присоединение к набору используются лишь переменные, для которых вычисляется условие (см. п. 8.7.5) . Если таких переменных не окажется, то работа алгоритма (отбор переменных) прекращается.

Отбор переменной из условия максимума квадрата частного коэффициента корреляции эквивалентен ее выбору из условия максимума коэффициента множественной корреляции между у и набором так как имеет место тождество (см., например, [24, п. 3.2.4])

После определения переменной проверяется условие остановки процедуры отбора.

Основные из используемых условий остановки следующие:

а) процедура останавливается, если отобрано заданное пользователем количество переменных , т. е. если . При этом переменная присоединяется к набору , а к матрице применяется оператор выметания по переменной

б) проверяется гипотеза для чего вычисляется значение -статистики

Если величина , где — некоторая заранее заданная величина, то переменная не присоединяется к набору который и считается результатом работы алгоритма.

Используемая статистика формально совпадает со статистикой для проверки значимости соответствующего регрессионного коэффициента в обычной задаче регрессии. Поэтому в качестве значения для как правило, выбирают классические уровни значимости (5, 10, 15%), соответствующие -распределению с 1 и степенями свободы. Однако величина в пошаговой процедуре на самом: деле не подчиняется -распределению с соответствующим числом степеней свободы, поскольку проверяется гипотеза о равенстве нулю максимального по абсолютной величине коэффициента частной корреляции из коэффициентов частной корреляции для переменных, не входящих в . Неизвестно поэтому, какому уровню значимости соответствует выбранное значение;

в) процедура останавливается, если достигнуто максимальное (минимальное) значение критерия качества набора переменных. Пусть текущее значение какого-либо из критериев п. 8.7.2. Тогда процедура останавливается, если выполняются условия для критериев (8.69), (8.72) или критериев (8.70), (8.71). Результирующим считается набор .

Можно показать, что правило остановки по текущему значению критерия эквивалентно правилу остановки по значению -статистики при некоторой величине . О других способах использования критериев в правилах остановки см. в [1641.

Если условие остановки не выполняется, то к матрице применяется оператор прямого выметания по переменной и путем включения переменной формируется новый текущий информативный набор . Затем второй шаг повторяется для набора

Пошаговая процедура последовательного присоединения-удаления переменных (обычно именуемая в литературе просто как процедура последовательного присоединения) была впервые предложена в [180]. Приводимое ниже описание процедуры имеет некоторые отличия от исходной процедуры Эфроимсона. Формирование информативного набора переменных в этой процедуре организовано следующим образом.

Первый шаг совпадает с первым шагом процедуры последовательного присоединения.

На втором шаге, начиная с перед поиском присоединяемой переменной добавляется подшаг поиска переменной которую целесообразно удалить из текущего набора .

Для этого определяется переменная удаление которой приводит к минимальному уменьшению коэффициента детерминации, т. е.

где — набор с удаленной переменной После определения номера I целесообразность удаления переменной обычно проверяется на основе сравнения F-статистики для проверки гипотезы или эквивалентной ей гипотезы о коэффициенте частной корреляции с некоторым заранее заданным пороговым значением . Обычно выбирают значение искл (так чтобы исключить переменные из набора было труднее, чем добавлять) соответственно -ному уровням значимости при -распределении с 1 и степенями свободы. На самом деле по тем же причинам, что и при присоединении переменных, величина -статистики при удалении переменных не подчиняется -распределению, и точный уровень значимости неизвестен.

Другой способ определения целесообразности удаления переменной основан на проверке «улучшения» качества набора по какому-либо из критериев качества п. 8.7.2.

Если качество набора «улучшается», то переменная удаляется. При удалении переменной из к матрице применяется оператор обратного выметания После фазы удаления переменной проводится фаза расширения набора (), если не было удаления, и , если была удалена переменная точно так же, как и в процедуре последовательного присоединения. Остановка процедуры присоединения-удаления проводится по тем же правилам, что и остановка процедуры последовательного присоединения.

Пошаговая процедура последовательного удаления (исключения). Перед началом работы процедуры необходимо получить матрицу . Именно она теперь является той исходной матрицей, к которой применяется последовательность операторов выметания Для этого необходимо вычислить

Первый шаг процедуры последовательного удаления состоит в определении такой переменной удаление которой из исходного набора приводит к минимальному увеличению остаточной суммы квадратов или, что эквивалентно, к минимальному уменьшению коэффициента детерминации.

Величина изменения коэффициента детерминации проверяется на значимость таким же образом, как и в фазе удаления процедуры последовательного присоединения (q при этом заменяется на ). Можно также проверять «улучшение» качества набора по какому-либо из критериев. Если значение F-статистики превышает значение или если произошло «улучшение» качества набора переменных, то формируется набор с удаленной переменной а к матрице применяется оператор обратного выметания

Второй шаг состоит в следующем. Пусть — текущий информативный набор, полученный в результате удаления переменных, и — матрица, полученная из применением к ней операторов обратного выметания. В наборе ищем переменную удаление которой из приводит к минимальному уменьшению коэффициента множественной детерминации. Затем проверяется условие остановки. Могут быть использованы следующие условия остановки:

а) получение набора с заданным количеством k предикторных переменных, т. е. проверяется условие

б) превышение порогового значения величиной для проверки гипотезы

в) отсутствие «улучшения» качества набора по какому-либо из критериев п. 8.7.2.

По поводу других правил остановки см. [24, п. 3.3.2].

Если выполняются условия остановки б) и в), информативным набором при выходе из процедуры считается набор , а при выполнении условия а) выходным будет набор , получаемый из удалением переменной и к матрице применяется оператор

Если остановки процедуры не происходит, то текущим информативным набором становится набор , к матрице применяется оператор выметания U. После этого второй шаг повторяется в применении к набору .

Рассмотрим теперь один экономичный по количеству вычислений способ определения удаляемой переменной Он может быть использован и в фазе удаления переменной для процедуры присоединения-удаления.

Пусть — оценка коэффициента уравнения регрессии у для переменной . Эти коэффициенты являются соответствующими элементами матрицы , и, следовательно, проводить дополнительных вычислений не нужно. Предлагаемый метод расчета основан на следующем равенстве.

Если из набора удаляется переменная то

где — элемент обратной матрицы корреляции для переменной из — набор переменных, полученный из при удалении . Значение величины также может быть извлечено из матрицы . Напомним, рассматриваемое равенство относится к нормированным переменным. Переменная, подлежащая удалению, определяется как

<< Предыдущий параграф Следующий параграф >>
Оглавление