Главная > Математика > Прикладная статистика: Исследование зависимостей
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

6.1. Использование априорной информации о содержательной сущности анализируемой зависимости

Анализируя содержательную сущность изучаемой зависимости, исследователь еще до обращения к исходным статистическим данным может (и должен!) попытаться ответить на ряд вопросов по поводу характера искомой регрессионной связи:

а) будет ли искомая функция монотонной или она должна иметь один (или несколько) экстремум?

б) следует ли ожидать стремления (в процессе ) к асимптотам (по одной или нескольким предикторным переменным) и какова их содержательная интерпретация? Так, например, если — средний объем благ определенного вида, потребляемых семьями группы X по доходам, то, очевидно, при следует ожидать «насыщения», т. е. ) будет стремиться (снизу) к горизонтальной асимптоте (см. п. 4 и 10 в табл. В.3);

в) какова принципиальная природа воздействия предикторных переменных на формирование результирующего показателя у — аддитивная или мультипликативная? Так, например, многие схемы зависимостей в экономике и квалиметрии характеризуются мультипликативной природой воздействия предикторов на у (см. п. 1—3 в табл. В.3, а также [5]);

г) не диктует ли содержательный смысл анализируемой зависимости обязательное прохождение графика искомой функции f (X) через одну или несколько априори заданных точек в исследуемом факторном пространстве (X, у)?

Поясним необходимость и возможность максимального извлечения информации об общем виде анализируемой функции регрессии из соображений профессионально-теоретического характера на двух примерах.

Пример 6.1. На рис. 6.1 представлены 63 результата специального эксперимента [50, с. 57]. Расположение точек на рис. 6.1 не дает ответа на вопрос, описывать ли зависимость между скоростью автомобиля и расстоянием (у футов), пройденным им после поданного сигнала об остановке, линейной или параболической зависимостью.

Рис. 6.1. График зависимости тормозного пути автомобиля от скорости его движения

Этот вопрос остается без ответа и после построения соответствующих кривых и применения известных статистических критериев, предназначенных решать, насколько хорошо согласуются кривые с экспериментальными данными. Однако несложные рассуждения профессионально-теоретического характера все-таки позволяют сделать этот выбор. Действительно, для каждого отдельного автомобиля и водителя расстояние, пройденное до остановки, определяется в основном тремя факторами: скоростью автомобиля в момент подачи сигнала об остановке, временем реакции на этот сигнал водителя и тормозами автомобиля. Автомобиль успеет пройти путь до момента включения водителем тормозов и еще после этого момента, поскольку согласно элементарным физическими законам теоретическое расстояние, пройденное до остановки с момента торможения, пропорционально квадрату скорости.

Итак, что после оценивания с помощью мнк (см. гл. 7) дает

Пример 6.21. Рассмотрим в качестве результирующего показателя вес коровы, а в качестве предикторов — окружность ее туловища и длину от хвоста до холки. Ставится задача определения регрессионной зависимости

Были подвергнуты расчету и сравнительному анализу три варианта параметризации модели:

вариант 1 (линейный):

вариант 2 (степенной):

вариант 3 (учитывающий содержательный смысл задачи):

Происхождение варианта 3 легко объяснить. Для этого следует представить себе приближенно тушу коровы в форме цилиндра с длиной образующей, равной и радиусом основания, равным Используя формулу вычисления объема цилиндра и пропорциональную зависимость между весом и объемом цилиндра, получаем зависимость вида

где остаточная компонента отражает специфику формы туловища каждой конкретной коровы.

Для проверки работоспособности всех трех вариантов моделей были проведены два цикла расчетов по методу наименьших квадратов (см. гл. 7). Вначале были оценены коэффициенты моделей по всем 20 наблюдениям и подсчитаны (по тем же 20 наблюдениям) характеристики «качества» моделей: множественный коэффициент корреляции (см. формулу (1.24)) и остаточные среднеквадратические отклонения

(здесь — размерность оцениваемого векторного параметра отличается от выборочного критерия адекватности лишь множителем см. формулу (5.4)).

Результаты первого цикла расчетов приведены в гр. 2, 3 и 4 табл. 6.1. Из них как будто следует, что формально-аппроксимационные варианты 1 и 2 оказались несколько точнее варианта 3, выбранного с учетом содержательного смысла задачи.

Однако «благополучие» моделей 1 и 2 лишь кажущееся, что и выявляется в ходе второго цикла вычислений, когда имеющаяся выборка из 20 наблюдений была разбита на две: первая, состоящая из 10 тяжелых коров, была использована для оценки параметров по методу наименьших квадратов (такие выборки называют обучающими), а вторая, состоящая из 10 легких коров, была использована для оценки величины выборочного критерия адекватности (такие выборки называют экзаменующими).

Из гр. 5 и 6 табл. 6.1 мы видим, что формально-аппроксимационные варианты моделей не выдержали «экзамен» на устойчивость (сравните значения коэффициентов в гр. 2 и 5), и, кроме того, дают явно худшую точность при их использовании в задачах экстраполяции (сравните первые две строки с третьей в гр. 6).

Таблица 6.1

Этот пример убедительно демонстрирует, помимо предпочтительности экстраполяционных и «устойчивых» свойств модели 3, что не следует гнаться за чрезмерной сложностью модели, ориентируясь при этом на минимизацию выборочного критерия адекватности когда и оценки неизвестных значений параметров модели и значение критерия вычисляются на основании одной и той же выборки.

Несостоятельность подобного подхода можно пояснить и теоретически: в соответствии с известным в математическом анализе результатом для любой заданной системы из точек плоскости (с неповторяющимися абсциссами) можно подобрать такой алгебраический полином степени который пройдет через все точки этой системы. А значит, увеличивая число параметров в параметрическом семействе функций, задающем класс допустимых решений, мы можем добиться «идеальной точности» в смысле нулевого значения критерия .

На том, чего и как надо добиваться в действительности, мы подробнее остановимся в § 6.2, 6.3 и в гл. 11.

<< Предыдущий параграф Следующий параграф >>
Оглавление