Главная > Математика > Прикладная статистика: Классификации и снижение размерности
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Глава 18. РАЗВЕДОЧНЫЙ АНАЛИЗ. ЦЕЛИ, МОДЕЛИ СТРУКТУР ДАННЫХ, МЕТОДЫ И ПРИЕМЫ АНАЛИЗА

18.1. Цели разведочного анализа и модели описания структуры многомерных данных

Разведочный анализ данных (РАД; Exploratory data analysis) употребляется, когда, с одной стороны, у исследователя имеется таблица многомерных данных, а с другой стороны, априорная информация о физическом (причинном) механизме генерации этих данных отсутствует или неполна. В этой ситуации РАД может оказать помощь в компактном и понятном исследователю описании структуры данных (например, в форме визуального представления этой структуры), отталкиваясь от которого он уже может «прицельно» поставить вопрос о более детальном исследовании данных с помощью того или иного раздела статистического анализа, обоснования полученной структуры данных с помощью аппарата проверки статистических гипотез, а также, возможно, сделать некоторые заключения и о причинной модели данных. Этот этап называется «подтверждающим анализом данных» (confirmatory data analysis). Иногда выявление структуры данных с помощью РАД может оказаться и завершающим этапом анализа. С другой стороны, ряд методов РАД можно рассматривать и как методы подготовки данных для последующей статистической обработки без какого-либо изучения структуры данных, которое предполагается осуществить на последующих этапах.

В этом случае этап РАД играет роль некоторого этапа перекодировки и преобразования данных (путем, например, сокращения размерности) в удобную для последующего анализа форму. В любом случае, с какой бы целью ни применялись методы РАД, основная задача — переход к компактному описанию данных при возможно более полном сохранении существенных аспектов информации, содержащихся в исходных данных. Важно также, чтобы описание было понятным для пользователя. Впервые термин «разведочный анализ данных» был введен Дж. Тьюки в 1962 г.

Модели структуры многомерных данных. Пусть данные заданы в виде матрицы данных. Объекты можно представить в виде точек в многомерном (р-мерном) пространстве. Для описания структуры этого множества точек в РАД используется одна из следующих статистических моделей:

а) модель облака точек примерно эллипсоидальной конфигурации;

б) кластерная модель, т. е. совокупность нескольких «облаков» точек, достаточно далеко отстоящих друг от друга;

в) модель «засорения» (компактное облако точек и при этом присутствуют далекие выбросы);

г) модель носителя точек как многообразия (линейного или нелинейного) более низкой размерности, чем исходное; типичным примером является выборка из вырожденного распределения;

д) дискриминантная модель, когда точки разделены некоторым образом на несколько групп и дана информация о их принадлежности к той или иной группе.

В рамках модели можно рассматривать и регрессионную модель, когда соответствующее многообразие допускает функциональное представление , где — две группы переменных из исходного набора (переменные из носят тогда название прогнозируемых переменных, а из — предсказывающих переменных); — ошибка предсказания.

Разумеется, реальные данные обычно лишь приближенно могут следовать этим моделям, более того, структура данных может не подходить ни под одну из указанных в описании моделей даже приближенно.

Модели описания структуры зависимостей. В пространстве переменных для описания структуры зависимостей между переменными часто используются следующие модели: модель независимых переменных, модель линейно зависимых переменных, древообразная модель зависимости, факторная модель для линейно зависимых переменных, кластерная модель (произвольные коэффициенты связи), иерархическая модель зависимости.

Основные методические приемы при проведении разведочного анализа данных. Способы анализа и интерпретации результатов в значительной степени зависят от выбранного метода обработки. Однако можно выделить ряд эффективных приемов и подходов к анализу результатов, которые являются наиболее общими и в значительной степени определяют специфику собственно разведочного анализа, отличают его от остальных этапов статистической обработки. Это визуализация данных и манипуляции с данными на основе графического отображения; использование аппарата активных и иллюстративных переменных; преобразование данных, облегчающее выявление структур, анализ остатков.

<< Предыдущий параграф Следующий параграф >>
Оглавление