Раздел IV. ПЕРВИЧНАЯ СТАТИСТИЧЕСКАЯ ОБРАБОТКА ДАННЫХ
Глава 10. ОПИСАТЕЛЬНАЯ СТАТИСТИКА
10.1. Документирование исследования; организация ввода и хранения данных в ЭВМ; просмотр данных
10.1.1. Документация.
Даже для малых по объему разовых статистических исследований полностью окупаются усилия, затраченные на своевременное и полное описание используемых массивов, входящих в них переменных и всех шагов статистического анализа. Раннее и тщательное изготовление документации снимает много недоразумений. Большие статистические исследования выполняются коллективно, состав участников работы частично меняется в процессе ее осуществления, обработка собранных материалов растягивается во времени и проводится итеративно, когда вновь и вновь обращаются к данным для проверки возникающих по ходу анализа гипотез. Во многих исследованиях (например, медицинских) часто к тому же происходит постоянное пополнение данных новыми сведениями. В этих условиях продуманное и тщательное ведение документации становится просто необходимым как важнейшее условие обеспечения преемственности в осуществлении исследования. Остановимся кратко на отдельных аспектах этого процесса.
Паспортизация исследования, массивов, переменных, способов анализа. Для каждого из указанных выше объектов желательно в ЭВМ иметь следующее: 1) краткое имя, обязательно появляющееся во всех выдачах; 2) полное имя, идущее в основном в отчеты, но иногда и в выдачи, когда краткого имени недостаточно для однозначного понимания их смысла; 3) описание, которое для исследований кратко раскрывает содержание работы и указывает связь между массивами; для массивов уточняет условия их сбора или формирования; для переменных дает способ их получения, измерения или регистрации; для способа анализа — ссылки на источники, где может быть найдено точное описание метода.
Описания используются в основном при формировании отчетов и иногда в качестве вспомогательного комментария, облегчающего понимание отдельных выдач; и только для переменных 4) указание пределов изменения или принимаемых значений, которые обязательно должны использоваться для контроля при вводе данных, а также при построении выходных таблиц.
Если по ходу анализа выделяются отдельные массивы или вводятся новые вспомогательные переменные, то их необходимо описывать столь же подробно, как и основные массивы и переменные.
Описанная выше автоматизация документирования исследования достигается при современном уровне развития математического обеспечения довольно простыми средствами, но позволяет решать очень важные задачи: осуществляет контроль переменных при вводе; обеспечивает «автономную читаемость» всех выдаваемых таблиц; повышает вероятность обнаружения неточностей и ошибок в описаниях; облегчает составление отчетов.
Кроме того, желательно ведение в ЭВМ или с помощью специальных картотек учета: какие виды анализа (программы) и к каким подмассивам применялись; какова при этом была выявленная мера зависимости между признаками, успешности прогноза, адекватности отображения объектов в пространство меньшей размерности и т. п.; адресов, где хранятся в ЭВМ или на полках соответствующие выдачи, а также ведение разноцелевых текстовых комментариев как по логике и ходу анализа, так и к отдельным распечаткам.