Навигация по странице
General linear models / Обобщённые линейные модели
Что делать, если линейная регрессия не работает?
Применять сложный единый комплекс взаимодополняющих методов для поиска многомерных связей и для построения точных прогнозов на переменных любого типа шкалы.
Общее основание этих методов – уравнение линейной регрессии. Несмотря на это, во многих методах обобщённых линейных моделей (ОЛМ) от линейно регрессии остался только коэффициент детерминации и принцип аддитивности (возможность суммировать частные модели для получения более общих).
Методы ОЛМ требуют от исследователя развитых компетенций в области описательной статистики, методов парных связей, дисперсионном анализе, регрессионном и логлинейном моделировании.
Краткое описание метода
В работе
Cell-Linear Regression / Точечно-линейная регрессия
Видео-рекомендации, каждая не более 3 мин.
Видео 1. Постановка задачи. Переменная, характеризующая политическое поведение - это отклик; создана как сумматорная переменная из дихотомических индикаторов наличия контактов с политиками, опыта работы в политических партиях и прочих социальных организациях, участия в политических кампаниях и демонстрациях, подписи петиций, бойкота. Поскольку полученная сумматорная переменная была крайне несимметричной, пришлось все её категории, отвечающие участию, объединить в одну; получилась снова дихотомическая переменная. Предикторы - переменные, характеризующие политическую культуру, в т.ч. ценности, политическое доверие и ряд социально-демографических характеристик.
Видео 2. Выбираем только одну страну (Россию), поскольку искомые закономерности могут варьировать от страны к стране. Обоснование многофакторного дисперсионного анализа как предварительной процедуры, не ограниченной никакой формой зависимости. Категориальные переменные (для которых считаем расстояния между категориями неинтерпретируемыми) помещаем в Factors, интервальные - в Covariates.
Видео 3. Рассмотрение переменных как факторов потенциально ведёт к более высокому коэффициенту детерминации, чем рассмотрение их же как ковариатов, поскольку во втором случае в модели больше ограничений. В нашем случае полная насыщенная модель невозможна в силу слишком большого числа эффектов взаимодействия. Но без них (т.е. только с главными эффектами) коэффициент детерминации модели низкий.
Видео 4. Частные насыщенные модели - модели, включающие только некоторые предикторы из всего набора и составленные из них все возможные эффекты взаимодействия. Проблема: как отобрать предикторы для частных моделей, чтобы при этом не упустить значимые эффекты взаимодействия между переменными, отнесёнными к разным частным моделям. Можно использовать логлинейный анализ как предварительную процедуру, позволяющую отобрать переменные для частных моделей так, чтобы между переменными, отнесёнными к разным частным моделям, не было значимых эффектов взаимодействия. Готовим предикторы для логлинейного анализа посредством объединения некоторых их значений.
Видео 5. После подготовки предикторов каждый из них имеет от 2 до 4 категорий. Но и после такой подготовки дисперсионный анализ полной насыщенной модели невозможен. Поэтому продолжаем подготовку данных к логлинейному анализу. Обоснование перехода к профилям: нам нужно моделировать не частоты (цель логлинейного анализа как такового), а значения отклика, для каждой комбинации предикторов (которые я и называю профилями).
Видео 6. Подготовка перехода к профилям: устранение пропусков в изучаемых предикторах посредством технической регрессии, а также в отклике. Custom table: предикторы помещаем по строкам в обратном порядке, отклик - помещаем в столбец (запрашиваем среднее арифметическое значение, частоту и валидную частоту). + Дополнительные настройки в Syntax. Переносим полученную Custom table в Excel.
Видео 7. Проверки на отсутствие пропусков: сравнение сумм по частоте и по валидной частоте (должны совпасть), сравнение высоты таблицы и высоты базы после удаление дубликатов (должны совпасть). Потенцирование средних арифметических значений зависимой переменной (чтобы можно было использовать полученные числа в качестве весов).
Видео 8. Непосредственное создание файла с профилями.
Видео 9. Взвешиваем новый файл по зависимой переменной, чтобы логлинейный анализ моделировал именно её значения. Переменная Count идёт в Cell Weights. Имеем 1552 комбинации значений предикторов. Запускаем логлинейный анализ. + Дополнительные настройки в Syntax. Результаты: 277 шагов, 48 частных моделей из 4- и 5-мерных эффектов на последнем шаге.
Видео 10. Полученные 48 частных моделей аддитивны - их результаты как бы не пересекаются, а дополняют друг друга. Поэтому каждую из них можно построить отдельно, а затем объединить. Применяем дисперсионный анализ к наборам предикторов из каждой частной модели. Чтобы ничего "не потерять", учитывая, что дисперсионный анализ - это предварительный этап, задаю пороговый Sig. не 0,05, а 0,10. На основе же выдачи дисперсионных анализов 48 частных моделей готовим фиктивные переменные для регрессионного анализа.
Видео 11. Подготовка шаблона для создания фиктивных переменных в Syntax посредством Excel. Запуск линейной регрессии.
Видео 13. Оценка качества итоговой точной модели. Трудность интерпретации коэффициентов.
Видео 16. Стандартизованные коэффициенты.
Видео 17. Дополнительная оценка устойчивости модели по таблице классификации.
Комментарии можете оставлять прямо в Youtube