Logistic Regression / Логистическая регрессия
Базовое представление о логистической регрессии, т.е. такой, которая позволяет моделировать и прогнозировать категориальную (дихотомическую, порядковую, номинальную) переменную по значениям интервальных (или псевдоинтервальных, или метрических) предикторов.
Требуемый уровень подготовки пользователя: средний.
Желательно владением методами описательной статистики и линейной регрессией.
Краткое описание метода
Binary Logistic Regression With Main Effects / Бинарная логистическая регрессия с главными эффектами
Видео-рекомендации, каждая не более 3 мин.
Видео 1. Подготовка массива: взвешивание. Согласно инструкциям ESS, создаём интегральную весовую переменную, по ней и взвешиваем.
Видео 2. Подготовка категориальных предикторов: нужно создать из категориальных предикторов дихотомические переменные. Дихотомизация бывает разной степени полноты. Делаем полную дихотомизацию (каждое значение исходного категориального предиктора превращается в отдельную дихотомическую переменную). Тем самым создаём полный набор дихотомических переменных из каждой категориальной переменной. Технически дихотомизацию помогает осуществить дихотомизатор.
Видео 3. Подготовка категориальных предикторов: можно создать из некоторых категориальных предикторов неполные наборы дихотомических переменных, если нам не нужно сохранять информацию о каждом значении этих категориальных предикторов. Подготовка массива: поиск переменных с большой долей missing. Временно убираем Labels переменных...
Видео 4. Сортируем в Excel по доле missing, удаляем из массива переменные с большой долей missing посредством Syntax.
***
Видео. Постановка задачи: какие характеристики работника влияют на его/её вступление и членство в профсоюзе. Среди потенциально влияющих характеристик: страна проживания, некоторые повседневные практики (просмотр ТВ), его/её ценности, социальное самочувствие, социально-демографические характеристики. Зависимую переменную (отклик) делаем дихотомической, согласно сути задачи.
Видео 1. Краткое описание логистической регрессии, её родства с линейной регрессией. Сначала запускаем vмодель со всеми гипотетическими предикторами. Некоторые из них незначимы. Их надо удалять по одному.
Видео 2. Чтобы не удалять вручную, обращаемся к пошаговой регрессии, а именно методу Backward Wald. Изменяем величину Sig. для исключения незначимых предикторов. Если предикторы имеют пропущенные значения, пошаговую регрессию придётся запустить несколько раз.
Видео 3. Если предикторы имеют пропущенные значения и пошаговая регрессия даёт несколько десятков шагов, то придётся запускать пошаговую регрессию, как минимум, 4 раза: с Sig. 0,5; 0,1; 0,05 и 0,05. Предварительно рассмотрим характеристики полученной модели: таблица классификации, -2LL и псевдо-R-квадраты. Таблица классификации показывает число правильных и ошибочных прогнозов на выборке; это не статистический инструмент. Критерий -2LL показывает степень отклонения прогнозируемых значений от эмпирических; это статистический инструмент, но не имеет верхней границы, что затрудняет его интерпретацию. Коэффициенты псевдо-R-квадрат Cox&Snell, Nagelkerke являются разными нормировками критерия -2LL.
Видео 4. Особенность псевдо-R-квадратов по сравнению с оригинальным R-квадратом: они показывают качество прогноза, прежде всего, по редко встречающимся категориям отклика. Прогнозировать модальную категорию отклика можно и без сложных моделей - сугубо по выборочной моде (если выборка репрезентативна). Сложные модели нужны как раз для прогнозирования редко встречающихся категорий отклика. Отсюда такая особенность псевдо-R-квадратов.
Видео 5. Проверка модели на устойчивость/непереобученность. Определение: устойчивая модель должна одинаково хорошо работать и на той выборке, на которой она получена, и на любой иной выборке из той же генеральной совокупности. Чтобы проверить модель на устойчивость, создаём вероятностную переменную rand (распределение Бернулли) для разделения выборки на 2 подвыборки. Переменную rand помещаем в окно Selection Variable. Одну из созданных подвыборок назначаем обучающей (напр., значение 1), другую - экспериментальной (напр., значение 0). Далее, важно отслеживать достаточность числа итераций, поскольку логистические регрессии основаны не на методе наименьших квадратов, а на принципиально ином - итеративном - методе наибольшего правоподобия. Также важно запускать регрессию для проверки на устойчивость БЕЗ пошаговой процедуры, т.к. в этой ситуации значимость предикторов нам не важна.
Видео 6. Интерпретация поведения остатков: в нашей модели сырые остатки в среднем равны нулю, следовательно, модель не смещена; стьюдинизованные остатки не имеют связи почти ни с одним предиктором, т.е. их вариация если и есть, то сугубо случайна, следовательно, данные гомоскедастичны.
Видео 7. Если модель смещена, следует скорректировать константу модели на величину смещения. Если модель неустойчива и/или данные гетероскедастичны, следует либо вообще отказаться от модели, либо учитывать, что рассчитанные показатели качества модели на самом деле ниже. Переходим к интерпретации. Константа показывает величину логита для изучаемых объектов, для которых все предикторы имеют нулевые значения.
Видео 8. Подробно интерпретируем константу - она характеризует контрольную группу, т.е. представителей генеральной совокупности с нулевыми значениями участвующих в итоговой модели предикторов, или - касательно дихотомических предикторов из соответствующих наборов - с единичными значениями таких предикторов, не попавших в итоговую модель. Рассчитываем вероятности неучастия и участия в профсоюзе для представителей контрольной группы. Важно, чтобы все предикторы имели значащие нули - тогда контрольная группа будет реальной, содержательной. В противном случае - виртуальной. Поэтому если в массиве есть предикторы, которые исходно не проходят через 0, следует перекодировать их, или "сдвинуть в 0".
Видео 9. Наша контрольная группа - это европейцы с нулевыми значениями участвующих в итоговой модели предикторов, или - касательно дихотомических предикторов из соответствующих наборов - с единичными значениями таких предикторов, не попавших в итоговую модель. Рассматриваем интервальные предикторы, затем дихотомические, затем фиктивные переменные из полного набора, соответствующего месту жительства. Уравнение логистической регрессии. Рассчитываем искомую вероятность для контрольной группы.
Видео 10. Кратко проинтерпретируем коэффициенты предикторов с т.з. смещения баланса между единичным и нулевым значениями зависимой переменной (между вероятностями участия и неучастия в профсоюзе). Рассчитываем отношения единичного и нулевого значений отклика для разных предикторов: напр., предиктор с самым большим положительным коэффициентом (проживание в Исландии). Т.е. речь о европейцах с теми же характеристиками, как в контрольной группе, но живущих в Исландии. Принцип "при прочих равных". Возьмём предиктор с самым большим отрицательным коэффициентом (проживание в сельском населённом пункте). Интерпретируем.
Видео 11. Мультиколлинеарность - связь предикторов между собой; она не позволяет применять принцип "при прочих равных", поскольку вносит в модель в дополнение к прямому влиянию одного из коллинеарных предикторов на отклик и опосредованное влияние, не отражаемое соответствующим регрессионным коэффициентом. Мультиколлинеарность создаёт интерпретативные проблемы (но не математические!). Рассчитываем прогнозируемые вероятности для рассмотренных комбинаций предикторов.
Видео 12. Вспомогательная регрессия и совместная интерпретация коррелирующих предикторов. Строим вспомогательную парную регрессию на паре коррелирующих предикторов (удовлетворённость работой и удовлетворённость балансом между работой и другими сферами жизни) и вставляем коэффициенты из этого регрессионного уравнения в основное регрессионное уравнение. Теперь мы знаем, насколько изменение удовлетворённости работой влияет на отклик не только прямо, но и косвенно - через изменение удовлетворённости балансом между работой и другими сферами жизни. Другая альтернатива: факторизация коррелирующих предикторов.
Видео 13. Стандартизованные коэффициенты - оценка отклика зависимой переменной при изменении любого предиктора на единицу не зависимо от масштаба его шкалы. В SPSS для логистической регрессии считать стандартизованные коэффициенты приходится отдельно - на заранее стандартизованных переменных. Как получить стандартизованные предикторы в SPSS? Переходим к расчёту в SPSS прогнозируемой вероятности единичного значения отклика для сочетаний значений предикторов, имеющихся в базе. Для этого перезапускаем итоговую модель с сохранением для каждого респондента предсказанных вероятностей единичного значения отклика (участия в профсоюзе). Ищем комбинацию предикторов, детерминирующую типаж, который, скорее всего, участвует в профсоюзе.
Видео 14. Создаём в базе переменную с прогнозируемыми вероятностями. Сортируем полученную переменную, чтобы найти в базе типаж, который, скорее всего, участвует в профсоюзе. Если мы хотим рассчитать вероятность участия в профсоюзе для комбинации значений предикторов, отсутствующей в базе, то можем снова обратиться к таблице с регрессионными коэффициентами в Excel.
Видео 15. Принцип прогноза отклика посредством логистической регрессии. Переходим к прогнозированию самого значения зависимой переменной. Прогнозирование происходит по принципу модального прогноза. Пороговое значение вероятности, отделяющее выбор нулевого значения отклика от выбора единичного значения называется Cutoff. По умолчанию оно равно 0,5. Менять его можно только на основе содержательных соображений. Выбирать его помогает ROC Curve. Итог: все шаги интерпретации модели.
Комментарии можете оставлять прямо в Youtube
Binary Logistic Regression With Interaction Effects / Бинарная логистическая регрессия с эффектами взаимодействия
Видео-рекомендации, каждая не более 3 мин.
Видео 1. Постановка задачи: повысить прогностическое качество модели, полученной на главных эффектах. Для этого выдвигаем гипотезу о наличии взаимодействия между полом и прочими главными эффектами. Создаём 2-мерные эффекты посредством скрипта в Excel для переноса в Syntax.
Видео 2. Чтобы не удалять вручную, обращаемся к пошаговой регрессии, а именно методу Backward Wald. Изменяем величину Sig. для исключения незначимых предикторов. Если предикторы имеют пропущенные значения, пошаговую регрессию придётся запустить несколько раз: с Sig. 0,5; 0,1; 0,05 и 0,05. В нашем случае 1 подход или 4 подхода - не влияет на итоговую модель, но это редкий случай. Запускаем сразу через Syntax по аналогии с бинарной логистической регрессией с главными эффектами.
Видео 3. Проверка модели на устойчивость/непереобученность. Определение: устойчивая модель должна одинаково хорошо работать и на той выборке, на которой она получена, и на любой иной выборке из той же генеральной совокупности. Чтобы проверить модель на устойчивость, создаём вероятностную переменную rand (распределение Бернулли) для разделения выборки на 2 подвыборки. Переменную rand помещаем в окно Selection Variable. Одну из созданных подвыборок назначаем обучающей (напр., значение 1), другую - экспериментальной (напр., значение 0). Интерпретация поведения остатков: в нашей модели сырые остатки в среднем равны нулю, следовательно, модель не смещена; стьюдинизованные остатки не имеют связи почти ни с одним предиктором, т.е. их вариация если и есть, то сугубо случайна, следовательно, данные гомоскедастичны. Прогностическое качество модели показывают таблица классификации, -2LL и псевдо-R-квадраты. Модель с эффектами 1-го и 2-го уровня явно лучше, чем модель с эффектами только 1-го уровня (другими словами, главными эффектами).
Видео 4. Подробно интерпретируем константу - она характеризует контрольную группу, т.е. представителей генеральной совокупности с нулевыми значениями участвующих в итоговой модели предикторов, или - касательно дихотомических предикторов из соответствующих наборов - с единичными значениями таких предикторов, не попавших в итоговую модель. Поскольку в модели есть эффекты взаимодействия, следует описывать членов контрольной группы двойными характеристиками (например, женщины, не живущие в пригороде мегаполиса). Важно, чтобы все предикторы имели значащие нули - тогда контрольная группа будет реальной, содержательной. В противном случае - виртуальной. Поэтому если в массиве есть предикторы, которые исходно не проходят через 0, следует перекодировать их, или "сдвинуть в 0". Прикидываем вероятность участия в профсоюзе для представителей контрольной группы.
Видео 5. Интерпретируем главный эффект бессрочного контракта и эффект взаимодействия бессрочного контракта и пола. Сам по себе бессрочный контракт влияет сильно положительно на вероятность участия в профсоюзе, но бессрочный контракт в сочетании с мужским полом влияет слабее за счёт отрицательной "добавки". Получается, модель с эффектами 1-го и 2-го уровня отличается от модели с эффектами только 1-го уровня (где и эффект бессрочного контракта, и эффект пола положительны).
Видео 6. Это различие (похожее на противоречие) можно проинтерпретировать в духе парадокса Симпсона: характер связи между двумя переменными может кардинально измениться при включении в связь третьей переменной. В модели с эффектами 1-го и 2-го уровня (в отличие от модели с эффектами только 1-го уровня) нет главного эффекта пола. Он оказался статистически не значим на фоне 2-мерного эффекта бессрочного контракта и пола. Такого рода замены и привели к тому, что прогностическое качество модели с эффектами 1-го и 2-го уровня выше, чем модели с эффектами только 1-го уровня.
Видео 7. Мультиколлинеарность - связь предикторов между собой; она не позволяет применять принцип "при прочих равных", поскольку вносит в модель в дополнение к прямому влиянию одного из коллинеарных предикторов на отклик и опосредованное влияние, не отражаемое соответствующим регрессионным коэффициентом. Мультиколлинеарность создаёт интерпретативные проблемы (но не математические!). Помогает интерпретировать регрессионные коэффициенты коллинеарных предикторов вспомогательная регрессия. Другая альтернатива: факторизация коррелирующих предикторов. Итог: все шаги интерпретации модели.
Комментарии можете оставлять прямо в Youtube