Факторный анализ
Метод для группировки многих наблюдаемых переменных в одну/несколько интегральных (латентных). Переменные могут принадлежать к интервальному типу шкалы и выше (допустим псевдоинтервальный тип).
Требуемый уровень подготовки пользователя: начальный.
Желательно владение методами описательной статистики, парной связи и линейной регрессии.
Навигация по странице
Метод главных компонент
Видео-рекомендации, каждая не более 3 мин.
Факторный анализ (ФА) методом главных компонент (МГК) позволяет выявить несколько латентных переменных (компонент, факторов), "стоящих" за большим числом наблюдаемых переменных (индикаторов). Основные ограничения метода: (псевдо)интервальный тип шкалы переменных, линейная связь между переменными и между переменными и компонентами, необходимость вращения.
Запуск ФА. Тест Бартлетта и мера КМО предварительно показывают, пригодна ли корреляционная матрица для поиска в ней пучков парных линейных связей (то есть применим ли вообще ФА). Значение КМО больше 0,5 и отклонение нулевой гипотезы о сферичности данных в тесте Бартлетта (sig. меньше принятого уровня значимости) свидетельствуют о применимости ФА. Таблица общностей показывает, какой процент вариации исходных переменных объясняет модель. Число компонент по умолчанию определяется критерием Кайзера (остаются компоненты, которые "объясняют" больше одного собственного значения, то есть больше одного абстрактного индикатора).
Матрица факторных нагрузок показывает, на какое значение (факторную нагрузку) нужно умножить значение компоненты (фактора), чтобы получить значение исходной наблюдаемой переменной (индикатора). При интерпретации матрицы факторных нагрузок необходимо по строкам определить, к какой из компонент принадлежит каждый индикатор (с какой компонентой он имеет наибольшую по модулю нагрузку). Чтобы облегчить исходную интерпретацию, следует применить вращение -- ортогональное (прямоугольное) или косоугольное. Ортогональной вращение предполагает отсутствие связи между компонентами, а косоугольное - её наличие. Если у исследователя отсутствует теоретическая рамка и предположения о связи факторов, то при выборе вращения следует руководствоваться природой имеющихся данных (например, проанализировать корреляционную матрицу).
Чтобы выбрать вращение на основании корреляционной матрицы, необходимо понять, присутствует ли значимая корреляция только внутри групп переменных (внутри одной компоненты) или она также наблюдается между группами (между компонентами).
Если наблюдается тесная связь (пороговое значение устанавливается самим исследователем) между индикаторами, которые принадлежат к разным компонентам, то есть основания предполагать, что и сами компоненты связаны между собой (а значит, правильнее использовать косоугольное вращение). В SPSS реализованы два вида косоугольного вращения: Direct Oblimin и Promax.
Вращение Direct Oblimin регулируется параметром Delta, который изменяется от -9999 до 0,8 (минимально и максимально возможная скоррелированность компонент). Вращение Promax максимизирует контрастность по строкам (при ортогональном вращении Varimax также максимизирует контрастность по строкам, Quartimax - по столбцам, Equamax -- и то, и другое). Promax регулируется параметром Kappa, который изменяется от 1 до 9999 (минимально и максимально возможная скоррелированность компонент).
В рассматриваемом кейсе индикаторы, относящиеся к разным компонентам, скоррелированы в среднем на уровне 0,2, в Promax этому значению соответствует Kappa, примерно равная 15-25. Поскольку ФА зачастую выступает промежуточным этапом анализа, а сами компоненты затем используются как оси для расположения респондентов -- и в этом случае уместнее ограничиться ортогональным вращением (поскольку оси при визуализации располагаются перпендикулярно). По этой причине в рассматриваемом случае применяется вращение Varimax.
Структура компонент при использовании косоугольного и ортогонального вращения в настоящем случае совпадает. Если перед выбором модели необходимо сравнить и проинтерпретировать множество таблиц факторных нагрузок, то для упрощения этой процедуры можно воспользоваться предлагаемой мною оценкой контрастности: необходимо рассчитать сумму (или среднее - если в таблицах разное количество строк) разностей между суммой модулей нагрузок по строке и максимальной по модулю нагрузкой в строке, чем меньше эта величина -- тем контрастнее матрица (и легче интерпретация). Идея, заложенная в этой оценке, такова: если строка контрастна, то максимальное по модулю значение нагрузки в строке не будет отличаться от суммы модулей нагрузок по строке (в идеале вся нагрузка будет приходиться на одну компоненту).
В рассматриваемом случае последняя компонента сильно коррелирует лишь с одной переменной -- включение её в модель чревато потерей информации (процент "потерянной информации" для этой переменной можно узнать из таблицы общностей, отняв значение общности от единицы). Если теряется значительная доля информации -- лучше исключить переменную из модели и работать с исходной переменной наряду с полученными компонентами, предварительно стандартизовав эту переменную. Отрицательные значения стандартизованных переменных соответствуют низким исходным значениям, положительные -- высоким (с учётом кодировки признаков).
При сохранении компонент как переменных в базе метод Андерсона-Рубина соответствует ортогональному вращению, метод регрессии -- косоугольному вращению. Приводится интерпретация компонент.
Продолжение интерпретации компонент. Переменные с разными знаками факторных нагрузок составляют разные "полюса" одной компоненты.
Комментарии можете оставлять прямо в Youtube