Навигация по странице
Аномалии коэффициентов
Поиск парных связей - очень популярная задача в анализе данных. Зачастую она решается коэффициентами корреляции Спирмэна, Кэндалла и Пирсона. Коэффициент корреляции Пирсона среди них, пожалуй, самый важный в статистике, т.к. на нём основаны коэффициенты линейной регрессии. А на линейной регрессии основаны многие ещё более комплексные методы (например, самый популярный метод факторизации - метод главных компонент, часто называемый "факторным анализом"). Коэффициент корреляции Пирсона давно разработан, и его "поведение" прекрасно изучено. Казалось бы, "белых пятен" не осталось. В данной серии видео показаны ситуации, в которых этот коэффициент ведёт себя "странно", несмотря на соблюдение всех известных ограничений его применения (интервальность переменных, их симметричность относительно соответствующих матожиданий). Видео 0.
Требуемый уровень подготовки пользователя: средний.
Желательно владение методами: описательная статистика и меры парной связи.
Краткое описание метода
Голые факты
Видео, каждое не более 3 мин.
Введение термина "аномалия коэффициента корреляции Пирсона". Обнаружение такого рода аномалий - побочный результат большой и долгой работы по созданию методов, способных "видеть" как доминирующие функциональные зависимости, так и "зашумляющие" их второстепенные зависимости (речь о регрессии с фильтром и кластеризации на основе меры расстояния Cosine). Такого рода аномалии, видимо, встречаются довольно часто, но остаются незамеченными. Чтобы в этом убедиться - проведите собственный эксперимент: создайте 50 наблюдений и 2 переменные, которые дают значение коэффициента корреляции Пирсона, равное примерно 1. Затем создайте ещё 50 наблюдений и 2 переменные, которые дают значение коэффициента корреляции Пирсона, равное примерно -1. Затем объедините эти наблюдения в общий массив. Какое значение коэффициента ожидаете? С вероятностью выше 0,5 Ваши ожидания не оправдаются.
Описание нашего примера: 50 наблюдений, 2 пары переменных, в первой паре переменных прослеживается тесная прямая связь, а во второй паре переменных прослеживается тесная обратная связь. Ожидаемо коэффициент корреляции Пирсона для первой пары равен 1, а для второй -1. Но что будет, если объединить эти пары переменных? Т.е. взять 100 наблюдений, и 1 пару переменных, в рамках которой на половине наблюдений прослеживается тесная прямая связь, а в рамках второй - тесная обратная связь. Если предварительно посмотреть на график, то..
.. видим 2 отрезка равной длины, расположенные под прямым углом друг к другу. Ожидаем нулевой коэффициент корреляции Пирсона. Получаем коэффициент, равный 0,75 (!) При том, что учебники и статистические онлайн-сервисы призывают интерпретировать такое значение коэффициента как довольно тесную положительную линейную связь. А коэффициенты как раз и нужны, чтобы быстро и однозначно интерпретировать любую величину коэффициента. В нашем примере такая однозначность интерпретации коэффициента оказывается под большим вопросом, хотя никакие известные ограничения его применения не нарушены. Поскольку в нашем примере коэффициент "не увидел" отрицательную тенденцию в данных, попробуем помочь ему.
В этой серии видео мы пока не даём свою интерпретацию обнаруженных аномалий и причин этих аномалий. Мы сделаем это позже после проведения дополнительных экспериментов.
После добавления 31 наблюдения, также содержащего отрицательную тенденцию (т.е. сделав отрицательную тенденцию доминирующей), коэффициент корреляции Пирсона снижается до 0,744 (!!). Таким образом, коэффициент "не видит" доминирующую тенденцию, а "концентрируется" на "зашумляющей" второстепенной тенденции.
После проведения дополнительных теоретических и практических изысканий мы продолжим публиковать видео по данной теме.
Комментарии можете оставлять прямо в Youtube