Корреляционный анализ в Excel. Пример выполнения корреляционного анализа

  • Выполняем корреляционный анализ
    • Метод 1: применяем функцию КОРРЕЛ
    • Метод 2: используем “Пакет анализа”

  • Назначение корреляционного анализа

    Корреляционный анализ позволяет найти зависимость одного показателя от другого, и в случае ее обнаружения – вычислить коэффициент корреляции (степень взаимосвязи), который может принимать значения от -1 до +1:

      если коэффициент отрицательный – зависимость обратная, т.е. увеличение одной величины приводит к уменьшению второй и наоборот.

    Сила зависимости определяется по модулю коэффициента корреляции. Чем больше значение, тем сильнее изменение одной величины влияет на другую. Исходя из этого, при нулевом коэффициенте можно утверждать, что взаимосвязь отсутствует.

    Выполняем корреляционный анализ

    Для изучения и лучшего понимания корреляционного анализа, давайте попробуем его выполнить для таблицы ниже.

    Таблица в Excel для выполнения корреляционного анализа

    Здесь указаны данные по среднесуточной температуре и средней влажности по месяцам года. Наша задача – выяснить, существует ли связь между этими параметрами и, если да, то насколько сильная.

    Метод 1: применяем функцию КОРРЕЛ

    В Excel предусмотрена специальная функция, позволяющая сделать корреляционный анализ – КОРРЕЛ. Ее синтаксис выглядит следующим образом:

    Порядок действий при работе с данным инструментом следующий:

    1. Встаем в свободную ячейку таблицы, в которой планируем рассчитать коэффициент корреляции. Затем щелкаем по значку “fx (Вставить функцию)” слева от строки формул.
    2. В открывшемся окне вставки функции выбираем категорию “Статистические” (или “Полный алфавитный перечень”), среди предложенных вариантов отмечаем “КОРРЕЛ” и щелкаем OK.

    Метод 2: используем “Пакет анализа”

    Альтернативным способом выполнения корреляционного анализа является использование “Пакета анализа”, который предварительно нужно включить. Для этого:

    1. Заходим в меню “Файл”.
    2. В перечне слева выбираем пункт “Параметры”.
    3. В появившемся окне кликаем по подразделу “Надстройки”. Затем в правой части окна в самом низу для параметра “Управление” выбираем “Надстройки Excel” и щелкаем “Перейти”.
    4. В открывшемся окошке отмечаем “Пакет анализа” и подтверждаем действие нажатием кнопки OK.

    Все готово, “Пакет анализа” активирован. Теперь можно перейти к выполнению нашей основной задачи:

    1. Нажимаем кнопку “Анализ данных”, которая находится во вкладке “Данные”.
    2. Появится окно, в котором представлен перечень доступных вариантов анализа. Отмечаем “Корреляцию” и щелкаем OK.
    3. На экране отобразится окно, в котором необходимо указать следующие параметры:
        “Входной интервал”. Выделяем весь диапазон анализируемых ячеек (т.е. сразу оба столбца, а не по одному, как это было в описанном выше методе).
    4. “Группирование”. На выбор предложено два варианта: по столбцам и строкам. В нашем случае подходит первый вариант, т.к. именно подобным образом расположены анализируемые данные в таблице. Если в выделенный диапазон включены заголовки, следует поставить галочку напротив пункта “Метки в первой строке”.
    5. “Параметры вывода”. Можно выбрать вариант “Выходной интервал”, в этом случае результаты анализа будут вставлены на текущем листе (потребуется указать адрес ячейки, начиная с которой будут выведены итоги). Также предлагается вывод результатов на новом листе или в новой книге (данные будут вставлены в самом начале, т.е. начиная с ячейки A1). В качестве примера оставляем “Новый рабочий лист” (выбран по умолчанию).
    6. Когда все готово, щелкаем OK.
    7. Получаем тот же самый коэффициент корреляции, что и в первом методе. Это говорит о том, что в обоих случаях мы все сделали верно.

    Заключение

    Таким образом, выполнение корреляционного анализа в Excel – достаточно автоматизированная и простая в освоении процедура. Все что нужно знать – где найти и как настроить необходимый инструмент, а в случае с “Пакетом решения”, как его активировать, если до этого он уже не был включен в параметрах программы.

    Назначение корреляционного анализа

    Зависимость устанавливается тогда, когда начинается выявление коэффициента корреляции. Этот метод отличается от анализа регрессии, так как здесь только один показатель, рассчитываемый при помощи корреляции. Интервал изменяется от +1 до -1. Если она плюсовая, то повышение первой величины способствует повышению 2-й. Если минусовая, то повышение 1-й величины способствует понижению 2-й. Чем выше коэффициент, тем сильнее одна величина влияет на 2-ю.

    Важно! При 0-м коэффициенте зависимости между величинами нет.

    Несколько важных замечаний

    1. Коэффициент корреляции Пирсона чувствителен к выбросам. Одно аномальное значение может существенно исказить коэффициент. Поэтому перед проведением анализа следует проверить и при необходимости удалить выбросы. Другой вариант – перейти к ранговому коэффициенту корреляции Спирмена. Рассчитывается также, только не по исходным значениям, а по их рангам (пример показан в ролике под статьей).

    2. Синоним корреляции – это взаимосвязь или совместная вариация. Поэтому наличие корреляции (r ? 0) еще не означает причинно-следственную связь между переменными. Вполне возможно, что совместная вариация обусловлена влиянием третьей переменной. Совместное изменение переменных без причинно-следственной связи называется ложная корреляция.

    3. Отсутствие линейной корреляции (r = 0) не означает отсутствие взаимосвязи. Она может быть нелинейной. Частично эту проблему решает ранговая корреляция Спирмена, которая показывает совместный рост или снижение рангов, независимо от формы взаимосвязи.

    В видео показан расчет коэффициента корреляции Пирсона с доверительными интервалами, ранговый коэффициент корреляции Спирмена.

    Расчет коэффициента корреляции

    Разберем расчёт на нескольких образцах. К примеру, есть табличные данные, где по месяцам описаны в отдельных столбцах траты на рекламное продвижение и объём продаж. Исходя из таблицы, будем выяснять уровень зависимости объема продаж от денег, затраченных на рекламное продвижение.

    Способ 1: определение корреляции через Мастер функций

    КОРРЕЛ – функция, позволяющая реализовать корреляционный анализ. Общий вид — КОРРЕЛ(массив1;массив2). Подробная инструкция:

    1. Необходимо произвести выделение ячейки, в которой планируется выводить итог расчета. Нажать «Вставить функцию», находящуюся слева от текстового поля для ввода формулы.

    1

    1. Открывается «Мастер функций». Здесь необходимо найти КОРРЕЛ, кликнуть на нее, затем на «ОК».

    2

    1. Открылось окошко аргументов. В строку «Массив1» необходимо ввести координаты интервалы 1-го из значений. В рассматриваемом примере — это столбец «Величина продаж». Нужно просто произвести выделение всех ячеек, которые находятся в этой колонке. В строку «Массив2» аналогично необходимо добавить координаты второй колонки. В рассматриваемом примере — это столбец «Затраты на рекламу».

    3

    1. После введения всех диапазонов кликаем на кнопку «ОК».

    Коэффициент отобразился в той ячейке, которая была указана в начале наших действий. Полученный результат 0,97. Этот показатель отображает высокую зависимость первой величины от второй.

    4

    Способ 2: вычисление корреляции с помощью Пакета анализа

    Существует еще один метод определения корреляции. Здесь используется одна из функций, находящаяся в пакете анализа. Перед ее использованием нужно провести активацию инструмента. Подробная инструкция:

    1. Переходим в раздел «Файл».

    5

    1. Открылось новое окошко, в котором нужно кликнуть на раздел «Параметры».
    2. Жмём на «Надстройки».
    3. Находим в нижней части элемент «Управление». Здесь необходимо выбрать из контекстного меню «Надстройки Excel» и кликнуть «ОК».

    6

    1. Открылось специальное окно надстроек. Ставим галочку рядом с элементом «Пакет анализа». Кликаем «ОК».
    2. Активация прошла успешно. Теперь переходим в «Данные». Появился блок «Анализ», в котором необходимо кликнуть «Анализ данных».
    3. В новом появившемся окошке выбираем элемент «Корреляция» и жмем на «ОК».

    7

    1. На экране появилось окошко настроек анализа. В строчку «Входной интервал» необходимо ввести диапазон абсолютно всех колонок, принимающих участие в анализе. В рассматриваемом примере — это столбики «Величина продаж» и «Затраты на рекламу». В настройках отображения вывода изначально выставлен параметр «Новый рабочий лист», что означает показ результатов на другом листе. По желанию можно поменять локацию вывода результата. После проведения всех настроек нажимаем на «ОК».

    8
    Вывелись итоговые показатели. Результат такой же, как и в первом методе – 0,97.

    Негативное влияние на головной мозг

    Медицинские исследователи решили узнать о вреде роутеров вай-фай на сосуды головного мозга с помощью специальных экспериментов. Опыт провели на школьниках. Детям предложили оставить под подушкой мобильный с работающим wi-fi на всю ночь. Утром у детей выяснили их состоянием

    Большинство деток испытывали неприятные симптомы, отмечались спазмы и усталость, появление проблем с памятью и вниманием

    Эксперимент проводили на детях, у которых костная ткань головы тоньше и обеспечивает меньшую защиту мозга. Поэтому назвать результат абсолютно точным нельзя. Не исключено, что большая часть излучений была получена от мобильного устройства, а не от сигнала вай-фай. Точных результатов исследования и доказательств у взрослых не существует, но по предварительным итогам – излучение неблагоприятно воздействует на мозговую деятельность.

    Определение и вычисление множественного коэффициента корреляции в MS Excel

    Для выявления уровня зависимости нескольких величин применяются множественные коэффициенты. В дальнейшем итоги сводятся в отдельную табличку, именуемую корреляционной матрицей.

    Подробное руководство:

    1. В разделе «Данные» находим уже известный блок «Анализ» и жмем «Анализ данных».

    9

    1. В отобразившемся окошке жмем на элемент «Корреляция» и кликаем на «ОК».
    2. В строку «Входной интервал» вбиваем интервал по трём или более столбцам исходной таблицы. Диапазон можно ввести вручную или же просто выделить его ЛКМ, и он автоматически отобразится в нужной строчке. В «Группирование» выбираем подходящий способ группировки. В «Параметр вывода» указывает место, в которое будут выведены результаты корреляции. Кликаем «ОК».

    10

    1. Готово! Построилась матрица корреляции.

    11

    Рекомендованные новости

    Итоги торгов. Возобновили опережающие темпы роста, несмотря на санкционные риски

    Система объявила о продаже доли в Детском Мире

    Топ 5 самых популярных ETF

    Крупнейший фондовый рынок Азии терпит бедствие

    Все указывает на продолжение коррекции на следующей неделе

    Ставки по депозитам в России опустились ниже 6,2%

    Рынок США. ФРС перестраховывается

    Несмотря на снижение нефти, рубль укрепляется на фоне роста ОФЗ и развивающихся валют

    Адрес для вопросов и предложений по сайту

    Коэффициент парной корреляции в Excel

    Разберем, как правильно проводить коэффициент парной корреляции в табличном процессоре Excel.

    Расчет коэффициента парной корреляции в Excel

    К примеру, у вас есть значения величин х и у.

    12

    Х – это зависимая переменна, а у – независимая. Необходимо найти направление и силу связи между этими показателями. Пошаговая инструкция:

    1. Выявим средние показатели величин при помощи функции СРЗНАЧ.

    13

    1. Произведем расчет каждого х и хсредн, у и усредн при помощи оператора «-».

    14

    1. Производим перемножение вычисленных разностей.

    15

    1. Вычисляем сумму показателей в этом столбце. Числитель – найденный результат.

    16

    1. Посчитаем знаменатели разницы х и х-средн, у и у-средн. Для этого произведем возведение в квадрат.

    17

    1. Используя функцию АВТОСУММА, найдем показатели в полученных столбиках. Производим перемножение. При помощи функции КОРЕНЬ возводим результат в квадрат.

    18

    1. Производим подсчет частного, используя значения знаменателя и числителя.

    19 20

    1. КОРРЕЛ – интегрированная функция, которая позволяет предотвратить проведение сложнейших расчетов. Заходим в «Мастер функций», выбираем КОРРЕЛ и указываем массивы показателей х и у. Строим график, отображающий полученные значения.

    21

    Матрица парных коэффициентов корреляции в Excel

    Разберем, как проводить подсчет коэффициентов парных матриц. К примеру, есть матрица из четырех переменных.

    22

    Пошаговая инструкция:

    1. Заходим в «Анализ данных», находящийся в блоке «Анализ» вкладки «Данные». В отобразившемся списке выбираем «Корелляция».
    2. Выставляем все необходимые настройки. «Входной интервал» – интервал всех четырех колонок. «Выходной интервал» – место, в котором желаем отобразить итоги. Кликаем на кнопку «ОК».
    3. В выбранном месте построилась матрица корреляции. Каждое пересечение строки и столбца – коэффициенты корреляции. Цифра 1 отображается при совпадающих координатах.

    23

    Прочие возможности

    Также при помощи функции КОРРЕЛ можно провести более сложные исследования. Примером является парная и множественная корреляция. Отличие их заключается в том, что при множественной корреляции независимых переменных, влияющих на величину, может быть две и более, а при парной – только одна. Эти инструменты используют специалисты при анализе большого количества данных для проведения статистических исследований и выявления сложных зависимостей одной величины от множества других или их отсутствие.

    Также можно сделать график, чтобы наглядно показать зависимость одной величины от другой. Сделаем это для первого примера с рекламой и продажами.

    Такой способ отображения данных позволяет быстро оценить влияние, а коэффициент корреляции отображает силу зависимости. Однако делать окончательный вывод на основе корреляционных исследований не рекомендуется, необходимо проводить дополнительный анализ влияющих факторов.

    Как видите, редактор Excel от Microsoft позволяет проводить статистические исследования и выявлять взаимосвязи между массивами данных при помощи встроенных функций. Корреляция дает общее представление о взаимосвязи данных, но более точные результаты можно получить только с использованием нескольких статистических инструментов.

    Функция КОРРЕЛ в Excel используется для расчета коэффициента корреляции между для двух исследуемых массивов данных и возвращает соответствующее числовое значение.

    Функция КОРРЕЛ для определения взаимосвязи и корреляции в Excel

    КОРРЕЛ – функция, применяемая для подсчета коэффициента корреляции между 2-мя массивами. Разберем на четырех примерах все способности этой функции.

    Примеры использования функции КОРРЕЛ в Excel

    Первый пример. Есть табличка, в которой расписана информация об усредненных показателях заработной платы работников компании на протяжении одиннадцати лет и курсе $. Необходимо выявить связь между этими 2-умя величинами. Табличка выглядит следующим образом:

    24

    Алгоритм расчёта выглядит следующим образом:

    25

    Отображенный показатель близок к 1. Результат:

    26

    Определение коэффициента корреляции влияния действий на результат

    Второй пример. Два претендента обратились за помощью к двум разным агентствам для реализации рекламного продвижения длительностью в пятнадцать суток. Каждые сутки проводился социальный опрос, определяющий степень поддержки каждого претендента. Любой опрошенный мог выбрать одного из двух претендентов или же выступить против всех. Необходимо определить, как сильно повлияло каждое рекламное продвижение на степень поддержки претендентов, какая компания эффективней.

    27

    Используя нижеприведенные формулы, рассчитаем коэффициент корреляции:

    • =КОРРЕЛ(А3:А17;В3:В17).
    • =КОРРЕЛ(А3:А17;С3:С17).

    Результаты:

    28

    Из полученных результатов становится понятно, что степень поддержки 1-го претендента повышалась с каждыми сутками проведения рекламного продвижения, следовательно, коэффициент корреляции приближается к 1. При запуске рекламы другой претендент обладал большим числом доверия, и на протяжении 5 дней была положительная динамика. Потом степень доверия понизилась и к пятнадцатым суткам опустилась ниже изначальных показателей. Низкие показатели говорят о том, что рекламное продвижение отрицательно повлияло на поддержку. Не стоит забывать, что на показатели могли повлиять и остальные сопутствующие факторы, не рассматриваемые в табличной форме.

    Анализ популярности контента по корреляции просмотров и репостов видео

    Третий пример. Человек для продвижения собственных роликов на видеохостинге Ютуб применяет соцсети для рекламирования канала. Он замечает, что существует некая взаимосвязь между числом репостов в соцсетях и количеством просмотров на канале. Можно ли про помощи инструментов табличного процессора произвести прогноз будущих показателей? Необходимо выявить резонность применения уравнения линейной регрессии для прогнозирования числа просмотров видеозаписей в зависимости от количества репостов. Табличка со значениями:

    29

    Теперь необходимо провести определение наличия связи между 2-мя показателями по нижеприведенной формуле:

    0,7;ЕСЛИ(КОРРЕЛ(A3:A8;B3:B8)>0,7;»Сильная прямая зависимость»;»Сильная обратная зависимость»);»Слабая зависимость или ее отсутствие»)’ class=’formula’>

    Если полученный коэффициент выше 0,7, то целесообразней применять функцию линейной регрессии. В рассматриваемом примере делаем:

    30

    Теперь производим построение графика:

    31

    Применяем это уравнение, чтобы определить число просматриваний при 200, 500 и 1000 репостов: =9,2937*D4-206,12. Получаем следующие результаты:

    32

    Функция ПРЕДСКАЗ позволяет определить число просмотров в моменте, если было проведено, к примеру, двести пятьдесят репостов. Применяем: 0,7;ПРЕДСКАЗ(D7;B3:B8;A3:A8);»Величины не взаимосвязаны»)’ class=’formula’>. Получаем следующие результаты:

    33

    Особенности использования функции КОРРЕЛ в Excel

    Данная функция имеет нижеприведенные особенности:

    1. Не учитываются ячейки пустого типа.
    2. Не учитываются ячейки, в которых находится информация типа Boolean и Text.
    3. Двойное отрицание «—» применяется для учёта логических величин в виде чисел.
    4. Количество ячеек в исследуемых массивах обязаны совпадать, иначе будет выведено сообщение #Н/Д.

    Примеры использования

    Рассмотрим несколько задач, чтобы понять принцип работы статистической функции.

    Пример 1. В фирме есть бюджет на рекламную кампанию в месяц, а также есть объем продаж продукта, необходимо посчитать зависимость этих величин.

    В произвольной ячейке записываете формулу со ссылкой на два диапазона и получаете число.

    Результат близок к единице, значит между рекламой и продажами продукта существует сильная прямая зависимость.

    Пример 2.

    Есть показатели продаж мебели за квартал, а также изменение цены на товар за тот же период времени.

    В данном случае коэффициент корреляции стремится к -1, что говорит о сильной обратной зависимости. То есть с увеличением цены товара, продажи падают.

    Пример 3.

    Имеются затраты на квартиру и еду за три месяца, необходимо вычислить зависимость этих статей расхода друг от друга.

    Полученный результат говорит о слабой связи этих категорий.

    Рейтинг
    ( 2 оценки, среднее 4 из 5 )
    Понравилась статья? Поделиться с друзьями: