Как посчитать достоверность различий p
Перейти к содержимому

Как посчитать достоверность различий p

  • автор:

P-значение

P-значение, или значение вероятности, это статистическая величина, выраженная числом от 0 до 1, которая используется для проверки гипотезы. В клинических испытаниях данная величина применяется для определения, является ли полученный в клинических испытаниях результат случайным.

До начала сбора данных необходимо определить уровень значимости, который обычно равен 5 % (или 0,05), хотя в зависимости от исследования может быть выбран и другой показатель.

Статистически значимым (и позволяющим отвергнуть нулевую гипотезу)при этом считается результат, р-значение которого равно уровню значимости или меньше его. Это, как правило, обозначается следующим образом: p ≤ 0,05.

При подсчете p-значения вначале предполагается, что на самом деле значительной разницы между двумя исследуемыми режимами лечения, т.е. новым и стандартным лечением, не существует (нулевая гипотеза). Затем определяется возможность (вероятность) случайности наблюдаемого различия при условии верности нашего предположения (т.е. при условии отсутствия объективных различий). Это и есть p-значение.

Таким образом, p-значение — это вероятность получить результаты, схожие по значимости с наблюдаемыми в исследовании, при реальном отсутствии различий между вариантами лечения. При небольшом p-значении маловероятна случайность результатов, что дает основание отвергнуть предположение об отсутствии различий между двумя режимами лечения (отвергнуть нулевую гипотезу). При большом p-значении наблюдаемая разница может быть результатом случайности, и предположение об отсутствии различий между двумя режимами лечения не может быть отвергнуто.

Связанные термины:

  • Термин: Уровень значимости
  • Термин: Нулевая гипотеза
  • Термин: Вероятность
  • Термин: Статистика
  • Термин: P-значение

Объясняем p-значения для начинающих Data Scientist’ов

Я помню, когда я проходил свою первую зарубежную стажировку в CERN в качестве практиканта, большинство людей все еще говорили об открытии бозона Хиггса после подтверждения того, что он соответствует порогу «пять сигм» (что означает наличие p-значения 0,0000003).

image

Тогда я ничего не знал о p-значении, проверке гипотез или даже статистической значимости.

Я решил загуглить слово — «p-значение», и то, что я нашел в Википедии, заставило меня еще больше запутаться…

При проверке статистических гипотез p-значение или значение вероятности для данной статистической модели — это вероятность того, что при истинности нулевой гипотезы статистическая сводка (например, абсолютное значение выборочной средней разницы между двумя сравниваемыми группами) будет больше или равна фактическим наблюдаемым результатам.
— Wikipedia

Хорошая работа, Википедия.

Ладно. Я не понял, что на самом деле означает р-значение.

Углубившись в область науки о данных, я наконец начал понимать смысл p-значения и то, где его можно использовать как часть инструментов принятия решений в определенных экспериментах.

Поэтому я решил объяснить р-значение в этой статье, а также то, как его можно использовать при проверке гипотез, чтобы дать вам лучшее и интуитивное понимание р-значений.

Также мы не можем пропустить фундаментальное понимание других концепций и определение p-значения, я обещаю, что сделаю это объяснение интуитивно понятным, не подвергая вас всеми техническими терминами, с которыми я столкнулся.

Всего в этой статье четыре раздела, чтобы дать вам полную картину от построения проверки гипотезы до понимания р-значения и использования его в процессе принятия решений. Я настоятельно рекомендую вам пройтись по всем из них, чтобы получить подробное понимание р-значений:

  1. Проверка гипотезы
  2. Нормальное распределение
  3. Что такое P-значение?
  4. Статистическая значимость

1. Проверка гипотез

image

Прежде чем мы поговорим о том, что означает р-значение, давайте начнем с разбора проверки гипотез, где р-значение используется для определения статистической значимости наших результатов.

Наша конечная цель — определить статистическую значимость наших результатов.

И статистическая значимость построена на этих 3 простых идеях:

  • Проверка гипотезы
  • Нормальное распределение
  • P-значение

Другими словами, мы создадим утверждение (нулевая гипотеза) и используем пример данных, чтобы проверить, является ли утверждение действительным. Если утверждение не соответствует действительности, мы выберем альтернативную гипотезу. Все очень просто.

Чтобы узнать, является ли утверждение обоснованным или нет, мы будем использовать p-значение для взвешивания силы доказательств, чтобы увидеть, является ли оно статистически значимым. Если доказательства подтверждают альтернативную гипотезу, то мы отвергнем нулевую гипотезу и примем альтернативную гипотезу. Это будет объяснено в следующем разделе.

Давайте воспользуемся примером, чтобы сделать эту концепцию более ясной, и этот пример будет использоваться на протяжении всей этой статьи для других концепций.

Пример. Предположим, что в пиццерии заявлено, что время их доставки составляет в среднем 30 минут или меньше, но вы думаете, что оно больше чем заявленное. Таким образом, вы проводите проверку гипотезы и случайным образом выбираете время доставки для проверки утверждения:

  • Нулевая гипотеза — среднее время доставки составляет 30 минут или меньше
  • Альтернативная гипотеза — среднее время доставки превышает 30 минут
  • Цель здесь состоит в том, чтобы определить, какое утверждение — нулевое или альтернативное — лучше подтверждается данными, полученными из наших выборочных данных.

Одним из распространенных способов проверки гипотез является использование Z-критерия. Здесь мы не будем вдаваться в подробности, так как хотим лучше понять, что происходит на поверхности, прежде чем погрузиться глубже.

2. Нормальное распределение

image

Нормальное распределение — это функция плотности вероятности, используемая для просмотра распределения данных.

Нормальное распределение имеет два параметра — среднее (μ) и стандартное отклонение, также называемое сигма (σ).

Среднее — это центральная тенденция распределения. Оно определяет местоположение пика для нормальных распределений. Стандартное отклонение — это мера изменчивости. Оно определяет, насколько далеко от среднего значения склонны падать значения.

Нормальное распределение обычно связано с правилом 68-95-99.7 (изображение выше).

  • 68% данных находятся в пределах 1 стандартного отклонения (σ) от среднего значения (μ)
  • 95% данных находятся в пределах 2 стандартных отклонений (σ) от среднего значения (μ)
  • 99,7% данных находятся в пределах 3 стандартных отклонений (σ) от среднего значения (μ)

Классно. Теперь вы можете задаться вопросом: «Как нормальное распределение относится к нашей предыдущей проверке гипотез?»

Поскольку мы использовали Z-тест для проверки нашей гипотезы, нам нужно вычислить Z-баллы (которые будут использоваться в нашей тестовой статистике), которые представляют собой число стандартных отклонений от среднего значения точки данных. В нашем случае каждая точка данных — это время доставки пиццы, которое мы получили.

Обратите внимание, что когда мы рассчитали все Z-баллы для каждого времени доставки пиццы и построили стандартную кривую нормального распределения, как показано ниже, единица измерения на оси X изменится с минут на единицу стандартного отклонения, так как мы стандартизировали переменную, вычитая среднее и деля его на стандартное отклонение (см. формулу выше).

Изучение стандартной кривой нормального распределения полезно, потому что мы можем сравнить результаты теста с ”нормальной» популяцией со стандартизированной единицей в стандартном отклонении, особенно когда у нас есть переменная, которая поставляется с различными единицами.

image

Z-оценка может сказать нам, где лежат общие данные по сравнению со средней популяцией.

Мне нравится, как Уилл Кёрсен выразился: чем выше или ниже Z-показатель, тем менее вероятным будет случайный результат и тем более вероятным будет значимый результат.

Но насколько высокий (или низкий) показатель считается достаточно убедительным, чтобы количественно оценить, насколько значимы наши результаты?

Кульминация

Здесь нам нужен последний элемент для решения головоломки — p-значение, и проверить, являются ли наши результаты статистически значимыми на основе уровня значимости (также известного как альфа), который мы установили перед началом нашего эксперимента.

3. Что такое P-значение?

Наконец… Здесь мы говорим о р-значении!

Все предыдущие объяснения предназначены для того, чтобы подготовить почву и привести нас к этому P-значению. Нам нужен предыдущий контекст и шаги, чтобы понять это таинственное (на самом деле не столь таинственное) р-значение и то, как оно может привести к нашим решениям для проверки гипотезы.

Если вы зашли так далеко, продолжайте читать. Потому что этот раздел — самая захватывающая часть из всех!

Вместо того чтобы объяснять p-значения, используя определение, данное Википедией (извини Википедия), давайте объясним это в нашем контексте — время доставки пиццы!

Напомним, что мы произвольно отобрали некоторые сроки доставки пиццы, и цель состоит в том, чтобы проверить, превышает ли время доставки 30 минут. Если окончательные доказательства подтверждают утверждение пиццерии (среднее время доставки составляет 30 минут или меньше), то мы не будем отвергать нулевую гипотезу. В противном случае мы опровергаем нулевую гипотезу.

Поэтому задача p-значения — ответить на этот вопрос:

Если я живу в мире, где время доставки пиццы составляет 30 минут или меньше (нулевая гипотеза верна), насколько неожиданными являются мои доказательства в реальной жизни?

Р-значение отвечает на этот вопрос числом — вероятностью.

Чем ниже значение p, тем более неожиданными являются доказательства, тем более нелепой выглядит наша нулевая гипотеза.

И что мы делаем, когда чувствуем себя нелепо с нашей нулевой гипотезой? Мы отвергаем ее и выбираем нашу альтернативную гипотезу.

Если р-значение ниже заданного уровня значимости (люди называют его альфа, я называю это порогом нелепости — не спрашивайте, почему, мне просто легче понять), тогда мы отвергаем нулевую гипотезу.

Теперь мы понимаем, что означает p-значение. Давайте применим это в нашем случае.

P-значение в расчете времени доставки пиццы

Теперь, когда мы собрали несколько выборочных данных о времени доставки, мы выполнили расчет и обнаружили, что среднее время доставки больше на 10 минут с p-значением 0,03.

Это означает, что в мире, где время доставки пиццы составляет 30 минут или меньше (нулевая гипотеза верна), есть 3% шанс, что мы увидим, что среднее время доставки, по крайней мере, на 10 минут больше, из-за случайного шума.

Чем меньше p-значение, тем более значимым будет результат, потому что он с меньшей вероятностью будет вызван шумом.

В нашем случае большинство людей неправильно понимают р-значение:

Р-значение 0,03 означает, что есть 3% (вероятность в процентах), что результат обусловлен случайностью — что не соответствует действительности.

Люди часто хотят получить определенный ответ (в том числе и я), и именно поэтому я долго путался с интерпретацией p-значений.

Р-значение ничего не *доказывает*. Это просто способ использовать неожиданность в качестве основы для принятия разумного решения.
— Кэсси Козырков

Вот как мы можем использовать p-значение 0,03, чтобы помочь нам принять разумное решение (ВАЖНО):

  • Представьте, что мы живем в мире, где среднее время доставки всегда составляет 30 минут или меньше — потому что мы верим в пиццерию (наше первоначальное убеждение)!
  • После анализа времени доставки собранных образцов р-значение на 0,03 ниже, чем уровень значимости 0,05 (предположим, что мы установили это значение перед нашим экспериментом), и мы можем сказать, что результат является статистически значимым.
  • Поскольку мы всегда верили пиццерии, что она может выполнить свое обещание доставить пиццу за 30 минут или меньше, нам теперь нужно подумать, имеет ли это убеждение смысл, поскольку результат говорит нам о том, что пиццерия не выполняет свое обещание и результат является статистически значимым.
  • Так что же нам делать? Сначала мы пытаемся придумать любой возможный способ сделать наше первоначальное убеждение (нулевая гипотеза) верным. Но поскольку пиццерия постепенно получает плохие отзывы от других людей и часто приводит плохие оправдания, которые привели к задержке доставки, даже мы сами чувствуем себя нелепо, чтобы оправдать пиццерию, и, следовательно, мы решаем отвергнуть нулевую гипотезу.
  • Наконец, следующее разумное решение — не покупать больше пиццы в этом месте.

По моему мнению, p-значения используются в качестве инструмента для оспаривания нашего первоначального убеждения (нулевая гипотеза), когда результат является статистически значимым. В тот момент, когда мы чувствуем себя нелепо с нашим собственным убеждением (при условии, что р-значение показывает, что результат статистически значим), мы отбрасываем наше первоначальное убеждение (отвергаем нулевую гипотезу) и принимаем разумное решение.

4. Статистическая значимость

Наконец, это последний этап, когда мы собираем все вместе и проверяем, является ли результат статистически значимым.

Недостаточно иметь только р-значение, нам нужно установить порог (уровень значимости — альфа). Альфа всегда должна быть установлена ​​перед экспериментом, чтобы избежать смещения. Если наблюдаемое р-значение ниже, чем альфа, то мы заключаем, что результат является статистически значимым.

Основное правило — установить альфа равным 0,05 или 0,01 (опять же, значение зависит от вашей задачи).

Как упоминалось ранее, предположим, что мы установили альфа равным 0,05, прежде чем мы начали эксперимент, полученный результат является статистически значимым, поскольку р-значение 0,03 ниже, чем альфа.

Для справки ниже приведены основные этапы всего эксперимента:

image

  1. Сформулируйте нулевую гипотезу
  2. Сформулируйте альтернативную гипотезу
  3. Определите значение альфа для использования
  4. Найдите Z-показатель, связанный с вашим альфа-уровнем
  5. Найдите тестовую статистику, используя эту формулу
  6. Если значение тестовой статистики меньше Z-показателя альфа-уровня (или p-значение меньше альфа-значения), отклоните нулевую гипотезу. В противном случае не отвергайте нулевую гипотезу.

Если вы хотите узнать больше о статистической значимости, не стесняйтесь посмотреть эту статью — Объяснение статистической значимости, написанная Уиллом Керсеном.

Последующие размышления

Здесь много чего нужно переваривать, не так ли?

Я не могу отрицать, что p-значения по своей сути сбивают с толку многих людей, и мне потребовалось довольно много времени, чтобы по-настоящему понять и оценить значение p-значений и то, как они могут быть применены в рамках нашего процесса принятия решений в качестве специалистов по данным.

Но не слишком полагайтесь на p-значения, поскольку они помогают только в небольшой части всего процесса принятия решений.

Я надеюсь, что мое объяснение p-значений стало интуитивно понятным и полезным в вашем понимании того, что в действительности означают p-значения и как их можно использовать при проверке ваших гипотез.

Сам по себе расчет р-значений прост. Трудная часть возникает, когда мы хотим интерпретировать p-значения в проверке гипотез. Надеюсь, что теперь трудная часть станет для вас немного легче.

Если вы хотите узнать больше о статистике, я настоятельно рекомендую вам прочитать эту книгу (которую я сейчас читаю!) — Практическая статистика для специалистов по данным, специально написанная для data scientists, чтобы разобраться с фундаментальными концепциями статистики.

image

Узнайте подробности, как получить востребованную профессию с нуля или Level Up по навыкам и зарплате, пройдя платные онлайн-курсы SkillFactory:

  • Обучение профессии Data Science с нуля (12 месяцев)
  • Профессия аналитика с любым стартовым уровнем (9 месяцев)
  • Курс по Machine Learning (12 недель)
  • Курс «Python для веб-разработки» (9 месяцев)
  • Курс по DevOps (12 месяцев)
  • Профессия Веб-разработчик (8 месяцев)

Читать еще

  • Тренды в Data Scienсe 2020
  • Data Science умерла. Да здравствует Business Science
  • Крутые Data Scientist не тратят время на статистику
  • Как стать Data Scientist без онлайн-курсов
  • 450 бесплатных курсов от Лиги Плюща
  • Data Science для гуманитариев: что такое «data»
  • Data Scienсe на стероидах: знакомство с Decision Intelligence

6.1 Параметрические критерии

В группу параметрических критериев методов математической статистики входят методы для вычисления описательных статистик, построения графиков на нормальность распределения, проверка гипотез о при­надлежности двух выборок одной совокупности. Эти методы основыва­ются на предположении о том, что распределение выборок подчиняется нормальному (гауссовому) закону распределения. Среди параметрических критериев статистики нами будут рассмотрены критерий Стьюдента и Фишера.

6.1.1 Методы проверки выборки на нормальность

Чтобы определить, имеем ли мы дело с нормальным распределением, можно применять следующие методы:

1) в пределах осей можно нарисовать полигон частоты (эмпирическую функцию распределения) и кривую нормального распределения на основе данных исследования. Исследуя формы кривой нормального распределения и графика эмпирической функции распределения, можно выяснить те параметры, которыми последняя кривая отличается от первой;

2) вычисляется среднее, медиана и мода и на основе этого определяется отклонение от нормального распределения. Если мода, медиана и среднее арифметическое друг от друга значительно не отличаются, мы имеем дело с нормальным распределением. Если медиана значительно отличается от среднего, то мы имеем дело с асимметричной выборкой.

3) эксцесс кривой распределения должен быть равен 0. Кривые с положительным эксцессом значительно вертикальнее кривой нормального распределения. Кривые с отрицательным эксцессом являются более покатистыми по сравнению с кривой нормального распределения;

4) после определения среднего значения распределения частоты и стандартного oтклонения находят следующие четыре интервала распределения сравнивают их с действительными данными ряда:

а) — к интервалу должно относиться около 25% частоты совокупности,

б) — к интервалу должно относиться около 50% частоты совокупности,

в) — к интервалу должно относиться около 75% частоты совокупности,

г) — к интервалу должно относиться около 100% частоты совокупности.

6.1.2 Критерий Стьюдента ( t-критерий)

Критерий позволяет найти вероятность того, что оба средних значения в выборке относятся к одной и той же совокупности. Данный критерий наиболее часто используется для проверки гипотезы: «Средние двух выборок относятся к одной и той же совокупности».

При использовании критерия можно выделить два случая. В первом случае его применяют для проверки гипотезы о равенстве генеральных средних двух неза­висимых, несвязанных выборок (так называемый двухвыборочный t-критерий). В этом случае есть контрольная группа и экспериментальная (опытная) группа, количество испытуемых в группах может быть различно.

Во втором случае, когда одна и та же группа объектов порождает числовой матери­ал для проверки гипотез о средних, используется так называемый парный t-критерий. Выборки при этом называют зависимыми, связанными.

а) случай независимых выборок

Статистика критерия для случая несвязанных, независимых выборок равна:

где , — средние арифметические в эксперименталь­ной и контрольной группах,

— стан­дартная ошибка разности средних арифметических. Находится из формулы:

где n 1 и n 2 соответственно величины первой и второй выборки.

Если n 1= n 2, то стандартная ошибка разности средних арифметических будет считаться по формуле:

где n величина выборки.

Подсчет числа степеней свободы осуществля­ется по формуле:

При численном равенстве выборок k = 2 n — 2.

Далее необходимо срав­нить полученное значение t эмп с теоретическим значением t—рас­пределения Стьюдента (см. приложение к учеб­никам статистики). Если t эмп< t крит, то гипотеза H 0 принимается, в противном случае нулевая гипотеза отвергается и принимается альтернативная гипотеза.

Рассмотрим пример использования t -критерия Стьюдента для несвязных и неравных по численности выборок.

Пример 1 . В двух группах учащихся — экспериментальной и контрольной — получены следующие результаты по учеб­ному предмету (тестовые баллы; см. табл. 1). [1]

Таблица 1. Результаты эксперимента

Первая группа (экспериментальная) N 1=11 человек

Вторая группа (контрольная)

12 14 13 16 11 9 13 15 15 18 14

13 9 11 10 7 6 8 10 11

Общее количество членов выборки: n 1=11, n 2=9.

Расчет средних арифметических: Хср=13,636; Y ср=9,444

Стандартное отклонение: s x=2,460; s y =2,186

По формуле (2) рассчитываем стандартную ошибку разности арифметических средних:

Считаем статистику критерия:

Сравниваем полученное в эксперименте значение t с табличным значением с учетом степеней свободы, равных по формуле (4) числу испытуемых минус два (18).

Табличное значение tкрит равняется 2,1 при допущении возможности риска сделать ошибочное сужде­ние в пяти случаях из ста (уровень значимости=5 % или 0,05).

Если полученное в эксперименте эмпирическое значение t превы­шает табличное, то есть основания принять альтернативную гипотезу (H1) о том, что учащиеся экспериментальной группы показывают в среднем более высокий уровень знаний. В эксперименте t=3,981, табличное t=2,10, 3,981>2,10, откуда следует вывод о преимуществе эксперимен­тального обучения.

Здесь могут возникнуть такие вопросы:

1. Что если полученное в опыте значение t окажется меньше табличного? Тогда надо принять нулевую гипотезу.

2. Доказано ли преимущество экспериментального метода? Не столько доказано, сколько показано, потому что с самого начала допускается риск ошибиться в пяти случаях из ста (р=0,05). Наш эксперимент мог быть одним из этих пяти случаев. Но 95% возможных случаев говорит в пользу альтернативной гипотезы, а это достаточно убедительный аргумент в статистическом доказательстве.

3. Что если в контрольной группе результаты окажутся выше, чем в экспериментальной? Поменяем, например, местами, сделав средней арифметической эксперимен­тальной группы, a — контрольной:

Отсюда следует вывод, что новый метод пока не про­явил себя с хорошей стороны по разным, возможно, при­чинам. Поскольку абсолютное значение 3,9811>2,1, принимается вторая альтернативная гипотеза (Н2) о пре­имуществе традиционного метода.

б) случай связанных (парных) выборок

В случае связанных выборок с равным числом измерений в каждой можно использовать более простую формулу t-критерия Стьюдента.

Вычисление значения t осуществляется по формуле:

где — разности между соответствующими значениями переменной X и переменной У, а d — среднее этих разностей;

Sd вычисляется по следующей формуле:

Число степеней свободы k определяется по формуле k= n -1. Рассмотрим пример использования t -критерия Стьюдента для связных и, очевидно, равных по численности выборок.

Если t эмп< t крит, то нулевая гипотеза принимается, в противном случае принимается альтернативная.

Пример 2. Изучался уровень ориентации учащихся на художественно-эстети­ческие ценности. С целью активизации формирования этой ориентации в экспериментальной группе проводились бе­седы, выставки детских рисунков, были организованы по­сещения музеев и картинных галерей, проведены встречи с музыкантами, художниками и др. Закономерно встает вопрос: какова эффективность проведенной работы? С целью проверки эффективности этой работы до начала эксперимента и после давался тест. Из методических со­ображений в таблице 2 приводятся результаты небольшо­го числа испытуемых. [2]

Таблица 2. Результаты эксперимента

Вспомогательные расчеты

до начала экспери­мента (Х)

экспери­мента (У)

Вначале произведем расчет по формуле:

Затем применим формулу (6), получим:

И, наконец, следует применить формулу (5). Получим:

Число степеней свободы: k =10-1=9 и по таблице При­ложения 1 находим tкрит =2.262, экспериментальное t=6,678, откуда следует возможность принятия альтерна­тивной гипотезы (H1) о достоверных различиях средних арифметических, т. е. делается вывод об эффективности экспериментального воздействия.

В терминах статистических гипотез полученный результат будет звучать так: на 5% уров­не гипотеза Н0 отклоняется и принимается гипотеза Н1 .

6.1.3 F — критерий Фишера

Критерий Фишера позволяет сравнивать величины выбороч­ных дисперсий двух независимых выборок. Для вычисления Fэмп нуж­но найти отношение дисперсий двух выборок, причем так, что­бы большая по величине дисперсия находилась бы в числителе, а меньшая – в знаменателе. Формула вычисления критерия Фи­шера такова:

где — дисперсии первой и второй выборки соответственно.

Так как, согласно условию критерия, величина числителя должна быть больше или равна величине знаменателя, то значе­ние Fэмп всегда будет больше или равно единице.

Чис­ло степеней свободы определяется также просто:

k 1=nl — 1 для первой выборки (т.е. для той выборки, величина дисперсии которой больше) и k 2= n 2 — 1 для второй выборки.

В Приложе­нии 1 критические значения критерия Фишера находятся по величинам k 1 (верхняя строчка таблицы) и k 2 (левый столбец таблицы).

Если t эмп> t крит, то нулевая гипотеза принимается, в противном случае принимается альтернативная.

Пример 3. В двух третьих классах проводилось тестирование умственного развития по тесту ТУРМШ десяти учащихся. [3] Полученные значения величин средних достоверно не различались, однако психолога интересует вопрос — есть ли различия в степени однородности показателей умственного развития между классами.

Решение. Для критерия Фишера необходимо сравнить дис­персии тестовых оценок в обоих классах. Резуль­таты тестирования представлены в таблице:

Рассчитав дисперсии для переменных X и Y, получаем:

Тогда по формуле (8) для расчета по F критерию Фишера находим:

По таблице из Приложения 1 для F критерия при степенях свободы в обоих случаях равных k =10 — 1 = 9 находим F крит=3,18 (<3.29), следовательно, в терминах статистических гипотез можно утвер­ждать, что Н0 (гипотеза о сходстве) может быть отвергнута на уровне 5%, а принимается в этом случае гипотеза Н1. И c следователь может утверждать, что по степени однородности такого показа­теля, как умственное развитие, имеется различие между выбор­ками из двух классов.

6.2 Непараметрические критерии

Сравнивая на глазок (по процентным соотношениям) результаты до и после какого-либо воздействия, исследователь приходит к заключению, что если наблюдаются различия, то имеет место различие в сравниваемых выборках. Подобный подход категорически неприемлем, так как для процентов нельзя определить уровень достоверности в различиях. Проценты, взятые сами по себе, не дают возможности делать статистически достоверные выводы. Чтобы доказать эффективность какого-либо воздействия, необходимо выявить статистически значимую тенденцию в смещении (сдвиге) показателей. Для решения подобных задач исследователь может использовать ряд критериев различия. Ниже будет рассмотрены непараметрические критерии: критерий знаков и критерий хи-квадрат.

6.2.1 Критерий знаков ( G-критерий)

Критерий предназначен для срав­нения состояния некоторого свойства у членов двух зави­симых выборок на основе измерений, сделанных по шка­ле не ниже ранговой.

Имеется две серии наблюдений над случайными переменными X и У, полученные при рассмотрении двух зависимых выборок. На их основе составлено N пар вида (х i , у i ), где х i , у i — результаты двукратного измерения одного и того же свойства у одного и того же объекта.

В педагогических исследованиях объектами изуче­ния могут служить учащиеся, учителя, администрация школ. При этом х i , у i могут быть, например, балловы­ми оценками, выставленными учителем за двукратное выполнение одной и той же или различных работ одной и той же группой учащихся до и после применения некоторого педагогическою средства.

Элементы каждой пары х i , у i сравниваются между собой по величине, и паре присваивается знак «+», ес­ли х i < у i , знак «—», если х i > у i и «0», если х i = у i .

Нулевая гипотеза формулируются следующим обра­зом: в состоянии изучаемого свойства нет значимых различий при первичном и вторичном измерениях. Альтернативная гипотеза: законы распределения величин X и У различны, т. е. состояния изучаемого свойства существенно раз­личны в одной и той же совокупности при первичном и вторичном измерениях этого свойства.

Ста­тистика критерия (Т) определяется следую­щим образом:

допустим, что из N пар (х, у,) нашлось несколько пар, в которых значения х i и у i равны. Такие пары обозначаются знаком «0» и при подсчете значения ве­личины Т не учитываются. Предположим, что за вы­четом из числа N числа пар, обозначенных знаком «0», осталось всего n пар. Среди оставшихся n пар подсчита­ем число пар, обозначенных знаком «-», т.е, пары, в которых xi < yi . Значение величины Т и равно чис­лу пар со знаком минус.

Нулевая гипотеза принимается на уровне значимости 0,05, если наблю­даемое значение T < n - ta , где значение n — ta определя­ется из статистических таблиц для критерия знаков Приложения 2.

Пример 4. Учащиеся выполняли контрольную ра­боту, направленную на проверку усвоения некоторого понятия. Пятнадцати учащимся затем предложили электронное пособие, составленное с целью фор­мирования данного понятия у учащихся с низким уров­нем обучаемости. После изучения пособия учащиеся снова выполняли ту же контрольного работу, которая оценивалась по пятибалльной системе.

Результаты двукратного выполнения ра­боты представляют измерения по шкале по­рядка (пятибалльная шкала). В этих условиях возмож­но применение знакового критерия для выявления тенденции изменения состояния знаний учащихся после изучения пособия, так как выполняются все допуще­ния этого критерия.

Результаты двукратного выполнения работы (в бал­лах) 15 учащимися запишем в форме таблицы (см. табл. 1). [4]

Калькулятор достоверности

Не каждый результат эксперимента имеет статистический вес. Некоторые значения могут быть следствием ошибки. Калькулятор достоверности помогает понять, какие из них являются значимыми для статистики и могут служить основанием для формулировки выводов.

Что такое статистическая значимость

Это показатель вероятности того, что разница между контрольным и тестовым вариантами экспериментальных данных не является случайной или ошибочной.

Статистическая значимость

Простыми словами, в A/B-тестировании он показывает, с какой вероятностью тот факт, что улучшенная версия тестируемой страницы имеет более высокие оценки, не будет случайным.

Измерить надежность результатов позволяет оценка достоверности. Если она высокая, можно считать исход исследования значимым. Это помогает сделать заключение о том, что именно внесенные изменения, а не случайность, повлияли на улучшение показателей.

  • 95-100% – высокая статистическая значимость. Внесенные изменения стоит применить на сайте.
  • 90-95% – результат имеет невысокий процент значимости для статистики. Рекомендуется делать корректировки осторожно, а лучше повторить A/B-тестирование.
  • Менее 90% – данные не значимы для статистики. Не рекомендуется вносить такие изменения.

Этот параметр применяется не только в маркетинге, он также важен для бизнеса. Компании используют его, чтобы проводить эксперименты и отслеживать их влияние на коэффициент конверсии бизнеса. При проведении опросов помогает оценить, насколько ответам можно доверять.

Как провести A/B-тестирование

A/B тестирование чаще всего заключается в сравнении двух веб-страниц, которые отличаются лишь одним измененным элементом. При этом страница А остается прежней и служит контрольной. На странице В вносится небольшое изменение, она является тестовой.

Чтобы получить статистически значимый результат, необходимо тестировать страницу, на которой меняется только один элемент. Корректирование сразу нескольких элементов не позволит понять, какое именно изменение привело к улучшению показателей.

Коррекциям и тестированиям подлежат прежде всего те элементы, которые нужны для проявления активности пользователей и увеличения конверсии:

  • призывы к действию;
  • кнопки CTA;
  • заголовки;
  • рекламные тексты;
  • изображения;
  • описания товаров.

Изменение может предполагать не только полную замену элемента, но и коррекцию:

После того, как создана дублирующая исходную страница с каким-либо измененным элементом, запускают A/B-тест. При этом половина трафика направляется на контрольную страницу А, а вторая половина – на тестовую В. При этом посетители никогда не узнают, что вошли в фокус-группу и стали участниками маркетинговых исследований.

При получении статистически значимых результатов эксперимента лидером тестирования становится та версия, которая лучше сказывается на конверсии.

Существует несколько правил работы с A/B-тестами:

Правила работы с AB-тестами

  1. Правило возврата. Пересмотр ранее проведенных тестов хотя бы раз в полгода способствует возникновению новых идей и даже может заставить изменить подход к тестированию.
  2. Правило А/А-теста. Одновременное тестирование абсолютно идентичных веб-страниц при определенной выборке дает возможность увидеть, не рано ли приступать к А/Б-тестированию. Если показатели похожи, а стандартное отклонение значений не превышают 10%, пора переходить к реальному сплит-тесту.
  3. Правило общего тестирования. Тестировать можно не только сайты, но и другие маркетинговые инструменты: рассылки, всплывающие окна, опросы и даже определять самое удачное время получения письма пользователем.
  4. «No Peeking» Rule или правило «Не подглядывать». Просматривая промежуточные цифры до завершения теста, есть соблазн закончить его раньше времени. Данное правило звучит так: как положительный, так и отрицательный результат, полученный при малой выборке, с высокой вероятностью окажется случайным. Поэтому не стоит доверять данным, если они были получены до окончания эксперимента.
  5. Другие правила:
    • Проводите A/B-тест последовательно и не менее 7 дней;
    • Используйте калькуляторы только после того, как статистических данных станет достаточно для анализа;
    • Не меняйте параметры теста до его завершения, это приведет к их искажению.

Вместо многочисленных A/B-тестов можно подключить к рекламной кампании сквозную аналитику на основе коннекторов. Она покажет, какие корректировки положительно влияют на конверсию, а какие сливают бюджет.

С чем можно столкнуться при A/B-тестировании

Разберем основные трудности, ошибки и подводные камни, которые часто встречаются при проведении А/Б-тестов.

  • Тестирование нескольких элементов одновременно. Так бывает, когда нужно протестировать, например, письмо для email-рассылки с коротким и длинным текстом. При этом в длинном письме не только больше текста, но и другая его структура, формулировка предложений, добавлены визуальные элементы, которых нет в коротком письме. Тестирование в данном случае заведомо непоказательно.
  • Проблема подглядывания. Частично о ней мы уже упоминали выше. В данном случае проблема заключается в том, что p-value может как расти, так и опускаться ниже нужного уровня значимости в процессе тестирования. Эти колебания случайны, поэтому вывод о значимости для статистики рискует быть ошибочным, если делать его до завершения эксперимента.
  • Непостоянство данных. Параметры сайтов нестабильны, они могут меняться в зависимости от ряда факторов, поэтому и итоги A/B-тестирования тоже могут отличаться. Вот основные факторы влияния:
    • сезон или время года;
    • праздничные дни, период каникул, отпусков;
    • день недели;
    • появление в СМИ статей о компании;
    • изменения в рекламе;
    • изменения в SEO-продвижении;
    • распространяемое мнение о компании, слухи, отзывы.

    Чтобы сгладить последствия влияния внешних факторов, нужно взять за правило: регулярно проводить мониторинг корректировок и отслеживать закономерности, а также перепроверять то, что выдает А/В-тестирование.

    Как определить уровень значимости

    Чтобы в конце тестирования сделать правильные выводы, необходимо определить их уровень значимости (significance level). Он показывает, при каких условиях тот или иной вариант будет закономерным. Обычно достоверным считается показатель, полученный в пределах от 90 до 95%.

    Для проверки статистической значимости нужно:

    Для проверки статистической значимости нужно

    1. Провести эксперимент и собрать сведенья, чтобы сделать разные предположения.
    2. Сформулировать две гипотезы: нулевую и альтернативную. Нулевая гипотеза утверждает, что между сравниваемыми фактами нет связи, альтернативная – что связь существует.
    3. Если стоит задача доказать, что все факты идентичны, нужно рассчитать вероятность получения наблюдаемую или большую разницу между предположениями (p-value).
    4. Если p-value ниже порогового уровня, то нулевую гипотезу можно отвергнуть и утверждать о значительной разнице между сравниваемыми группами.
    5. Если p-value больше порога, то из двух гипотез исходная подтверждается, а альтернативная отвергается.

    Для расчета уровня значимости обычно используется калькулятор. Онлайн-сервис позволяет быстро выполнить расчет, не проводя сложных математических вычислений вручную.

    Пример расчета

    В конце A/B-теста двух страниц сайта были получены такие данные:

    • Вариант 1: 1500 новых посещений, из них конверсия – 3 человека;
    • Вариант 2: 1500 новых посетителей, из них конверсия – 12 человек.

    В калькулятор (calculator) вносим эти числа, чтобы узнать, являются ли они значимыми. При этом выбираем уровень достоверности 95% и смотрим отчет.

    Пример расчета статистической значимости

    Из вердикта видно, что рост конверсии на странице 2 с вероятностью 95% доказывает влияние внесенных правок на показатель и не является случайностью. Подобные примеры можно приводить бесконечно.

    Основные показатели

    • CR (conversion rate) – коэффициент конверсии. Показывает предполагаемое число конверсий на каждого посетителя в процентах. Рассчитывается по формуле: CR = (Конверсия / Трафик) × 100%
    • Uplift – повышение. Показывает относительный рост конверсии при сравнении двух экземпляров. Может принимать отрицательное значение, если эффективность исходной страницы выше, чем новой. Uplift = (CR Б / CR А) × 100%
    • P-value – вероятность получения случайных цифр. Для расчета этого показателя чаще всего используется онлайн-калькулятор.
    • Доля признака в генеральной совокупности, для которой определяется ошибка.
    • Ошибка выборки или размер доверительного интервала (confidence interval) – отклонение результатов, которые были получены в ходе исследования. Бывает систематическая и статическая.

    Статистические критерии, которые рассчитываются с применением калькуляторов

    Онлайн-калькуляторы позволяют рассчитывать множество статистических показателей, вот самые распространенные из них:

    • выбор статистического метода;
    • расчет относительных величин;
    • оценка значимости отличий между средними величинами по t-критерию Стьюдента;
    • оценка значимости изменений средних величин с помощью парного t-критерия Стьюдента;
    • анализ динамического ряда;
    • расчет демографических показателей;
    • прямой метод стандартизации;
    • определение относительного риска;
    • вычисление отношения шансов;
    • анализ четырехпольной таблицы;
    • расчет показателей вариационного ряда;
    • расчет критерия Манна-Уитни;
    • корреляционно-регрессионный анализ;
    • определение коэффициента корреляции Спирмена;
    • анализ произвольных сопряженных таблиц с помощью критерия хи-квадрат (х 2 ).

    Критерии оценки

    Критерий Стьюдента . Разработан для оценки различий между средними величинами двух распределенных по нормальному закону выборок. Благодаря широте применения может использоваться и для сравнения средних у связных и несвязных выборок, в т. ч. различающихся по величине.

    Критерий Стьюдента применяется при следующих условиях:

    • выборочные совокупности распределяются по нормальному закону;
    • измерение может проводиться в шкале отношений и интервалов.

    Автоматический расчет t-критерия осуществляется с помощью калькулятора. Для этого нужно:

    1. Определить тип выборочной совокупности: зависимые (связанные) или независимые (несвязанные).
    2. Ввести данные для первой и второй выборок, после чего запустить расчет.

    F-критерий Фишера . Применяется для проверки статистической значимости как отдельных коэффициентов уравнения регрессии, так и его целиком. Для расчета F-критерия в общем виде используется следующая формула:

    F = S 2 факт / S 2 ост, где:

    S 2 факт – факторная дисперсия;

    S 2 ост – остаточная дисперсия.

    Для полученного в ходе расчета значения F-критерия Фишера определяют статистическую значимость путем его сравнения с табличным (критическим) значением.

    Как пользоваться калькулятором

    Калькулятор статистической значимости позволяет выполнить вычисления в несколько шагов:

    Шаги вычисления статистической значимости

    1. Укажите данные выборки и количество конверсий для версии А.
    2. Введите цифры выборки и количества конверсий для версии В.
    3. Задайте достоверность, передвинув ползунок на отметку 95%.

    В калькуляторе варианты А и В – это просто сравниваемые гипотезы. Например, при А/В-тестировании это могут быть данные по исходной и измененной веб-страницам.

    Калькулятор автоматически определит результат по указанным данным и напишет, какой имеет более высокую достоверность.

    Как интерпретировать результаты

    Калькулятор способен выдавать три вариации ответов:

    • «победил вариант А» – означает, что итоги А-теста говорят о повышении целевых показателей после тестирования;
    • «победил вариант В» – это значит, что по итогам A/B-тестирования версия В показала улучшенные характеристики;
    • «между вариантами нет разницы» – полученные сведенья не являются статистически значимыми.

    Со статистической значимостью связаны следующие распространенные ошибки:

    1. Магия цифр – параметры являются доказательством того, что один вариант лучше другого.
      На самом деле А/Б-тест не позволяет доказать это, а отражает лишь тот факт, что в одной из версий целевые показатели оказываются более высокими.
    2. Вера в то, что одна версия превосходит другую.
      В действительности цифры демонстрируют исключительно вероятность того, что данные, полученные при A/B-тестировании, не случайны.
    3. Значимость мышления.
      Речь не идет о том, что пользователи предпочитают одну страницу другой. Оценивается влияние внесенных изменений на то, как ведут себя пользователей.

    Определение размера выборки

    Выборка – это количество респондентов, которые приняли участие в исследовании. В случае с А/Б-тестированием – посетили обе веб-страницы. Принято считать, что чем больше выборка, тем точнее результат.

    Расчет размера выборки

    Для расчета размера выборочной совокупности удобно пользоваться онлайн-калькулятором. Чтобы быстро посчитать это значение:

    1. Укажите базовую конверсию сайта.
    2. Задайте минимальный видимый эффект (предполагаемый прирост конверсии).
    3. Передвиньте ползунок на нужный уровень достоверности (рекомендуемое значение – 95%).
    4. Задайте статистическую мощность теста.
    5. Выберите нужный способ изменения – абсолютная или относительная величина.

    В качестве ответа калькулятор покажет расчетное число уникальных посетителей для каждой тестируемой версии.

    Часто задаваемые вопросы

    Это позволит определить, можно ли доверять цифрам, которые были получены в ходе проведения A/B-тестирования.

    Он оценивается с помощью модели расчет, основанной на общей посещаемости сайта. Если на ресурс приходит меньше 10 тыс. посетителей в месяц, конверсия должна быть более 25%. Если ежемесячное число посетителей достигает 100 тыс. человек, конверсия должна превышать 9%. При трафике до 1 млн пользователей достаточно иметь конверсию в пределах от 2 до 9%.

    Вот несколько советов по повышению статистической значимости A/B-тестов:

    • получите более согласованные величины с минимальными отклонениями;
    • увеличьте объем выборки и длительность тестирования;
    • обеспечьте рост конверсии при сравнении веб-страниц.

    Упрощенные калькуляторы применяются для облегчения и ускорения процесса вычисления. Мы предлагаем более расширенную версию для определения размера выборочной совокупности, которая нужна для получения статистически значимого итога эксперимента.

    Нашли ошибку в тексте? Выделите нужный фрагмент и нажмите ctrl + enter

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *