Тесты для долей: вопросы для собеседования (часть 4)
z-тест для пропорций, точный тест Фишера, сравнение конверсий — задачи, которые аналитик решает постоянно. На собеседовании дают две группы с разной конверсией и просят определить, значимо ли различие. Важно знать, когда нормальное приближение работает, а когда нужен точный тест.
Вопросы 16–20 из 20
16Какая формула корректно описывает стандартную ошибку доли для разницы двух независимых долей в unpooled виде?
A`SE = p1 - p2`
B`SE = sqrt(p*(1-p))`
C`SE = sqrt(p1*(1-p1)/n1 + p2*(1-p2)/n2)`
D`SE = (n1+n2)/2`
Ответ: Для разницы независимых долей дисперсии складываются, поэтому в `SE` появляется сумма двух слагаемых.
Каждая оценка доли имеет разброс порядка `p*(1-p)/n`, и для независимых групп дисперсия разницы равна сумме дисперсий. Поэтому `SE` для `p1 - p2` получается как корень из суммы `p1*(1-p1)/n1` и `p2*(1-p2)/n2`. В `z-test` под `H0` часто используют pooled версию, но сама логика сложения разбросов остается. Типичная ошибка — забыть про размер выборки и сравнивать доли как будто они точные.
17В A/B тесте разница конверсии составила +0.1 процентного пункта, при этом `p-value` оказался меньше 0.05 из-за огромной выборки. Какой вывод для продуктового решения наиболее корректен?
AНадо выкатывать, потому что `p-value < 0.05` всегда означает важный эффект
BНадо откатывать, потому что эффект слишком маленький и значит данных недостаточно
CНужно срочно пересчитать `z-test`, потому что маленький эффект не может быть значимым
DСтатистически эффект обнаружен, но нужно оценить практическую значимость и сравнить с порогом полезности, используя размер эффекта и `confidence interval`
Ответ: `p-value` говорит про обнаружимость, а решение требует оценки практического размера эффекта.
На больших выборках даже очень маленькие изменения доли становятся статистически значимыми. Поэтому важно смотреть на эффект в процентных пунктах, на `confidence interval` и на минимальный полезный эффект для бизнеса. Если +0.1 процентного пункта не окупает стоимость изменений, значимость не помогает. Типичная ошибка — принимать решение только по `p-value`, игнорируя масштаб влияния.
18Вы проверили разницу конверсии в 20 сегментах и выбрали те, где `p-value < 0.05`. В чем главный риск и что лучше сделать?
AРиск ложноположительных находок из-за множественных проверок; лучше заранее фиксировать сегменты или контролировать ошибку, например корректировать `alpha`
BРиска нет, потому что `p-value` уже учитывает число сегментов
CНужно заменить `z-test` на `correlation`, тогда риска не будет
DНужно смотреть только сегмент с самой большой разницей, остальные игнорировать
Ответ: При множественных проверках растет шанс случайных `p-value < alpha`, поэтому нужны правила контроля ошибок.
Если вы делаете много тестов, даже при отсутствии эффекта где-то может 'случайно' появиться значимость. Это приводит к ложным выводам на уровне сегментов и плохим продуктовым решениям. Практика — заранее определить список сегментов, фиксировать гипотезы и применять корректировки или подтверждающий эксперимент. Ошибка — выдавать любой найденный сегмент как доказанный эффект.
19В одной группе `конверсия` равна 0% (например, 0 успехов из 30). Что чаще всего является более аккуратным способом оценить неопределенность доли, чем полагаться только на нормальное приближение?
AСчитать `доля = 0` и считать, что неопределённости нет
BУвеличить `alpha` до 0.5
CИспользовать интервалы, основанные на `binomial`, например точный `confidence interval` для доли
DЗаменить тест долей на `t-test` по 0/1 данным
Ответ: При малых `n` и крайних долях (0% или 100%) полезны интервалы на основе `binomial`.
Нормальное приближение может давать плохие оценки на краях, потому что распределение доли сильно асимметрично. Интервалы, основанные на `binomial`, аккуратнее учитывают дискретность и дают более реалистичную неопределённость. Это важно для корректных выводов о том, насколько данные совместимы с ненулевой конверсией. Типичная ошибка — считать 0/30 как доказательство 'точно ноль'.
20Вы посчитали конверсию как долю успешных сессий среди всех сессий, но один пользователь может создавать много сессий. Какой главный риск для теста долей?
AРиск отсутствует, потому что больше сессий означает больше точности
BНарушается независимость `trial`, и стандартная ошибка доли может быть занижена; лучше агрегировать до `user_id` или учитывать кластеризацию
CЭто автоматически делает `p-value` равным 0
DНужно просто поменять `z-test` на точный `binomial` тест, и все исправится
Ответ: Если `trial` не независимы, то оценка стандартной ошибки доли и `p-value` могут быть неверными.
Много сессий одного пользователя обычно коррелируют, поэтому считать их независимыми `trial` опасно. Это часто приводит к завышенной уверенности: `SE` становится слишком маленькой, и тест чаще показывает значимость. Типичный выход — считать долю на уровне пользователя или использовать методы, учитывающие зависимость внутри пользователя. Ошибка — игнорировать единицу анализа и радоваться 'очень значимому' результату.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram