Ошибка выжившего — систематическая ловушка в аналитике

Что такое ошибка выжившего

Ошибка выжившего (survivorship bias) — систематическая ошибка, при которой выводы делаются только на основе «выживших» — тех, кто прошёл через фильтр отбора. Те, кто не прошёл (ушёл, обанкротился, удалил приложение), выпадают из анализа. Результат — искажённая картина реальности.

Это одна из самых коварных ловушек в аналитике. Вы не видите ошибки, потому что не видите данных, которых нет. На собеседованиях тему спрашивают в контексте интерпретации данных и проектирования исследований — и это напрямую связано с пониманием корреляции и причинности.

Классические примеры

Самолёты Второй мировой

Самый известный пример. Во время Второй мировой инженеры изучали повреждения вернувшихся бомбардировщиков и хотели укрепить самые пробитые участки. Математик Абрахам Вальд указал на ошибку: дырки показывают, где самолёт может получить повреждения и выжить. Укреплять нужно участки без повреждений — именно туда попадали самолёты, которые не вернулись.

Это чистая ошибка выжившего: анализировали только выживших (вернувшиеся самолёты), игнорируя погибших (сбитые).

Успешные стартапы

«Билл Гейтс бросил университет и стал миллиардером, значит, образование не нужно.» Но мы не видим тысячи людей, которые тоже бросили учёбу и не стали миллиардерами. Они не попали в выборку — о них не пишут книги и не снимают фильмы.

То же касается «рецептов успеха» из бизнес-книг: анализируют только выживших — успешные компании. Компании с теми же практиками, но провалившиеся, в выборку не входят.

Хедж-фонды

Базы данных доходности хедж-фондов систематически завышены. Фонды, которые показали плохую доходность и закрылись, исчезают из базы. Остаются только «выжившие» — с хорошей доходностью. Исследования показывают, что survivorship bias завышает среднюю доходность фондов на 1-3% годовых.

Музыка и кино

«Раньше музыка была лучше.» Нет — просто плохая музыка 80-х забылась, а хорошая осталась. Это ошибка выжившего во времени: мы сравниваем лучшее из прошлого со всем из настоящего.

Как ошибка выжившего проявляется в аналитике

Анализ только активных пользователей

Вы анализируете поведение пользователей за последний месяц и видите: средняя частота сессий — 4 раза в неделю, 70% используют фичу X, средний NPS — 8.5. Продукт отличный? Возможно. Но вы смотрите только на тех, кто остался. Пользователи, которые ушли (и, вероятно, были недовольны), в выборке отсутствуют.

Это критично для сегментации: если сегментировать только активных, вы упустите паттерны, которые приводят к оттоку.

Анализ успешных фичей

«Пользователи, которые используют фичу X, имеют retention на 40% выше.» Вывод — развивать фичу X? Не факт. Возможно, фичу X используют только продвинутые пользователи, которые и без неё остались бы. А пользователи, которые не нашли фичу X и ушли, в анализ не попали.

Единственный способ проверить — A/B-тест: рандомно показать фичу одной группе и сравнить retention.

Опросы удовлетворённости

NPS-опрос через полгода после регистрации. Кто ответит? Те, кто остался. Недовольные ушли задолго до опроса. Результат: завышенный NPS и ложное ощущение, что всё хорошо.

Анализ конверсии

«Средний чек пользователей, которые купили подписку — 500 руб.» Но это только купившие. Сколько пользователей видели экран оплаты и ушли? Какой был бы «средний чек», если включить нули? Анализ без учёта тех, кто не конвертировался, искажает понимание ценовой чувствительности.

Как обнаружить ошибку выжившего

1. Спросите: «Кого я не вижу?» Для любой выборки задайте вопрос: есть ли группа, которая систематически выпала? Ушедшие пользователи, закрытые компании, неотвеченные опросы.

2. Включите «мёртвых» в анализ. Добавьте ушедших пользователей. Посчитайте метрики с учётом нулей. Если вы считаете средний чек — включите пользователей с чеком 0 (не купивших).

3. Сравните «выживших» и «невыживших». Постройте две когорты: те, кто остался через 30 дней, и те, кто ушёл. Чем они отличались до ухода? Это покажет реальные предикторы оттока, а не артефакт выживших.

4. Проверьте временное окно. Если анализируете данные за «последний месяц» — помните, что это snapshot выживших. Лучше использовать когортный анализ — он по определению включает всех, кто был в когорте, включая ушедших.

5. Будьте скептичны к «лучшим практикам». Когда читаете исследование «успешные компании делают X» — спрашивайте: а сколько компаний делали X и провалились? Если этих данных нет — выводам доверять нельзя.

Что с этим делать

В продуктовой аналитике: всегда включайте в анализ пользователей, которые ушли. Retention считайте от всей когорты, а не от «активных». Метрики engagement — с учётом нулей (пользователей без сессий).

В A/B-тестах: не анализируйте только «тех, кто дошёл до шага 3». Это пост-рандомизационный фильтр, который убивает рандомизацию. Если пользователь попал в группу — он в анализе, даже если ничего не сделал.

В исследованиях рынка: включайте закрытые бизнесы, провалившиеся продукты, покинувших рынок игроков. Без них анализ конкурентов — это анализ выживших.

В ML-моделях: при обучении модели предсказания оттока убедитесь, что в обучающей выборке есть и ушедшие, и оставшиеся. Модель, обученная только на активных пользователях, бесполезна.

Ошибка выжившего тесно связана с парадоксом Симпсона — обе ловушки возникают из-за неполного или неправильно агрегированного набора данных.

Вопросы с собеседований

Что такое survivorship bias? Приведите пример из аналитики. — Систематическая ошибка, при которой выводы делаются только на основе «выживших» объектов, а выбывшие игнорируются. Пример: анализ поведения только активных пользователей завышает метрики engagement и NPS. Ушедшие пользователи, вероятно недовольные, не попадают в выборку.

Как ошибка выжившего может исказить результаты A/B-теста? — Если анализировать только пользователей, которые «дошли» до определённого шага (например, открыли экран оплаты), мы исключаем тех, кто отвалился раньше. Это пост-рандомизационный фильтр, который нарушает сопоставимость групп. Правило: анализируем всех, кто попал в группу, без исключений.

Вы видите, что средний retention активных пользователей — 85%. Это хорошо? — Сама по себе цифра ничего не значит — это retention среди тех, кто уже активен, то есть среди выживших. Нужно считать retention от всей когорты: сколько из всех зарегистрировавшихся вернулись на D7, D14, D30. Это покажет реальную картину удержания.

Как бороться с ошибкой выжившего в аналитике? — Включать в анализ «невыживших»: ушедших пользователей, неответивших на опрос, неконвертировавшихся. Использовать когортный анализ вместо snapshot-метрик. Всегда задавать вопрос: «Кого я не вижу в этих данных?»

Приведите пример ошибки выжившего за пределами аналитики. — Самолёты Вальда: укреплять нужно участки без повреждений, потому что самолёты с повреждениями в этих местах не вернулись. Хедж-фонды: закрытые фонды исчезают из баз, завышая среднюю доходность. Книги про успех: анализируют только победителей, игнорируя тех, кто делал то же самое и проиграл.

FAQ

Ошибка выжившего — это то же самое, что selection bias?

Ошибка выжившего — частный случай selection bias (ошибки отбора). Selection bias — это любое систематическое искажение из-за неслучайного отбора в выборку. Survivorship bias конкретно про то, что «невыжившие» (ушедшие, провалившиеся, закрывшиеся) выпадают из анализа.

Как учитывать ошибку выжившего при анализе конкурентов?

Помнить, что анализ рынка показывает только тех, кто выжил. Компании с неудачной стратегией уже закрылись и невидимы. Ищите данные о закрытых проектах в вашей нише: Crunchbase, новостные архивы, кладбища стартапов. Их опыт часто информативнее, чем опыт выживших.

Можно ли полностью устранить ошибку выжившего?

Полностью — нет, потому что данные о «невыживших» часто недоступны. Но можно минимизировать: собирать данные проспективно (до того, как часть объектов выбывает), использовать когортный подход, включать в анализ все записи с момента регистрации. Осознание проблемы — уже половина решения.


Потренируйте вопросы по аналитике — откройте тренажёр. 1500+ вопросов для собеседования аналитика. Бесплатно.