Ошибка выжившего простыми словами

Карьерник — квиз-тренажёр в Telegram с 1500+ вопросами для собесов аналитика. SQL, Python, A/B, метрики. Бесплатно.

Короткое объяснение

Ошибка выжившего (survivorship bias) — это когда вы анализируете только тех, кто «дожил» до текущего момента, и забываете о тех, кто «отвалился» на пути.

В результате статистика выглядит лучше или искаженно по сравнению с реальностью.

Классический пример — самолёты Второй мировой

Военные хотели укрепить бомбардировщики. Смотрели на вернувшиеся с вылетов — и хотели усиливать те места, где больше всего пробоин.

Статистик Абрахам Вальд возразил: вы смотрите только на вернувшиеся самолёты. Те, что не вернулись, были подбиты в ДРУГИЕ места. Нужно укреплять места, где у «выживших» как раз меньше пробоин — именно там критические попадания приводили к катастрофе.

Это survivorship bias: мы видим только «выживших».

Примеры из аналитики

1. «Успешные стартапы делают X»

Разбор успешных компаний → выводы типа «надо просыпаться в 5 утра / делать pivot / брать деньги у инвесторов».

Проблема: провалившиеся стартапы тоже так делали. Просто про них не пишут в журнале.

2. Исследование retention только по активным

-- считаем средний retention
SELECT AVG(days_since_signup) FROM users
WHERE active_last_30_days = TRUE

Проблема: те, кто отвалился, не попали в выборку. Retention будет выглядеть лучше реального.

3. LTV по платящим

«Средний LTV нашего клиента — 15 000 ₽».

Проблема: считали только по тем, кто всё ещё платит. Те, кто ушёл после первого платежа в 500 ₽, не попали в выборку.

4. Анализ только по успешным A/B-тестам

«Наши 10 последних A/B-тестов подняли метрику».

Проблема: провальные тесты не дошли до этого списка (fail silently). Публикационный biasbias.

5. Старые компании как образец

«Apple, Amazon, Google — вот как надо». За каждым выжившим — сотни похожих, но провалившихся.

6. «Большинство клиентов довольны»

Опрос среди текущих клиентов. Недовольные уже ушли.

Типичные симптомы

  • Анализ только активных пользователей
  • Выводы по успешным кейсам без анализа провалов
  • Retention / LTV без учёта churn-а
  • Survivorship в когорте: берём только тех, кто «дошёл до конца»

Как избежать

1. Явно включать потерянных

-- правильно: смотрим на ВСЮ когорту, включая ушедших
WITH signup_cohort AS (
    SELECT user_id FROM users WHERE signup_at > '2026-01-01'
)
SELECT AVG(active) FROM (
    SELECT
        s.user_id,
        CASE WHEN e.user_id IS NOT NULL THEN 1 ELSE 0 END AS active
    FROM signup_cohort s
    LEFT JOIN events e ON e.user_id = s.user_id
        AND e.event_at >= NOW() - INTERVAL '30 days'
) t;

LEFT JOIN + COALESCE спасают от survivorship.

2. Считать retention от исходной когорты

-- неверно: среди активных
SELECT AVG(days) FROM active_users;

-- верно: D7 retention = активных на день 7 / всех зарегистрировавшихся
SELECT
    COUNT(DISTINCT CASE WHEN e.day_since_signup = 7 THEN u.user_id END)::FLOAT
    / COUNT(DISTINCT u.user_id) AS d7_retention
FROM signup_cohort u
LEFT JOIN events e ON ...

3. Анализировать неудачи

Разбирайте не только «топ-клиентов», но и тех, кто ушёл. Что у них было общего? Это инсайт, а не топ-клиенты.

4. Включать expired / churned данные

В LTV — revenue до churn, не «пока платят».

На собеседовании

Классический вопрос: «Что не так с утверждением X?»

Примеры:

  • «80% миллионеров водят Toyota» → а сколько людей в Toyota НЕ миллионеры?
  • «Средний retention нашего продукта 4 месяца» → как считали? Только по активным?
  • «У наших клиентов самый высокий CSAT» → опросили довольных?

Всегда спрашивайте: «А кого не включили в выборку?»

Связанные biases

Selection bias

Выборка непредставительная. Survivorship — частный случай.

Non-response bias

Часть респондентов не ответили, и они систематически отличаются от ответивших.

Publication bias

Публикуются только положительные результаты. Провальные исследования никто не знает.

Confirmation bias

Ищем то, что подтверждает гипотезу, игнорируем противоречащее.

Частые ошибки

Ошибка 1. «У нас только довольные клиенты»

Недовольные просто ушли. Спросите у ex-клиентов.

Ошибка 2. «Наши опросы показывают 90% лояльности»

Опрашиваете активную базу. Отвалившиеся не отвечают.

Ошибка 3. «В тесте не было проблем»

A/B-тесты, которые показали плохой результат, часто не досчитываются.

Ошибка 4. Бенчмарки «успешных» компаний

На каждую Apple — сотни провалившихся похожих.

Связанные темы

FAQ

Это только про бизнес?

Нет. Survivorship bias есть в медицине (только выжившие пациенты), финансах (индексы считаются по существующим компаниям), образовании (отзывы выпускников, а не отчисленных).

Как быстро проверить на survivorship?

Спросите: «Все ли объекты входят в анализ, включая "потерянные"?»

Это то же, что selection bias?

Survivorship — частный случай selection bias, когда отбор идёт по «выживанию».

Как объяснить на собесе?

Начните с примера самолётов Вальда. Потом — из вашего продукта.


Тренируйте статистику — откройте тренажёр с 1500+ вопросами для собесов.