Question 1

Что делает оператор DISTINCT?

Accepted Answer

DISTINCT убирает дубликаты из результата.

Question 2

Что делает HAVING?

Accepted Answer

HAVING фильтрует уже агрегированные группы.

Question 3

В таблице users есть колонка middle_name, в которой часто хранится NULL. Что вернёт выражение COUNT(middle_name)?

Accepted Answer

COUNT(колонка) считает только не-NULL значения.

Question 4

Есть словарь d = {"country": "RU"}. Нужно получить значение по ключу "city", но если ключа нет — вернуть строку "unknown" без исключения. Что правильно?

Accepted Answer

.get() возвращает значение по ключу или значение по умолчанию и не выбрасывает KeyError.

Question 5

В логах есть список user_ids с повторениями. Как получить количество уникальных пользователей?

Accepted Answer

set хранит только уникальные элементы, поэтому len(set(user_ids)) даёт число уникальных значений.

Question 6

Что произойдёт при выполнении кода t = (1, 2); t[0] = 9?

Accepted Answer

Элементы tuple нельзя менять по индексу: попытка присваивания приводит к TypeError.

Question 7

Вы тестируете новый текст кнопки оплаты. Что должно быть верно для корректного сравнения control и treatment?

Accepted Answer

В хорошем эксперименте control и treatment должны отличаться только тестируемым фактором.

Question 8

Как обычно определяют группу treatment в A/B test?

Accepted Answer

treatment — это вариант, в который внесли тестируемое изменение.

Question 9

Какая из метрик является ratio metric?

Accepted Answer

ratio metric — это отношение двух величин, например кликов к показам.

Question 10

Какая формулировка лучше всего соответствует проверяемой hypothesis для A/B test?

Accepted Answer

Хорошая hypothesis связывает изменение с ожидаемым эффектом и явно называет primary metric и guardrail metric.

Question 11

Что в A/B test обычно означает разделение на control и treatment?

Accepted Answer

control/treatment — это два варианта опыта, которые сравнивают при случайном распределении пользователей.

Question 12

Вы тестируете новую страницу товара; цель — увеличить покупки. Какая метрика наиболее логична как primary metric для решения о запуске?

Accepted Answer

primary metric должна напрямую отражать цель эксперимента, а не промежуточные действия.

Question 13

У вас датасет с полями user_id, device (iOS/Android) и converted (да/нет). Какую таблицу сопряжённости вы построите перед chi-square тестом независимости?

Accepted Answer

Для chi-square нужна таблица сопряжённости с абсолютными счетчиками по двум категориальным признакам.

Question 14

Какой смысл у H0 в chi-square тесте независимости для таблицы сопряжённости?

Accepted Answer

В chi-square тесте независимости H0 формулируется как независимость категорий.

Question 15

В таблице сопряжённости для control/treatment и исхода (купил/не купил) в ячейке (treatment, купил) стоит число 250. Что это означает?

Accepted Answer

Ячейка таблица сопряженности хранит count наблюдений, попавших в обе категории одновременно.

Question 16

Пусть A — мошенничество, B — сработал алерт. Что в этой постановке означает false positive?

Accepted Answer

false positive — это срабатывание на отсутствие события, то есть B при not A.

Question 17

Аналитик хочет ответить на вопрос: среди пользователей, которые получили пуш (событие B), какая доля совершила покупку (событие A). Какая вероятность соответствует этому вопросу?

Accepted Answer

Вопрос «какова доля A среди тех, у кого выполнено B» соответствует P(A|B).

Question 18

Пусть A — болезнь, B — положительный тест. Что означает false negative (ложноотрицательный результат)?

Accepted Answer

false negative (ложноотрицательный результат) — это пропуск события, то есть not B при A.

Question 19

В сегмент нужно включить пользователей, у которых активен хотя бы один из флагов: is_student = 1 или has_coupon = 1. Какое условие соответствует формулировке «хотя бы один»?

Accepted Answer

Фраза «хотя бы один» соответствует логическому OR между условиями.

Question 20

Какое условие является always false для флага is_paying, который принимает только 0 или 1?

Accepted Answer

Требование is_paying = 1 AND is_paying = 0 является противоречием и потому always false.

Question 21

Условие в фильтре записали как NOT (NOT (is_test_user = 1)). Какое более простое условие ему эквивалентно?

Accepted Answer

Двойное отрицание NOT (NOT X) эквивалентно X.

Question 22

Нужно показать ранжирование 15 категорий по выручке на одном bar chart. Какой приём сильнее всего улучшит читаемость?

Accepted Answer

Для ранжирования ключевой приём — sorting по величине.

Question 23

Вы сравниваете категории на bar chart в абсолютных значениях. Какое правило про baseline обычно верно?

Accepted Answer

В bar chart длина читается от baseline, обычно от 0.

Question 24

У вас 25 категорий со схожими значениями, и важно аккуратно сравнить небольшие различия без тяжёлых столбцов. Что лучше выбрать?

Accepted Answer

dot plot часто уменьшает визуальный шум при плотном ранжировании.

1500+ вопросов для собеседования
в аналитику

SQL

Python

A/B-тесты

Продукт

Статистика

Вероятности

Логика

Визуализация

Все 1700+ вопросов с ответами

Готов проверить себя по-настоящему?

1500+ вопросов для собеседованияв аналитику

SQL