Demand forecasting ML system design на собеседовании Data Scientist

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

Постановка задачи

Predict demand для каждого SKU × store на N days вперёд.

Constraints:

  • 100k SKU × 1000 stores = 100M time series.
  • Daily / weekly granularity.
  • 7-90 day horizon.

Подходы

Per-series. ARIMA / Prophet for каждой series.

  • Pros: simple.
  • Cons: slow на 100M series, no cross-series learning.

Global model (LightGBM / DL). One model, lag features.

  • Pros: cross-series learning, scales.
  • Cons: harder customize per-series.

DeepAR, Temporal Fusion Transformer. RNN / Transformer для multiple series.

  • Pros: probabilistic, рicher.
  • Cons: complex training.

В практике: LightGBM dominates production. DL — для огромных датасетов / specific scenarios.

Hierarchical forecasting

Total: company-wide.
Region: country.
Store: individual.
SKU: product.

Forecasts на разных уровнях должны agree.

Top-down. Forecast aggregate, distribute.

Bottom-up. Forecast per SKU, sum up.

Reconciliation methods. MinT, OLS — combine multiple level forecasts.

Intermittent demand

Many SKUs sell редко (1-2 unit/year). Standard forecasting fails.

Methods:

  • Croston's method.
  • ZIP (Zero-Inflated Poisson).
  • Treat separately from regular demand.
Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Features

Calendar. Day of week, month, holiday, week of year.

Lags. y_{t-1}, y_{t-7}, y_{t-30}.

Rolling stats. mean / std last 7 / 30 / 90 days.

Categorical. Product category, store region.

Promotion. Active discount, planned campaigns.

External. Weather, COVID-style events.

Cross-effects. Cannibalization (similar products), substitution.

Метрики

MAPE (Mean Absolute Percentage Error). Standard. Issues с zeros.

WMAPE. Weighted by actual.

RMSE. Penalize big errors.

Quantile loss. Для probabilistic forecasts.

Business: stockouts (under-forecast), overstock (over-forecast). $ impact.

Связанные темы

FAQ

Это официальная информация?

Нет. Статья основана на индустриальных forecasting practices (Walmart, Amazon).


Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.