Continual learning на собеседовании Data Scientist

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

Зачем continual learning

Real world — distribution меняется. Models должны update без losing previous knowledge.

Train new task → старые tasks degrade. Это catastrophic forgetting.

Catastrophic forgetting

NN trained sequentially — weights overwritten для new task. Previous task accuracy crashes.

Why. Gradient descent на new data → old optima abandoned.

Replay-based methods

Experience replay. Store some old samples → mix с new during training.

Buffer = subset old data.
Each batch: 50% new + 50% buffer.

Pros: simple, effective. Cons: memory cost.

Generative replay. Train generator (VAE / GAN) на old data. Sample synthetic для replay.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Regularization-based (EWC)

Elastic Weight Consolidation. Penalize changes к weights важных для old tasks.

L = L_new + λ · Σ F_i (θ_i - θ_i*)²

F_i — Fisher information (importance weight i для old tasks). High F → big penalty за change.

Pros: no replay buffer.

Cons: approximation rough. Limited tasks count.

Architectural methods

Add new parameters для new tasks без changing old.

Progressive networks. New column per task, old frozen.

LoRA-like adapters. Small adapter per task. Backbone frozen.

Pros: zero forgetting.

Cons: parameters grow с N tasks.

Связанные темы

FAQ

Это официальная информация?

Нет. Статья основана на работах Kirkpatrick 2017 (EWC), McCloskey 1989 (catastrophic forgetting).


Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.