Continual learning на собеседовании Data Scientist
Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.
Содержание:
Зачем continual learning
Real world — distribution меняется. Models должны update без losing previous knowledge.
Train new task → старые tasks degrade. Это catastrophic forgetting.
Catastrophic forgetting
NN trained sequentially — weights overwritten для new task. Previous task accuracy crashes.
Why. Gradient descent на new data → old optima abandoned.
Replay-based methods
Experience replay. Store some old samples → mix с new during training.
Buffer = subset old data.
Each batch: 50% new + 50% buffer.Pros: simple, effective. Cons: memory cost.
Generative replay. Train generator (VAE / GAN) на old data. Sample synthetic для replay.
Regularization-based (EWC)
Elastic Weight Consolidation. Penalize changes к weights важных для old tasks.
L = L_new + λ · Σ F_i (θ_i - θ_i*)²F_i — Fisher information (importance weight i для old tasks). High F → big penalty за change.
Pros: no replay buffer.
Cons: approximation rough. Limited tasks count.
Architectural methods
Add new parameters для new tasks без changing old.
Progressive networks. New column per task, old frozen.
LoRA-like adapters. Small adapter per task. Backbone frozen.
Pros: zero forgetting.
Cons: parameters grow с N tasks.
Связанные темы
- Online learning для DS
- Domain adaptation для DS
- Curriculum learning для DS
- Pruning и distillation для DS
- Подготовка к собесу Data Scientist
FAQ
Это официальная информация?
Нет. Статья основана на работах Kirkpatrick 2017 (EWC), McCloskey 1989 (catastrophic forgetting).
Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.