Mixture of Experts на собеседовании Data Scientist

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

Идея MoE

Several «expert» sub-networks. Router decides what experts активируется per input.

Total params: 100B.
Per-token activation: only 10B (1-2 experts).

10× larger model для same compute.

Sparse activation

Каждый token activates малое число experts (typically 1-2 of 8).

Input → router → top-2 experts → weighted sum.

Other experts «sleep» для that token. Compute-efficient.

Router

Learnable gating function.

gate_scores = softmax(router(x))
top_k_experts = topk(gate_scores, k=2)
output = Σ gate_score[i] · expert[i](x)

Router trained вместе с experts.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Load balancing

Без regulation — router может collapse к few experts. Auxiliary loss penalize unbalanced routing.

L_balance = Σ (frac_to_expert_i · gate_to_expert_i)

Encourages even usage всех experts.

Mixtral, GPT-4 rumors

Mixtral 8x7B (Mistral AI 2023). 8 experts, 2 active per token. 47B total params, ~13B active. Quality close to 70B dense.

GPT-4 rumored to be MoE (1T total, 220B active per query). Unconfirmed.

DeepSeek-V3. Modern MoE с innovative routing.

Switch Transformer (Google 2021). Original at scale.

Trend — frontier LLMs MoE. Better tradeoff scale / cost.

Связанные темы

FAQ

Это официальная информация?

Нет. Статья основана на работах Shazeer 2017 (MoE), Fedus 2021 (Switch Transformer), Mistral docs.


Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.