Few-shot learning на собеседовании Data Scientist
Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.
Содержание:
Зачем разбирать на собесе
Few-shot — современная способ работы с small data. На собесе DS: «отличие от zero-shot», «когда применять».
Few-shot prompting
LLM-based. Examples в prompt.
Classify sentiment.
Example 1: "Loved this movie!" → positive
Example 2: "Worst experience" → negative
Example 3: "Pretty average" → neutral
Now classify: "{user_input}"Pros: No training, immediate. Modern LLMs strong.
Cons: Cost per inference. Limited context для many examples. Не learns globally.
Prototypical networks
Learning compute embedding per class (prototype) в support set. Classify via nearest prototype.
Support set: {(image_dog_1, dog), (image_cat_1, cat), ...}
For each class:
prototype_class = mean(embeddings of support images for class)
For query:
predict_class = argmin distance(query_embedding, prototype_class)Подходит для image / few-shot tasks (1-5 примеров per class).
Fine-tuning small datasets
Pre-trained model + small labeled.
Strategies:
- Linear probe. Freeze backbone, train only classifier head.
- LoRA fine-tuning. Train small adapter matrices.
- Full fine-tune. Risky on small data — overfit.
LoRA — modern default. Few minutes, small RAM, good result.
In-context learning
Способность LLM «учиться» из examples в context window.
Prompt:
Translate English → Russian:
"Hello" → "Привет"
"Goodbye" → "До свидания"
"Thank you" → ?LLM выводит «Спасибо». Ничего не train — pattern recognized в context.
Свойства:
- Emergent — появляется на больших моделях.
- Zero gradient updates.
- Limited длиной context window.
Современные modeli (GPT-4, Claude 3, Gemini) — strong на in-context learning.
Связанные темы
- BERT vs GPT для DS
- Active learning для DS
- Self-supervised learning для DS
- AI agents для DS
- Подготовка к собесу Data Scientist
FAQ
Это официальная информация?
Нет. Статья основана на работах Snell 2017 (Prototypical), Brown 2020 (in-context).
Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.