word2vec vs GloVe vs FastText на собеседовании Data Scientist
Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.
Содержание:
Зачем разбирать на собесе
Static word embeddings — фундамент NLP до Transformer'а. На собесе DS: «отличие skip-gram и CBOW», «зачем negative sampling», «когда FastText».
word2vec: Skip-gram и CBOW
word2vec (Mikolov 2013). Учит словам embeddings так, чтобы соседствующие слова в тексте были близкими в embedding space.
Skip-gram. Дано слово — предсказать соседей.
"The cat sits on the mat"
↑
Input: "sits"
Predict context: "cat", "on" (in window)CBOW (Continuous Bag of Words). Дан контекст — предсказать центральное слово.
Input context: "cat", "on"
Predict: "sits"Negative sampling. Soft-max по vocabulary дорог. Заменяется на бинарную классификацию: positive (true context) vs k negatives (random words). Cheap и эффективно.
Свойства:
- 100-300-dim embeddings.
- Семантика:
king - man + woman ≈ queen. - Учится на больших корпусах за часы / дни.
GloVe
Global Vectors (Pennington 2014). Альтернатива word2vec.
Идея. Учить embeddings на основе глобальной co-occurrence матрицы (сколько раз word_i встречается рядом с word_j во всём корпусе).
loss = Σ f(X_ij) (w_i^T w_j + b_i + b_j - log(X_ij))²X_ij — count co-occurrence. f(.) — weighting function (даёт меньше веса очень частым).
Свойства:
- Работает на статистике corpus, не итерирует sliding window.
- Может быть быстрее в обучении.
- Качество близко к word2vec.
FastText
FastText (Facebook 2016). Добавили subword information.
Идея. Слово = сумма embeddings character n-grams.
"where" → ["<wh", "whe", "her", "ere", "re>", "<where>"]< и > — boundary tokens.
Преимущества:
- OOV (out-of-vocabulary) — может построить embedding для unseen слов через subwords.
- Морфологически богатые языки (русский, финский) — выигрыш от subwords.
- Хорошо для опечаток.
Минусы:
- Чуть больше памяти (хранение subword embeddings).
- Чуть медленнее.
В русскоязычных задачах FastText часто превосходит word2vec.
Сравнение
| word2vec | GloVe | FastText | |
|---|---|---|---|
| Метод | Predictive (skip-gram) | Count-based | word2vec + subwords |
| OOV handling | Нет | Нет | Да |
| Морфология | Слабо | Слабо | Хорошо |
| Размер модели | Средний | Средний | Больше |
| Качество (English) | Хорошо | Хорошо | Чуть лучше |
| Качество (Russian) | OK | OK | Лучше |
Применение в 2026
Где static embeddings всё ещё используются:
- Lightweight production NLP (без GPU).
- Поисковые engines в low-latency сценариях.
- Recsys baselines.
- Feature extraction для tabular ML.
Где переходят к contextual:
- BERT / RoBERTa — context-dependent embeddings.
- Sentence-Transformers — для similarity.
- LLM-based embeddings (e5, bge, OpenAI).
Static embeddings — heritage. Современный default — Transformer-based contextual embeddings, особенно sentence-transformers.
Частые ошибки
Использовать word2vec для sentence similarity. Average word embeddings — слабо. Использовать sentence-transformers или CLS-based BERT.
Не делать lowercase / normalize. "Cat" и "cat" — разные embeddings.
Маленький corpus. Word embeddings нужно учить на миллионах токенов. Маленький corpus → плохие embeddings.
Игнорировать pre-trained. Свои тренировать редко выгодно — есть готовые на огромных корпусах (Glove, FastText, Yandex SBerquAD).
Применять английские embeddings к русскому. Просто не работает. Используй ru-специальные.
Связанные темы
- Embeddings на собесе DS
- BERT vs GPT на собесе DS
- Cosine vs Euclidean для DS
- NLP на собесе DS
- Подготовка к собесу Data Scientist
FAQ
word2vec в 2026 — устарел?
Для production NLP — да, BERT / sentence-transformers лучше. Для quick baselines, lightweight tasks — всё ещё актуально.
Можно ли использовать word2vec features в gradient boosting?
Да. Аverage word embeddings → 100-300 фич → input в LightGBM. Часто helpful baseline для текстовых tabular задач.
Это официальная информация?
Нет. Статья основана на оригинальных работах (Mikolov 2013, Pennington 2014, Bojanowski 2016).
Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.