word2vec vs GloVe vs FastText на собеседовании Data Scientist

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

Зачем разбирать на собесе

Static word embeddings — фундамент NLP до Transformer'а. На собесе DS: «отличие skip-gram и CBOW», «зачем negative sampling», «когда FastText».

word2vec: Skip-gram и CBOW

word2vec (Mikolov 2013). Учит словам embeddings так, чтобы соседствующие слова в тексте были близкими в embedding space.

Skip-gram. Дано слово — предсказать соседей.

"The cat sits on the mat"
                ↑
Input: "sits"
Predict context: "cat", "on" (in window)

CBOW (Continuous Bag of Words). Дан контекст — предсказать центральное слово.

Input context: "cat", "on"
Predict: "sits"

Negative sampling. Soft-max по vocabulary дорог. Заменяется на бинарную классификацию: positive (true context) vs k negatives (random words). Cheap и эффективно.

Свойства:

  • 100-300-dim embeddings.
  • Семантика: king - man + woman ≈ queen.
  • Учится на больших корпусах за часы / дни.

GloVe

Global Vectors (Pennington 2014). Альтернатива word2vec.

Идея. Учить embeddings на основе глобальной co-occurrence матрицы (сколько раз word_i встречается рядом с word_j во всём корпусе).

loss = Σ f(X_ij) (w_i^T w_j + b_i + b_j - log(X_ij))²

X_ij — count co-occurrence. f(.) — weighting function (даёт меньше веса очень частым).

Свойства:

  • Работает на статистике corpus, не итерирует sliding window.
  • Может быть быстрее в обучении.
  • Качество близко к word2vec.

FastText

FastText (Facebook 2016). Добавили subword information.

Идея. Слово = сумма embeddings character n-grams.

"where" → ["<wh", "whe", "her", "ere", "re>", "<where>"]

< и > — boundary tokens.

Преимущества:

  • OOV (out-of-vocabulary) — может построить embedding для unseen слов через subwords.
  • Морфологически богатые языки (русский, финский) — выигрыш от subwords.
  • Хорошо для опечаток.

Минусы:

  • Чуть больше памяти (хранение subword embeddings).
  • Чуть медленнее.

В русскоязычных задачах FastText часто превосходит word2vec.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Сравнение

word2vec GloVe FastText
Метод Predictive (skip-gram) Count-based word2vec + subwords
OOV handling Нет Нет Да
Морфология Слабо Слабо Хорошо
Размер модели Средний Средний Больше
Качество (English) Хорошо Хорошо Чуть лучше
Качество (Russian) OK OK Лучше

Применение в 2026

Где static embeddings всё ещё используются:

  • Lightweight production NLP (без GPU).
  • Поисковые engines в low-latency сценариях.
  • Recsys baselines.
  • Feature extraction для tabular ML.

Где переходят к contextual:

  • BERT / RoBERTa — context-dependent embeddings.
  • Sentence-Transformers — для similarity.
  • LLM-based embeddings (e5, bge, OpenAI).

Static embeddings — heritage. Современный default — Transformer-based contextual embeddings, особенно sentence-transformers.

Частые ошибки

Использовать word2vec для sentence similarity. Average word embeddings — слабо. Использовать sentence-transformers или CLS-based BERT.

Не делать lowercase / normalize. "Cat" и "cat" — разные embeddings.

Маленький corpus. Word embeddings нужно учить на миллионах токенов. Маленький corpus → плохие embeddings.

Игнорировать pre-trained. Свои тренировать редко выгодно — есть готовые на огромных корпусах (Glove, FastText, Yandex SBerquAD).

Применять английские embeddings к русскому. Просто не работает. Используй ru-специальные.

Связанные темы

FAQ

word2vec в 2026 — устарел?

Для production NLP — да, BERT / sentence-transformers лучше. Для quick baselines, lightweight tasks — всё ещё актуально.

Можно ли использовать word2vec features в gradient boosting?

Да. Аverage word embeddings → 100-300 фич → input в LightGBM. Часто helpful baseline для текстовых tabular задач.

Это официальная информация?

Нет. Статья основана на оригинальных работах (Mikolov 2013, Pennington 2014, Bojanowski 2016).


Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.