7 мая 2026 г.·4 мин чтения

word2vec vs GloVe vs FastText на собеседовании Data Scientist

Готовься к собесу аналитика как в Duolingo

10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

Содержание:

Зачем разбирать на собесе
word2vec: Skip-gram и CBOW
GloVe
FastText
Сравнение
Применение в 2026
Частые ошибки
Связанные темы
FAQ

Зачем разбирать на собесе

Static word embeddings — фундамент NLP до Transformer'а. На собесе DS: «отличие skip-gram и CBOW», «зачем negative sampling», «когда FastText».

word2vec: Skip-gram и CBOW

word2vec (Mikolov 2013). Учит словам embeddings так, чтобы соседствующие слова в тексте были близкими в embedding space.

Skip-gram. Дано слово — предсказать соседей.

"The cat sits on the mat"
                ↑
Input: "sits"
Predict context: "cat", "on" (in window)

CBOW (Continuous Bag of Words). Дан контекст — предсказать центральное слово.

Input context: "cat", "on"
Predict: "sits"

Negative sampling. Soft-max по vocabulary дорог. Заменяется на бинарную классификацию: positive (true context) vs k negatives (random words). Cheap и эффективно.

Свойства:

100-300-dim embeddings.
Семантика: king - man + woman ≈ queen.
Учится на больших корпусах за часы / дни.

GloVe

Global Vectors (Pennington 2014). Альтернатива word2vec.

Идея. Учить embeddings на основе глобальной co-occurrence матрицы (сколько раз word_i встречается рядом с word_j во всём корпусе).

loss = Σ f(X_ij) (w_i^T w_j + b_i + b_j - log(X_ij))²

X_ij — count co-occurrence. f(.) — weighting function (даёт меньше веса очень частым).

Свойства:

Работает на статистике corpus, не итерирует sliding window.
Может быть быстрее в обучении.
Качество близко к word2vec.

FastText

FastText (Facebook 2016). Добавили subword information.

Идея. Слово = сумма embeddings character n-grams.

"where" → ["<wh", "whe", "her", "ere", "re>", "<where>"]

< и > — boundary tokens.

Преимущества:

OOV (out-of-vocabulary) — может построить embedding для unseen слов через subwords.
Морфологически богатые языки (русский, финский) — выигрыш от subwords.
Хорошо для опечаток.

Минусы:

Чуть больше памяти (хранение subword embeddings).
Чуть медленнее.

В русскоязычных задачах FastText часто превосходит word2vec.

Готовься к собесу аналитика как в Duolingo

10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram

Открыть Карьерник в Telegram

Сравнение

	word2vec	GloVe	FastText
Метод	Predictive (skip-gram)	Count-based	word2vec + subwords
OOV handling	Нет	Нет	Да
Морфология	Слабо	Слабо	Хорошо
Размер модели	Средний	Средний	Больше
Качество (English)	Хорошо	Хорошо	Чуть лучше
Качество (Russian)	OK	OK	Лучше

Применение в 2026

Где static embeddings всё ещё используются:

Lightweight production NLP (без GPU).
Поисковые engines в low-latency сценариях.
Recsys baselines.
Feature extraction для tabular ML.

Где переходят к contextual:

BERT / RoBERTa — context-dependent embeddings.
Sentence-Transformers — для similarity.
LLM-based embeddings (e5, bge, OpenAI).

Static embeddings — heritage. Современный default — Transformer-based contextual embeddings, особенно sentence-transformers.

Частые ошибки

Использовать word2vec для sentence similarity. Average word embeddings — слабо. Использовать sentence-transformers или CLS-based BERT.

Не делать lowercase / normalize. "Cat" и "cat" — разные embeddings.

Маленький corpus. Word embeddings нужно учить на миллионах токенов. Маленький corpus → плохие embeddings.

Игнорировать pre-trained. Свои тренировать редко выгодно — есть готовые на огромных корпусах (Glove, FastText, Yandex SBerquAD).

Применять английские embeddings к русскому. Просто не работает. Используй ru-специальные.

Связанные темы

FAQ

word2vec в 2026 — устарел?

Для production NLP — да, BERT / sentence-transformers лучше. Для quick baselines, lightweight tasks — всё ещё актуально.

Можно ли использовать word2vec features в gradient boosting?

Да. Аverage word embeddings → 100-300 фич → input в LightGBM. Часто helpful baseline для текстовых tabular задач.

Это официальная информация?

Нет. Статья основана на оригинальных работах (Mikolov 2013, Pennington 2014, Bojanowski 2016).

Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.