7 мая 2026 г.·2 мин чтения

Versioning ML datasets на собеседовании Data Scientist

Q: Это официальная информация?

Нет. Статья основана на документации DVC, lakeFS, Git LFS. --- Тренируйте Data Science — [откройте тренажёр](https://t.me/kariernik_bot/app?startapp=web_blog_ml-data-versioning-na-sobesedovanii-ds) с 1500+ вопросами для собесов.

Готовься к собесу аналитика как в Duolingo

10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram

Открыть Карьерник в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

Содержание:

Зачем versioning datasets
DVC
Git LFS
lakeFS
Reproducibility
Связанные темы
FAQ

Зачем versioning datasets

Reproducibility ML.

"Model X trained на data v3.2. Switch к v4 — accuracy dropped 5%. Why?"

Без versioning — можно не воспроизвести / debug.

DVC

Git-like для data files. Stores pointers в git, data в remote (S3 / GCS).

dvc add data/train.parquet
git add data/train.parquet.dvc
git commit -m "v1 train data"
dvc push

Each commit — snapshot data state. Switch via git checkout + dvc pull.

Git LFS

Git Large File Storage. Stores large blobs separately.

Pros: native git integration.

Cons: не designed для huge ML datasets. Slow на multi-GB.

DVC purpose-built — лучше choice для ML.

Готовься к собесу аналитика как в Duolingo

10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram

Открыть Карьерник в Telegram

lakeFS

Git-like operations над data lake.

Branching. Create dev branch — modify data — merge.

lakefs branch create dev_2026_05
# experiments
lakefs commit -m "Add new features"

S3-compatible. Used с lakehouse stack (Iceberg / Delta).

Reproducibility

ML reproducibility = code + data + environment + seed.

Data versioning — one piece. Need:

Pinned model dependencies (requirements.txt, conda env).
Random seeds.
Hardware specs (GPU determines order).
Hyperparameters.

В research papers — increasingly mandatory.

Связанные темы

FAQ

Это официальная информация?

Нет. Статья основана на документации DVC, lakeFS, Git LFS.

Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.