Snowflake vs BigQuery на собеседовании Data Engineer
Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.
Содержание:
Зачем разбирать на собесе
Знание managed DWH платформ — обзорно нужно DE. На собесе: «архитектура Snowflake», «отличие от ClickHouse», «pricing model».
Snowflake: архитектура
3 слоя:
- Storage — данные в S3 / GCS / Azure Blob. Колоночный формат (Snowflake-specific FDN).
- Compute (Virtual Warehouses) — independent compute clusters. Multiple WHs, не делят compute.
- Cloud Services — metadata, optimizer, security, query parsing.
Ключевое: storage и compute разделены и масштабируются независимо.
Виртуальные warehouses. Можно поднять X-Small (1 node) или 6X-Large (512 nodes). Per-second billing. Auto-suspend через минуту неактивности.
Time travel. Запросы с retention period (1-90 дней) — можно читать данные на момент времени.
Zero-copy clones. Cloning таблиц / БД мгновенно (metadata-only).
Pricing. Compute (per second × WH size) + Storage (compressed data).
BigQuery: архитектура
Serverless. Нет понятия cluster — Google управляет.
Storage — Capacitor (Google's columnar format) на Colossus FS.
Compute (slots) — Google's Dremel-style execution. Slots — units of CPU. Можно on-demand (per-byte query) или dedicated (slots committed).
Streaming insert. Real-time append через REST.
Pricing modes:
- On-demand. $$ per TB scanned (queries).
- Slots reservation. Fixed monthly fee (commitments).
Native:
- BigQuery ML — train модели через SQL.
- BigQuery GIS.
- Federated queries в Cloud Storage / Bigtable.
Сравнение
| Snowflake | BigQuery | |
|---|---|---|
| Cloud | AWS, Azure, GCP | GCP only |
| Storage / Compute | Separated | Fully separated |
| Compute model | Virtual Warehouses | Slots |
| Pricing | Compute time | Bytes scanned / slots |
| Time travel | Yes | Yes (limited) |
| ML in DB | Snowpark, Cortex | BigQuery ML |
| Streaming | Snowpipe (near real-time) | Native streaming insert |
| Sharing data | Data Sharing native | Authorized views |
| Migration / multi-cloud | Yes | GCP-only |
Похожи на:
- ClickHouse — самохостинг колоночник, фокус on-prem / open source.
- Redshift — AWS-only, более старый design (был tightly-coupled).
- Synapse — Azure аналог, реже выбирают.
Когда что выбирать
Snowflake:
- Mixed cloud strategy (AWS + Azure + GCP).
- Workload разнообразный — нужны мульти-WH.
- Data sharing с partners.
- Есть бюджет (дороже ClickHouse / on-prem).
BigQuery:
- Уже на GCP.
- Ad-hoc analytics с непредсказуемой нагрузкой.
- Нужна real-time streaming insert.
- BigQuery ML / GIS / federated queries.
ClickHouse:
- Высокий QPS на dashboards (Snowflake / BQ дороги для high-frequency).
- On-prem / open source требуется.
- Время отклика < 100ms нужно.
Redshift:
- Уже на AWS, простой workload.
- Хочется managed без overhead Snowflake.
Применимость в РФ
С 2022 — Snowflake / BigQuery недоступны напрямую (санкции, blocked).
В РФ обычно:
- ClickHouse (Yandex, Avito, Ozon).
- Greenplum (Сбер, ВТБ).
- Yandex Cloud DataLens / Yandex Cloud DWH.
- Selectel облака с self-hosted CH.
- Trino / Presto на S3-совместимых.
Если работаете на западные компании — Snowflake / BigQuery актуальны.
Частые ошибки
Считать Snowflake = Redshift. Архитектурно отличаются (separated compute vs coupled).
Игнорировать pricing modeling. BigQuery on-demand на ad-hoc — может быть очень дорого. Slots commitment экономит.
Snowflake без auto-suspend. Warehouse работает 24/7, счёт растёт.
ClickHouse в роли Snowflake. CH плохо джойнит, не подходит для star schema с 10+ join.
Streaming insert в BigQuery без consideration cost. $0.05/GB streamed — на больших объёмах накапливается.
Связанные темы
- DWH ClickHouse на собесе DE
- Greenplum на собесе DE
- ClickHouse MergeTree для DE
- Inmon vs Kimball для DE
- Подготовка к собесу Data Engineer
FAQ
Можно ли использовать Snowflake в РФ?
С 2022 official availability under sanctions — нет. Workaround через шлюзы — серая зона юридически.
BigQuery vs ClickHouse для аналитики?
BQ для ad-hoc больших объёмов — отлично. CH для high-QPS interactive dashboards — лучше.
Это официальная информация?
Нет. Статья основана на документации Snowflake / Google Cloud / ClickHouse.
Тренируйте Data Engineering — откройте тренажёр с 1500+ вопросами для собесов.