Snowflake vs BigQuery на собеседовании Data Engineer

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

Зачем разбирать на собесе

Знание managed DWH платформ — обзорно нужно DE. На собесе: «архитектура Snowflake», «отличие от ClickHouse», «pricing model».

Snowflake: архитектура

3 слоя:

  1. Storage — данные в S3 / GCS / Azure Blob. Колоночный формат (Snowflake-specific FDN).
  2. Compute (Virtual Warehouses) — independent compute clusters. Multiple WHs, не делят compute.
  3. Cloud Services — metadata, optimizer, security, query parsing.

Ключевое: storage и compute разделены и масштабируются независимо.

Виртуальные warehouses. Можно поднять X-Small (1 node) или 6X-Large (512 nodes). Per-second billing. Auto-suspend через минуту неактивности.

Time travel. Запросы с retention period (1-90 дней) — можно читать данные на момент времени.

Zero-copy clones. Cloning таблиц / БД мгновенно (metadata-only).

Pricing. Compute (per second × WH size) + Storage (compressed data).

BigQuery: архитектура

Serverless. Нет понятия cluster — Google управляет.

Storage — Capacitor (Google's columnar format) на Colossus FS.

Compute (slots) — Google's Dremel-style execution. Slots — units of CPU. Можно on-demand (per-byte query) или dedicated (slots committed).

Streaming insert. Real-time append через REST.

Pricing modes:

  • On-demand. $$ per TB scanned (queries).
  • Slots reservation. Fixed monthly fee (commitments).

Native:

  • BigQuery ML — train модели через SQL.
  • BigQuery GIS.
  • Federated queries в Cloud Storage / Bigtable.

Сравнение

Snowflake BigQuery
Cloud AWS, Azure, GCP GCP only
Storage / Compute Separated Fully separated
Compute model Virtual Warehouses Slots
Pricing Compute time Bytes scanned / slots
Time travel Yes Yes (limited)
ML in DB Snowpark, Cortex BigQuery ML
Streaming Snowpipe (near real-time) Native streaming insert
Sharing data Data Sharing native Authorized views
Migration / multi-cloud Yes GCP-only

Похожи на:

  • ClickHouse — самохостинг колоночник, фокус on-prem / open source.
  • Redshift — AWS-only, более старый design (был tightly-coupled).
  • Synapse — Azure аналог, реже выбирают.
Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Когда что выбирать

Snowflake:

  • Mixed cloud strategy (AWS + Azure + GCP).
  • Workload разнообразный — нужны мульти-WH.
  • Data sharing с partners.
  • Есть бюджет (дороже ClickHouse / on-prem).

BigQuery:

  • Уже на GCP.
  • Ad-hoc analytics с непредсказуемой нагрузкой.
  • Нужна real-time streaming insert.
  • BigQuery ML / GIS / federated queries.

ClickHouse:

  • Высокий QPS на dashboards (Snowflake / BQ дороги для high-frequency).
  • On-prem / open source требуется.
  • Время отклика < 100ms нужно.

Redshift:

  • Уже на AWS, простой workload.
  • Хочется managed без overhead Snowflake.

Применимость в РФ

С 2022 — Snowflake / BigQuery недоступны напрямую (санкции, blocked).

В РФ обычно:

  • ClickHouse (Yandex, Avito, Ozon).
  • Greenplum (Сбер, ВТБ).
  • Yandex Cloud DataLens / Yandex Cloud DWH.
  • Selectel облака с self-hosted CH.
  • Trino / Presto на S3-совместимых.

Если работаете на западные компании — Snowflake / BigQuery актуальны.

Частые ошибки

Считать Snowflake = Redshift. Архитектурно отличаются (separated compute vs coupled).

Игнорировать pricing modeling. BigQuery on-demand на ad-hoc — может быть очень дорого. Slots commitment экономит.

Snowflake без auto-suspend. Warehouse работает 24/7, счёт растёт.

ClickHouse в роли Snowflake. CH плохо джойнит, не подходит для star schema с 10+ join.

Streaming insert в BigQuery без consideration cost. $0.05/GB streamed — на больших объёмах накапливается.

Связанные темы

FAQ

Можно ли использовать Snowflake в РФ?

С 2022 official availability under sanctions — нет. Workaround через шлюзы — серая зона юридически.

BigQuery vs ClickHouse для аналитики?

BQ для ad-hoc больших объёмов — отлично. CH для high-QPS interactive dashboards — лучше.

Это официальная информация?

Нет. Статья основана на документации Snowflake / Google Cloud / ClickHouse.


Тренируйте Data Engineering — откройте тренажёр с 1500+ вопросами для собесов.