Что такое Apache Superset

Коротко

Apache Superset — open-source BI-инструмент от Airbnb. Мощный, гибкий, бесплатный. Используется во многих крупных компаниях (Airbnb, Lyft, Yahoo).

Что умеет

  • SQL Lab — среда для написания и тестирования SQL.
  • Charts — 50+ типов визуализаций.
  • Dashboards — сборка графиков + фильтры.
  • Alerts — отправка по email / Slack.
  • RBAC — роли и права доступа.
  • Row-level security — ограничение данных на уровне строк.

Установка

Docker Compose (рекомендуется)

git clone https://github.com/apache/superset.git
cd superset
docker compose -f docker-compose-non-dev.yml up

Открывается на localhost:8088. Через 2-3 минуты готово.

Через pip

pip install apache-superset
superset db upgrade
superset init

Не рекомендуется для продакшна — сложнее поддерживать.

Подключение источников

Поддерживается 40+ БД:

  • PostgreSQL, MySQL, SQL Server.
  • ClickHouse (через SQLAlchemy driver).
  • BigQuery, Snowflake, Redshift.
  • Druid, Presto, Trino.
  • ElasticSearch.

Типы visualizations

  • Table — таблица.
  • Bar/Line/Area — классика.
  • Pie/Donut — доли.
  • Map — гео-карты.
  • Heatmap — матричные данные.
  • Big Number — одна метрика.
  • Sankey — flow.
  • Time-series — временные ряды.
  • Partition — многомерные.

SQL Lab

Среда для SQL-запросов с:

  • Автокомплитом.
  • Схемой БД в sidebar.
  • Explain и Query History.
  • Сохранением запросов.
  • Экспортом в CSV.

Для аналитика — быстрая альтернатива DBeaver, прямо в браузере.

Попробовать силы на подобных вопросах проще всего в тренажёре Карьерник — прямо в Telegram, без регистрации через сайт.

Dashboards

1. Создать charts (отдельные графики).
2. Собрать в dashboard.
3. Добавить filters (применяются ко всем графикам).
4. Shared URL.
5. Schedule email.

Jinja в SQL

-- Параметризованные запросы
SELECT * FROM orders
WHERE created_at >= '{{ from_dttm }}'
  AND created_at < '{{ to_dttm }}'
  AND region = '{{ filter_values('region')[0] }}'

Row-level security

-- RLS: каждый user видит только свои данные
user_id = '{{ current_user_id() }}'

Критично для multi-tenant SaaS.

Alerts

Если DAU < 100000 → Slack
Каждое утро 9:00 → email с dashboard PDF

Стандартный enterprise-functionality.

Superset vs Metabase

Критерий Superset Metabase
Open-source ✅ core
Сложность Выше Проще
Гибкость Выше Средне
Visualization 50+ 15-20
RBAC ✅ paid
Установка Сложнее Проще
Community Большое Большое

Выбор:

  • Metabase — быстрый старт, маленькая команда.
  • Superset — enterprise, много пользователей, сложные сценарии.

Superset vs Tableau

  • Superset — open-source, бесплатно, меньше polished.
  • Tableau — коммерческий, дороже, красивее.

Для РФ — Superset оптимальное решение (open-source + доступно).

Плюсы Superset

  • Полностью бесплатный и open-source.
  • Мощная RBAC и row-level security.
  • Интеграция с любой SQL-БД.
  • Активное сообщество.
  • Используется в топ-IT компаниях.

Пройти 30–50 задач по теме за вечер можно в Telegram-тренажёре. Это то, что отличает «знаю» от «уверенно отвечу на собесе».

Минусы

  • Сложная установка и поддержка.
  • UX проще, чем у Tableau / Power BI.
  • Нужен DevOps для self-hosted.
  • Документация иногда неполная.

Кому подходит

Хорошо

  • Средние/крупные команды с DevOps.
  • Open-source стек.
  • Много пользователей (100+).
  • Нужен RBAC + row-level security.

Плохо

  • Стартап без инженера для поддержки.
  • Нужна максимально «крутая» viz.
  • Нет времени на learning curve.

Типичные проблемы

1. Медленный Dashboard

Много тяжёлых SQL на больших данных. Решение: materialized views или pre-aggregated таблицы.

2. Cache не работает

Настройте Redis для cache Superset — критично для performance.

3. Permissions chaos

В больших командах без продуманного RBAC быстро хаос. Настройте роли заранее.

Нужно ли аналитику в РФ

Если вы джуниор

Нет. Но упоминание в резюме — плюс.

В средних компаниях на open-source стеке

Да, один из главных BI в РФ наряду с Metabase и DataLens.

В банках / корпорациях

Редко. Чаще legacy или проприетарные BI.

Читайте также

FAQ

Superset vs Redash?

Redash ближе к SQL-notebook с базовыми графиками. Superset — полноценный BI с dashboards, RBAC.

Superset умеет real-time?

Поддерживает streaming через Druid, но чаще используется batch. Для real-time лучше Grafana.

Как ставить в production?

Docker Compose, Kubernetes helm chart. Нужен Redis для cache, Celery для scheduled queries.

Есть ли cloud-версия?

Preset (https://preset.io) — managed Superset. $100+/мес.