Что такое Big Data простыми словами
Коротко
Big Data — данные, которые не помещаются в обычную базу данных или Excel. Обычно это миллионы/миллиарды записей, которые меняются каждую секунду.
Пример: логи всех кликов в ВК, транзакции банка за год, данные из IoT-устройств. Обычный PostgreSQL такое переварит медленно — нужны специальные технологии.
Три V (признаки Big Data)
Классическое определение через 3 характеристики:
1. Volume (объём)
Гигабайты, терабайты, петабайты. Если ваша таблица помещается на ноутбуке — это не Big Data.
2. Velocity (скорость)
Данные приходят в реальном времени. Клики, транзакции, события — сотни тысяч в секунду.
3. Variety (разнообразие)
Не только табличные данные: логи, JSON, картинки, видео, голос.
Современные варианты добавляют ещё V: Veracity (достоверность), Value (ценность), но в быту достаточно 3V.
Когда это Big Data, когда нет
Big Data: 100M+ строк в таблице, данные приходят каждую секунду, нужен кластер серверов.
Не Big Data: 1M строк в PostgreSQL — работает отлично, это просто «большая база данных».
В 99% компаний РФ на уровне junior-аналитика реального Big Data нет. Есть много данных, но не Big в техническом смысле.
Технологии Big Data
Хранение
- Hadoop HDFS — распределённая файловая система. Стар, уступает облакам.
- Amazon S3 / Google Cloud Storage / Yandex Object Storage — облачное хранение сырых данных.
- Data Lake — концепция «хранить всё в сыром виде, обработать когда надо».
Обработка
- Apache Spark — распределённые вычисления. Заменил Hadoop MapReduce.
- Dask, Ray — Python-инструменты для распределённой обработки.
- Apache Flink — для потоковой обработки.
Базы для аналитики
- ClickHouse — колоночная БД, быстрая для агрегатов.
- Snowflake / BigQuery / Redshift — облачные DWH.
- Apache Druid — для real-time OLAP.
Streaming
- Apache Kafka — шина событий, стандарт индустрии.
- Apache Pulsar — альтернатива.
Прокачать тему на реальных задачах удобно в боте @kariernik_bot — база вопросов собрана с собеседований в Яндексе, Авито, Ozon, Тинькофф.
Нужно ли аналитику знать Big Data
На junior — нет
Достаточно SQL в обычном PostgreSQL / ClickHouse. Никакого Spark.
На middle — по верхам
- Понимать, что такое Spark и когда нужен.
- Знать разницу OLTP vs OLAP.
- Базово работать с ClickHouse / Snowflake.
На senior / DA+DE — да
- Писать Spark-джобы.
- Настраивать ETL в Airflow.
- Оптимизировать ClickHouse-запросы.
Но это уже дата-инженерия, а не чистая аналитика.
Примеры Big Data в реальной жизни
- ВК: каждый лайк, клик, просмотр — это событие. Миллиарды событий в день.
- Яндекс.Такси: каждая поездка, GPS-точка, цена. Real-time обработка.
- Сбер: транзакции, логи банкинга, fraud detection в real-time.
- Ozon: клики, просмотры карточек, данные рекомендательной системы.
Big Data ≠ Data Science
- Big Data — про инфраструктуру и объём.
- Data Science — про ML и модели.
- Аналитика — про выводы и метрики.
Big Data — это инструмент. Аналитика / DS — что вы с этим инструментом делаете.
Плюсы работы с Big Data
- Высокие зарплаты (дата-инженерия 200–500k).
- Интересные технические задачи.
- Большой спрос в IT / финтехе.
На собесе такие штуки часто спрашивают. Быстрый способ довести до автоматизма — тренажёр в Telegram с задачами из реальных интервью.
Минусы
- Высокий порог входа (1–2 года после аналитика).
- Много инфраструктуры, мало аналитики.
- Stressful — если сломался pipeline, это прод.
Когда НЕ нужно Big Data
Если данные помещаются в память — не нужен Spark. Обычный Python / pandas работает в 100x быстрее, чем распределённая обработка маленького датасета.
Правило: сначала попробовать pandas, потом только переходить на Spark.
Читайте также
- ClickHouse vs PostgreSQL
- Что такое ETL
- Spark для аналитика
- Data Warehouse vs Database
- Hadoop или устарел
FAQ
Big Data и Data Science — разница?
Big Data — инфраструктура для больших объёмов. Data Science — модели на этих (и не только) данных. Big Data — средство, DS — цель.
Сколько начинать учить Big Data?
Не раньше, чем уверенный middle-аналитик (2+ года опыта) или сразу в DE-направлении.
Hadoop всё ещё актуален?
В существующих корпоративных системах — да. Для новых проектов обычно не выбирают — облачные DWH и Spark удобнее.
ClickHouse — это Big Data?
ClickHouse — аналитическая БД, хорошо работает с миллиардами строк на одном сервере. Можно считать «Big Data light» — без сложности Spark/Hadoop.