Что такое Big Data простыми словами

Коротко

Big Data — данные, которые не помещаются в обычную базу данных или Excel. Обычно это миллионы/миллиарды записей, которые меняются каждую секунду.

Пример: логи всех кликов в ВК, транзакции банка за год, данные из IoT-устройств. Обычный PostgreSQL такое переварит медленно — нужны специальные технологии.

Три V (признаки Big Data)

Классическое определение через 3 характеристики:

1. Volume (объём)

Гигабайты, терабайты, петабайты. Если ваша таблица помещается на ноутбуке — это не Big Data.

2. Velocity (скорость)

Данные приходят в реальном времени. Клики, транзакции, события — сотни тысяч в секунду.

3. Variety (разнообразие)

Не только табличные данные: логи, JSON, картинки, видео, голос.

Современные варианты добавляют ещё V: Veracity (достоверность), Value (ценность), но в быту достаточно 3V.

Когда это Big Data, когда нет

Big Data: 100M+ строк в таблице, данные приходят каждую секунду, нужен кластер серверов.

Не Big Data: 1M строк в PostgreSQL — работает отлично, это просто «большая база данных».

В 99% компаний РФ на уровне junior-аналитика реального Big Data нет. Есть много данных, но не Big в техническом смысле.

Технологии Big Data

Хранение

  • Hadoop HDFS — распределённая файловая система. Стар, уступает облакам.
  • Amazon S3 / Google Cloud Storage / Yandex Object Storage — облачное хранение сырых данных.
  • Data Lake — концепция «хранить всё в сыром виде, обработать когда надо».

Обработка

  • Apache Spark — распределённые вычисления. Заменил Hadoop MapReduce.
  • Dask, Ray — Python-инструменты для распределённой обработки.
  • Apache Flink — для потоковой обработки.

Базы для аналитики

  • ClickHouse — колоночная БД, быстрая для агрегатов.
  • Snowflake / BigQuery / Redshift — облачные DWH.
  • Apache Druid — для real-time OLAP.

Streaming

  • Apache Kafka — шина событий, стандарт индустрии.
  • Apache Pulsar — альтернатива.

Прокачать тему на реальных задачах удобно в боте @kariernik_bot — база вопросов собрана с собеседований в Яндексе, Авито, Ozon, Тинькофф.

Нужно ли аналитику знать Big Data

На junior — нет

Достаточно SQL в обычном PostgreSQL / ClickHouse. Никакого Spark.

На middle — по верхам

  • Понимать, что такое Spark и когда нужен.
  • Знать разницу OLTP vs OLAP.
  • Базово работать с ClickHouse / Snowflake.

На senior / DA+DE — да

  • Писать Spark-джобы.
  • Настраивать ETL в Airflow.
  • Оптимизировать ClickHouse-запросы.

Но это уже дата-инженерия, а не чистая аналитика.

Примеры Big Data в реальной жизни

  • ВК: каждый лайк, клик, просмотр — это событие. Миллиарды событий в день.
  • Яндекс.Такси: каждая поездка, GPS-точка, цена. Real-time обработка.
  • Сбер: транзакции, логи банкинга, fraud detection в real-time.
  • Ozon: клики, просмотры карточек, данные рекомендательной системы.

Big Data ≠ Data Science

  • Big Data — про инфраструктуру и объём.
  • Data Science — про ML и модели.
  • Аналитика — про выводы и метрики.

Big Data — это инструмент. Аналитика / DS — что вы с этим инструментом делаете.

Плюсы работы с Big Data

  • Высокие зарплаты (дата-инженерия 200–500k).
  • Интересные технические задачи.
  • Большой спрос в IT / финтехе.

На собесе такие штуки часто спрашивают. Быстрый способ довести до автоматизма — тренажёр в Telegram с задачами из реальных интервью.

Минусы

  • Высокий порог входа (1–2 года после аналитика).
  • Много инфраструктуры, мало аналитики.
  • Stressful — если сломался pipeline, это прод.

Когда НЕ нужно Big Data

Если данные помещаются в память — не нужен Spark. Обычный Python / pandas работает в 100x быстрее, чем распределённая обработка маленького датасета.

Правило: сначала попробовать pandas, потом только переходить на Spark.

Читайте также

FAQ

Big Data и Data Science — разница?

Big Data — инфраструктура для больших объёмов. Data Science — модели на этих (и не только) данных. Big Data — средство, DS — цель.

Сколько начинать учить Big Data?

Не раньше, чем уверенный middle-аналитик (2+ года опыта) или сразу в DE-направлении.

Hadoop всё ещё актуален?

В существующих корпоративных системах — да. Для новых проектов обычно не выбирают — облачные DWH и Spark удобнее.

ClickHouse — это Big Data?

ClickHouse — аналитическая БД, хорошо работает с миллиардами строк на одном сервере. Можно считать «Big Data light» — без сложности Spark/Hadoop.