TL;DR: ClickHouse выигрывает по большинству аналитических workloads и стоимости — best default 2026. Apache Druid лидирует по concurrency (1000+ одновременных queries для UI dashboards). StarRocks — самый «свежий», догоняет ClickHouse и иногда обгоняет на JOIN queries. Apache Pinot занимает нишу high-QPS aggregations (LinkedIn / Uber-стиль). Выбор зависит от нагрузки: ad-hoc analytics → ClickHouse, UI dashboards 1000+ users → Druid, complex JOIN → StarRocks, sub-second high-QPS → Pinot.
Аудитория: Senior Data Engineer и Architect, выбирающие OLAP-базу для real-time analytics платформы.
Например, типичный кейс: streaming analytics для marketplace, 50М событий/день, 200 одновременных аналитиков, dashboard latency <500мс. Выбрали ClickHouse + Materialized Views. Cost ~$3K/mo (AWS) или ~180K ₽/мес (Yandex Cloud).
Что такое real-time OLAP-база?
OLAP (Online Analytical Processing) — база для аналитических запросов: aggregation, group by, window. Real-time — данные доступны для query за секунды после события (vs batch — часы или дни).
Базовые характеристики real-time OLAP-баз 2026:
- Columnar storage — каждая колонка отдельно сжата (LZ4 / ZSTD / Delta)
- Distributed query execution — query параллелится по nodes
- Streaming ingestion — из Kafka / Pulsar напрямую, без batch
- Materialized views / pre-aggregations — заранее посчитанные суммы
Подробнее про real-time pipeline — в гайде Kafka+Flink+CH.
Кто быстрее на TPC-H benchmark в 2026?
Референс из ClickBench 2026: 1TB events, single-query workload — CH p50=120мс p95=380мс. StarRocks p50=110мс p95=350мс. Druid p50=240мс p95=720мс.
Публичные результаты ClickBench (2025-2026, типичные queries):
| База | Single-node latency | 10-node latency | Cost-effectiveness |
|---|---|---|---|
| ClickHouse 24.x | 1.0× (baseline) | 1.0× | ✅ Лучшая |
| StarRocks 3.x | 0.9-1.1× | 0.9-1.0× | ✅ Сопоставимая |
| Apache Druid 30.x | 1.5-2.0× (single query) | 0.8× (concurrent) | ⚠️ Дороже |
| Apache Pinot 1.x | 1.2-1.5× | 0.5× (high-QPS) | ⚠️ Нишевый |
ClickBench показывает: на single-query workload ClickHouse и StarRocks примерно равны, Druid медленнее на 50-100%, Pinot — на 20-50%. На high-concurrency workload (UI dashboards) Druid выигрывает.
Какую OLAP взять для 1000+ concurrent queries?
Apache Druid — proven на этом сценарии:
- Druid: Lyft, Netflix, Pinterest — 1000-10000 concurrent queries для UI-dashboards
- ClickHouse: 100-500 concurrent на «обычном» кластере, требует tuning для 1000+
- Pinot: 1000+ concurrent для LinkedIn-style «who viewed your profile» dashboards
- StarRocks: 200-500 concurrent типично, в 2026 году догоняет Druid
Если нужен UI dashboard с 5000+ одновременных аналитиков (Tableau-эффект) — Druid или Pinot. Иначе — ClickHouse.
Референсные цифры для UI dashboards: Druid sustainable 2000 concurrent users, p95 latency 80мс. ClickHouse 200-500 concurrent, p95 150мс. Pinot 5000 concurrent, p95 50мс на pre-aggregated data.
Чем StarRocks отличается от ClickHouse в 2026?
StarRocks — fork от Apache Doris, активное развитие с 2020. К 2026 — серьёзный конкурент ClickHouse.
| Критерий | ClickHouse | StarRocks |
|---|---|---|
| Single-node aggregation | ✅ Лучший | ✅ Сопоставимый |
| JOIN performance | ⚠️ Слабее | ✅ Лучший |
| Materialized views | ✅ Зрелые | ✅ Async + sync |
| Federation (читать данные из других БД) | ⚠️ Limited | ✅ External catalogs |
| Lakehouse integration (Iceberg/Hudi/Delta) | ✅ С 24.x | ✅ Native |
| Community и adoption | ✅ Огромное | ⚠️ Growing |
| Cloud managed | ✅ Yandex / Aiven / Altinity | ⚠️ CelerData (молодой) |
| Российский саппорт | ✅ Altinity RU | ❌ Только английский |
Типичная позиция: «StarRocks — самый быстрый из новых OLAP-баз, особенно на JOIN. Но adoption в РФ пока мал (нет Altinity-стиль локальной поддержки), поэтому для production команды чаще остаются на ClickHouse».
Подробнее про ClickHouse архитектуру — в гайде по CODEC и MV+Projections.
Когда брать Apache Druid вместо ClickHouse?
Druid побеждает когда:
- ✅ Сотни-тысячи одновременных queries для UI dashboards
- ✅ Очень короткие queries «дай метрику по сегменту» (sub-50ms p95)
- ✅ Time-series данные с приоритетом latest data
- ✅ Готовность к более сложной операционной модели (broker + historical + middleManager nodes)
ClickHouse побеждает когда:
- ✅ Ad-hoc analytics (cohort, retention, funnel)
- ✅ Сложные SQL queries (window, recursive CTE, complex aggregations)
- ✅ Меньше команды для operations
- ✅ Российская инфра (Yandex Cloud / Altinity на месте)
Типичный кейс migration: с Vertica на ClickHouse. Время 6 месяцев (rewrite dbt-моделей). Экономия лицензий $200K/год. Performance улучшение 2-3× на типичных queries.
Когда брать Apache Pinot?
Pinot — нишевая база для специфических high-QPS use cases:
- Real-time analytics dashboard для миллионов end-users (LinkedIn «who viewed your profile»)
- Real-time recommendations метрики
- Geospatial + time-series + high-cardinality joins
- Uber-style operational dashboards с sub-100ms latency
Если у тебя такой сценарий — Pinot. Если нет — Druid или ClickHouse.
Стоит ли мигрировать с ClickHouse на StarRocks?
Большинство команд нет. ClickHouse в production работает, экосистема зрелая, миграция в 2026 году преждевременна.
Кейсы когда стоит:
- Heavy JOIN-нагрузка (StarRocks быстрее на 30-100%)
- Lakehouse integration критична (StarRocks native)
- Хочется federation (читать Iceberg / Hudi / Hive напрямую)
Кейсы когда не стоит:
- ClickHouse production стабилен
- Команда обучена ClickHouse-specific tuning
- Нет heavy JOIN workload
- Нужна российская поддержка (StarRocks её нет)
Типичная позиция Senior DE: «мы не стали мигрировать с ClickHouse на StarRocks потому что (1) ClickHouse в prod 3 года, стабилен, (2) у нас нет heavy JOIN workload, (3) Altinity даёт российскую саппорт за разумные деньги».
Какие подводные камни у real-time OLAP в production?
- Грабли 1: Choice between «sync ingestion» и «async». Sync блокирует ack producer'у. Async теряет данные при crash. Фикс: exactly-once через Flink + idempotent inserts.
- Грабли 2: Cardinality interpretation. Высокая cardinality (миллионы уникальных user_id) убивает performance. Фикс: bloom filters / hyperloglog approximate.
- Грабли 3: Schema evolution боль. Add column дешёво, rename / drop — нет. Фикс: planning перед deploy, не shortcuts.
- Грабли 4: Cost surprises. Cloud-managed varies wildly. Фикс: benchmark с реальной нагрузкой ДО migration.
- Грабли 5: Lakehouse integration маркетинговое vs реальное. Фикс: тестировать federation на твоих данных, не на demo.
- Грабли 6: HA setup может удвоить cost. Фикс: понимать SLO требования до архитектуры.
Типичный инцидент: после увеличения нагрузки на 30% query latency вырос в 3 раза. Root cause через EXPLAIN — missing index на JOIN column. Fix: добавили composite index, OPTIMIZE TABLE FINAL. Time-to-fix: 2 часа.
Сколько стоит каждый стек в Yandex Cloud / AWS?
Типичная конфигурация ClickHouse для 10TB: 3 shard × 16 vCPU × 64 GB RAM × 2 TB SSD. Monthly cost — Yandex Cloud Managed ~150K ₽, AWS EC2 self-hosted ~$1500.
Типичные референсные цифры для production 10TB data, 100 concurrent users:
| Стек | Yandex Cloud Managed | AWS Managed | Self-hosted (Kubernetes) |
|---|---|---|---|
| ClickHouse | 120-250K ₽/мес | $2-4K/мес | $0.5-1.5K/мес |
| Druid (Imply Cloud) | — | $4-8K/мес | $1-3K/мес |
| StarRocks (CelerData) | — | $3-6K/мес | $1-2.5K/мес |
| Pinot (StarTree) | — | $5-10K/мес | $2-4K/мес |
Частые вопросы про real-time OLAP
Что выбрать «по умолчанию» в 2026?
ClickHouse. Зрелый, дешёвый, активное community, российская поддержка через Altinity. Перейти на другую базу можно если столкнёшься с конкретным limit.
Можно ли запускать ClickHouse + Druid вместе?
Технически да: ClickHouse для ad-hoc analytics, Druid для high-concurrency UI. Операционно — это удвоение работы. Большинство команд выбирают один.
Какой OLAP подходит для embedded analytics?
Druid (sub-50ms latency на простые queries) или Pinot. ClickHouse возможен, но иногда требует tuning под high-QPS.
Что говорят про DuckDB?
DuckDB — embedded OLAP (in-process, не distributed). Альтернатива для startup'ов с данными до 5TB и одним аналитиком. Не сравнивается с distributed OLAP-базами выше. См. polars vs pandas.
Какой OLAP лучше работает с Iceberg?
В 2026 году все четыре умеют читать Iceberg: ClickHouse 24.x+, StarRocks 3.x+, Druid 30.x+, Pinot 1.x+. StarRocks умеет лучше всех (native federation). Подробнее в Lakehouse-гайде.
Что дальше?
Если хочешь практику — попробуй SQL-тренажёр с автопроверкой (5 задач бесплатно). OLAP-запросы (aggregations, window functions) — основа Senior DE собеса.
Готов к собеседованиям Senior DE / Architect? AI-интервью задаёт реальные вопросы по выбору OLAP-базы, бенчмарку, миграциям. В Pro — безлимит мок-собесов + 491 SQL-задача + 612 тестовых заданий + 55+ блог-постов.
Смежные посты
- Real-time pipeline Kafka+Flink+CH
- ksqlDB vs Kafka Streams
- ClickHouse CODEC
- ClickHouse MV + Projections
- Lakehouse Iceberg+Trino+CH
- polars vs pandas (для DuckDB context)
Сравнить Free и Pro → (1999₽/мес)
Источники
- ClickBench Benchmark 2025-2026 (github.com/ClickHouse/ClickBench)
- Habr 956334: «StarRocks показывает что lakehouse-аналитика может быть быстрее»
- Habr 967214: «Глубокое сравнение StarRocks и ClickHouse»
- Apache Druid Docs (druid.apache.org)
- Apache Pinot Docs (pinot.apache.org)
- StarRocks Docs (docs.starrocks.io)