Dedup strategies: ReplacingMergeTree vs FINAL vs ROW_NUMBER

Senior SQL data_engineering

Условие задания

**Данные:** CDC из MySQL через Debezium → Kafka → ClickHouse. Каждое UPDATE в MySQL создаёт новую строку в CH:

[см. код в задании]

После 30 дней работы — таблица содержит **5+ версий каждого юзера** (дубликаты по user_id).

**Задание:**

1. Сравни **3 стратегии дедупликации** для production:
- ReplacingMergeTree + SELECT FINAL
- ReplacingMergeTree + argMax (без FINAL)
- ROW_NUMBER() OVER (PARTITION BY ...)
2. Напиши SELECT для получения latest version каждого юзера каждым из 3 способов
3. Обоснуй какой выбрать для daily-обновляемого dashboard (millions of users)

Пример данных

Структура для ориентира — реальные значения из эталонного решения.

-- Переделать таблицу:
CREATE TABLE users_dedup (
  user_id UInt64,
  email String,
  phone String,
  updated_at DateTime
)
ENGINE = ReplacingMergeTree(updated_at)
ORDER BY user_id;

-- INSERT данных:
INSERT INTO users_dedup SELECT user_id, email, phone, updated_at FROM users_raw;

-- Запрос:
SELECT * FROM users_dedup FINAL WHERE user_id = 42;
-- Гарантированно одна строка с latest updated_at

Темы

ClickHouse deduplication ReplacingMergeTree FINAL ROW_NUMBER

Подсказки

Все тестовые задания →

Частые вопросы

Какой уровень знаний нужен для задачи "Dedup strategies: ReplacingMergeTree vs FINAL vs ROW_NUMBER"?

Это задание для уровня Senior. Senior-уровень — глубокое понимание темы, опыт решения нестандартных задач, обсуждение trade-off на собеседовании.

На каких собеседованиях встречается такая задача?

Подобные задания в категории «SQL» регулярно дают на собеседованиях аналитика данных в Яндекс, Сбер, Ozon, Авито, Тинькофф, Wildberries, T-Bank, X5, ВТБ и других крупных IT-компаниях. Тематика: ClickHouse, deduplication, ReplacingMergeTree, FINAL, ROW_NUMBER.

Сколько времени даётся на решение?

На реальном собеседовании на подобную задачу отводится 30-60 минут с обсуждением подходов, оптимизаций и trade-off. Для тренировки рекомендуем сначала решить самостоятельно, потом сверить с эталонным решением и подсказками.

Где ещё потренироваться по теме «SQL»?

На zasqlpython.ru есть 520+ SQL задач в песочнице с автопроверкой кода, конспекты SQL для аналитика, AI мок-собеседование с разбором ваших ответов.

← Все задания