Pet-проект на SQL для аналитика: идеи и оформление

Q: Сколько времени реально занимает?

ECF проект: 2-3 недели по 10-15 часов в неделю. Если меньше — заметно по quality. Если больше 5 недель — закопаешься в perfection.

Q: Можно ли pet-проект на курсе делать?

Можно, но сделай чуть-чуть свой. Другой dataset, другая визуализация, другой angle. HR быстро узнаёт Karpov / Practicum проекты.

Q: Нужно ли деплоить дашборд публично?

Да! DataLens-публичная ссылка или скриншот в README. Без визуала проект в 10× менее впечатляет.

Q: Если я только в SQL хочу — мне нужен Python?

Желательно. Не для production, а для loading data. Junior без Python — это ограниченный диапазон ролей. Минимум — pandas + psycopg2 (или sqlalchemy) для CSV→DB.

Q: Можно использовать AI/LLM для написания pet-проекта?

Да, но понимай каждую строчку. Если AI написал query, который ты не объяснишь на собесе — это минус. Используй AI как ментора, не как ghost-writer. См. LLM для аналитика. ---

Главный вопрос Junior-аналитика 2026: «Без опыта берут?». Ответ — с опытом, но опыт можно собрать самому за 2-4 недели. Pet-проект — это твой единственный способ показать на собеседовании что ты можешь. Без него ты просто резюме среди 200 других.

Этот гайд — что строить, как оформить, что писать в резюме.

Почему pet-проект — must-have

Сценарий	Без pet-проекта	С pet-проектом
HR cmenu прошёл	30-40%	70-80%
Технический собес	«Скрипт по шаблону»	«Расскажи про свой проект»
Final раунд	Часто рубят	Конкретный пример работы
Зарплата	На 20-30% ниже offer'а	Полная вилка вилки junior

Pet-проект решает главную проблему junior'а: HR/тимлид не знают что у тебя в голове. С GitHub'ом + README они видят твой код, твою логику, твой стиль.

5 идей pet-проектов 2026

ECF (E-comm Funnel) — analytics на retail-данных

Что: Загружаешь open dataset (Olist Brazilian e-commerce из Kaggle, или Москва Open Data), пишешь SQL для funnel (просмотр → корзина → оплата), retention cohort, RFM-сегментация. Делаешь дашборд в DataLens / Apache Superset.

Время: 2-3 недели

Скиллы: SQL (CTE, window), Python (pandas/SQL connector), BI (DataLens/Superset), Git

Где взять данные: Kaggle «Brazilian E-Commerce by Olist», Yandex. Marketplace public data, Avito Insights

NYC Taxi — Big Data analytics

Что: Загружаешь NYC Taxi dataset (10-100GB CSV), делаешь анализ peak hours, tip patterns, route optimization. ClickHouse + Apache Superset.

Время: 3-4 недели

Скиллы: SQL для больших данных, ClickHouse, Docker, время-серии, Python

Где взять данные: TLC NYC (nyc.gov/site/tlc/)

A/B-тест калькулятор и анализ кейса

Что: Берёшь публичный A/B-кейс (Booking.com / Airbnb / Netflix paper) или симулируешь свой. Считаешь sample size, power, MDE через Python/scipy. Пишешь bool «выводы».

Время: 1-2 недели

Скиллы: Статистика, scipy.stats, Jupyter, объяснение результатов

Где взять: arxiv.org «AB testing case study», Netflix Tech Blog

Retention dashboard для game/app

Что: Симулируешь user events (signup, login, purchase) через Python + ClickHouse. Считаешь D1/D7/D30 retention, cohort heatmap, LTV. Дашборд в Apache Superset.

Время: 2-3 недели

Скиллы: Симуляция данных (синтетические события), SQL оконные функции, cohort analysis. См. гайд по cohort retention SQL.

Inspiration: GameAnalytics / Amplitude case studies

Анализ открытых вакансий hh.ru

Что: Парсишь hh.ru вакансии аналитика (через их API), анализируешь распределение зарплат, технологий, городов. Output: dashboard + insights post.

Время: 2-3 недели

Скиллы: REST API (Python requests), pandas, NLP basics (skill extraction), визуализация. См. Python для аналитика.

Где данные: api.hh.ru — public, ограничения 200 req/sec

Шаг 1: выбрать проект (1 день)

Не пытайся сделать всё сразу. Выбирай один проект и доводи до production-quality README.

Правила выбора:

✅ Использует минимум 2 технологии из стека работодателя (SQL + Python + BI)
✅ Можно показать чему научился (CTE, window, retention math)
✅ Завершаем за 2-4 недели максимум
✅ Imitates реальные проблемы компаний (funnel, retention, A/B)
❌ Не клон to-do app
❌ Не «hello world DAG в Airflow»

Шаг 2: оформление GitHub (1 неделя)

Главный документ — README.md. Большинство HR читают только его.

Шаблон README:

# E-comm Funnel Analytics

[![Python](https://img.shields.io/badge/Python-3.11-blue)]()
[![PostgreSQL](https://img.shields.io/badge/PG-16-green)]()
[![DataLens](https://img.shields.io/badge/DataLens-2026-orange)]()

## TL;DR

Анализ retail-воронки Olist: 100k orders → SQL aggregations →
DataLens dashboard. Открытый код, можно повторить за день.

## Скриншот дашборда

![Dashboard](docs/dashboard.png)

## Что внутри

- **PostgreSQL 16** — хранение, схема DDL в `sql/schema.sql`
- **Python (pandas, psycopg2)** — загрузка CSV → PG
- **SQL** — `queries/funnel.sql`, `queries/cohort_retention.sql`, `queries/rfm.sql`
- **DataLens** — dashboard URL: …
- **dbt** — staging/marts layers в `models/`

## Ключевые инсайты

1. Конверсия из «просмотр товара» в «покупка» = 1.2% (типично для retail)
2. Top-10% клиентов = 38% выручки (Pareto 80/20)
3. Cohort retention: D30 = 8%, D90 = 4%

## Технический стек

- **SQL**: CTE, оконные функции (RANK, LAG), recursive CTE для cohort
- **Python**: pandas merge, groupby, dt.date arithmetic
- **dbt**: 8 staging models, 5 marts models, 12 tests
- **BI**: DataLens dashboard с 4 KPI и 6 charts

## Запуск проекта

bash

docker-compose up -d

make load-data

make run-dbt

make dashboard-url


## Чему научился

- Cohort retention analysis на SQL
- dbt incremental models (см. модель orders_daily)
- RFM segmentation через NTILE(5)

Контролируй детали

✅ Screenshot dashboard (или GIF)
✅ Insights — конкретные числа («Top-10% = 38% выручки»)
✅ Tech stack — список skills, чтобы HR-recruiter found твоё резюме
✅ Запуск — повторяется за <30 мин
❌ Без скриншотов — снова не увидят
❌ Без insights — кажется «просто SQL-скрипты»

Шаг 3: пишем в резюме (1 час)

Резюме — раздел «Проекты»:

### E-comm Funnel Analytics [github.com/yourname/ecf-project]

ETL pipeline для retail-воронки на 100k+ заказов: PostgreSQL 16,
Python (pandas), dbt 1.7, DataLens dashboard.

Реализовано:
- 8 dbt-моделей: staging → marts с incremental refresh
- SQL-запросы: cohort retention (оконные функции),
 RFM segmentation (NTILE), Pareto analysis (running sum)
- Dashboard в DataLens: 4 KPI + 6 charts с RLS
- Документация README + scripts для воспроизведения

Ключевой инсайт: Top-10% клиентов формируют 38% выручки
(Pareto), retention D30 = 8% (на уровне SaaS-приложений среднего).

Подробнее про резюме — в нашем гайде по резюме аналитика 2026.

Шаг 4: что говорить на собесе

Когда HR спрашивает «расскажи про проект» — у тебя должна быть 45-секундная elevator pitch:

«Анализировал retail-воронку из Olist e-commerce dataset на 100K заказов. Главный insight — top-10% клиентов формируют 38% выручки, классический Pareto. Делал в PostgreSQL + dbt + DataLens. Самое сложное было — посчитать correct cohort retention с window-функциями, переписывал три раза. GitHub есть, могу прислать».

Когда tech-интервьюер спрашивает «расскажи про SQL» — открывай свой проект и разбирай конкретный запрос:

«Вот мой funnel-запрос на оконных функциях. Здесь использовал CTE для очистки данных, потом LAG для расчёта времени между событиями. Изначально я делал self-join, но это O(n²) — переписал на window, в 10× быстрее на 100K rows».

Это в 100× сильнее чем абстрактные ответы.

Шаг 5: где взять помощь, если застрял

SQL вопросы: на SQL-тренажёре практика паттернов (window/CTE/recursion)
Python: Python-тренажёр с автопроверкой
dbt setup: наш dbt пост для начинающих
Метрики (retention, RFM): см. гайд по cohort retention и RFM сегментация
AI-помощник: AI-интервью на AI-Hub — задаёт вопросы по твоему проекту, проверяет понимание

Подводные камни

Грабли 1: pet-проект «as is from курс»

Все знают что-то из Karpov / Practicum. Сделать тот же проект что в курсе = тебя не выделит. Возьми базу из курса, но добавь свои фичи (другой dataset, другой BI, другая метрика).

Грабли 2: TODO в README

«Планирую сделать X, Y, Z» — это не сделанное. У тебя 30 секунд внимания HR. Не показывай чем хотел стать, показывай что есть.

Грабли 3: 100 «маленьких» проектов

5 пет-проектов по 1 файлу SQL — это нулевой signal. Лучше один полный проект с dashboard, дашбоардом и insights, чем 5 SQL-snippet'ов.

Грабли 4: «учебный» подход в README

Не пиши «Это учебный проект, я учусь SQL». Пиши как взрослый аналитик: «Анализирую retail-воронку, получены такие-то инсайты». Junior должен звучать как Middle.

Частые вопросы

Сколько времени реально занимает?

ECF проект: 2-3 недели по 10-15 часов в неделю. Если меньше — заметно по quality. Если больше 5 недель — закопаешься в perfection.

Можно ли pet-проект на курсе делать?

Можно, но сделай чуть-чуть свой. Другой dataset, другая визуализация, другой angle. HR быстро узнаёт Karpov / Practicum проекты.

Нужно ли деплоить дашборд публично?

Да! DataLens-публичная ссылка или скриншот в README. Без визуала проект в 10× менее впечатляет.

Если я только в SQL хочу — мне нужен Python?

Желательно. Не для production, а для loading data. Junior без Python — это ограниченный диапазон ролей. Минимум — pandas + psycopg2 (или sqlalchemy) для CSV→DB.

Можно использовать AI/LLM для написания pet-проекта?

Да, но понимай каждую строчку. Если AI написал query, который ты не объяснишь на собесе — это минус. Используй AI как ментора, не как ghost-writer. См. LLM для аналитика.

Что дальше

Если хочешь практику — попробуй SQL-тренажёр с автопроверкой (5 задач бесплатно). Все паттерны (cohort, funnel, RFM) можно отрепетировать там, а потом включить в pet-проект.

Готов к собеседованиям? AI-интервью задаёт вопросы про твой pet-проект (HR-style: «расскажи кратко», tech-style: «как ты считал retention»). В Pro — безлимит мок-собесов + 491 SQL-задача + 612 тестовых + 50+ блог-постов по аналитике и карьере.

Смежные посты

Сравнить Free и Pro → (1999₽/мес, экономит часы рутины)

Источники

Kaggle Datasets: «Olist Brazilian E-Commerce» (kaggle.com)
NYC TLC: «Yellow Taxi Trip Records»
Habr Career: «Pet-проекты аналитика 2026» (habr.com/career)
Avito Tech: «Как мы нанимаем Junior аналитиков»
T-Bank: «Что показывать в портфолио»

Pet-проект на SQL для аналитика: идеи и оформление

Почему pet-проект — must-have

5 идей pet-проектов 2026

ECF (E-comm Funnel) — analytics на retail-данных

NYC Taxi — Big Data analytics

A/B-тест калькулятор и анализ кейса

Retention dashboard для game/app

Анализ открытых вакансий hh.ru

Шаг 1: выбрать проект (1 день)

Шаг 2: оформление GitHub (1 неделя)

Шаблон README:

Контролируй детали

Шаг 3: пишем в резюме (1 час)

Шаг 4: что говорить на собесе

Шаг 5: где взять помощь, если застрял

Подводные камни

Грабли 1: pet-проект «as is from курс»

Грабли 2: TODO в README

Грабли 3: 100 «маленьких» проектов

Грабли 4: «учебный» подход в README

Частые вопросы

Сколько времени реально занимает?

Можно ли pet-проект на курсе делать?

Нужно ли деплоить дашборд публично?

Если я только в SQL хочу — мне нужен Python?

Можно использовать AI/LLM для написания pet-проекта?

Что дальше

Смежные посты

Источники

Похожие статьи