Главный вопрос Junior-аналитика 2026: «Без опыта берут?». Ответ — с опытом, но опыт можно собрать самому за 2-4 недели. Pet-проект — это твой единственный способ показать на собеседовании что ты можешь. Без него ты просто резюме среди 200 других.
Этот гайд — что строить, как оформить, что писать в резюме.
Почему pet-проект — must-have
| Сценарий | Без pet-проекта | С pet-проектом |
|---|---|---|
| HR cmenu прошёл | 30-40% | 70-80% |
| Технический собес | «Скрипт по шаблону» | «Расскажи про свой проект» |
| Final раунд | Часто рубят | Конкретный пример работы |
| Зарплата | На 20-30% ниже offer'а | Полная вилка вилки junior |
Pet-проект решает главную проблему junior'а: HR/тимлид не знают что у тебя в голове. С GitHub'ом + README они видят твой код, твою логику, твой стиль.
5 идей pet-проектов 2026
ECF (E-comm Funnel) — analytics на retail-данных
Что: Загружаешь open dataset (Olist Brazilian e-commerce из Kaggle, или Москва Open Data), пишешь SQL для funnel (просмотр → корзина → оплата), retention cohort, RFM-сегментация. Делаешь дашборд в DataLens / Apache Superset.
Время: 2-3 недели
Скиллы: SQL (CTE, window), Python (pandas/SQL connector), BI (DataLens/Superset), Git
Где взять данные: Kaggle «Brazilian E-Commerce by Olist», Yandex.Marketplace public data, Avito Insights
NYC Taxi — Big Data analytics
Что: Загружаешь NYC Taxi dataset (10-100GB CSV), делаешь анализ peak hours, tip patterns, route optimization. ClickHouse + Apache Superset.
Время: 3-4 недели
Скиллы: SQL для больших данных, ClickHouse, Docker, время-серии, Python
Где взять данные: TLC NYC (nyc.gov/site/tlc/)
A/B-тест калькулятор и анализ кейса
Что: Берёшь публичный A/B-кейс (Booking.com / Airbnb / Netflix paper) или симулируешь свой. Считаешь sample size, power, MDE через Python/scipy. Пишешь bool «выводы».
Время: 1-2 недели
Скиллы: Статистика, scipy.stats, Jupyter, объяснение результатов
Где взять: arxiv.org «AB testing case study», Netflix Tech Blog
Retention dashboard для game/app
Что: Симулируешь user events (signup, login, purchase) через Python + ClickHouse. Считаешь D1/D7/D30 retention, cohort heatmap, LTV. Дашборд в Apache Superset.
Время: 2-3 недели
Скиллы: Симуляция данных (синтетические события), SQL window functions, cohort analysis. См. гайд по cohort retention SQL.
Inspiration: GameAnalytics / Amplitude case studies
Анализ открытых вакансий hh.ru
Что: Парсишь hh.ru вакансии аналитика (через их API), анализируешь распределение зарплат, технологий, городов. Output: dashboard + insights post.
Время: 2-3 недели
Скиллы: REST API (Python requests), pandas, NLP basics (skill extraction), визуализация. См. Python для аналитика.
Где данные: api.hh.ru — public, ограничения 200 req/sec
Шаг 1: выбрать проект (1 день)
Не пытайся сделать всё сразу. Выбирай один проект и доводи до production-quality README.
Правила выбора:
- ✅ Использует минимум 2 технологии из стека работодателя (SQL + Python + BI)
- ✅ Можно показать чему научился (CTE, window, retention math)
- ✅ Завершаем за 2-4 недели максимум
- ✅ Imitates реальные проблемы компаний (funnel, retention, A/B)
- ❌ Не клон to-do app
- ❌ Не «hello world DAG в Airflow»
Шаг 2: оформление GitHub (1 неделя)
Главный документ — README.md. Большинство HR читают только его.
Шаблон README:
# E-comm Funnel Analytics
[]()
[]()
[]()
## TL;DR
Анализ retail-воронки Olist: 100k orders → SQL aggregations →
DataLens dashboard. Открытый код, можно повторить за день.
## Скриншот дашборда

## Что внутри
- **PostgreSQL 16** — хранение, схема DDL в `sql/schema.sql`
- **Python (pandas, psycopg2)** — загрузка CSV → PG
- **SQL** — `queries/funnel.sql`, `queries/cohort_retention.sql`, `queries/rfm.sql`
- **DataLens** — dashboard URL: …
- **dbt** — staging/marts layers в `models/`
## Ключевые инсайты
1. Конверсия из «просмотр товара» в «покупка» = 1.2% (типично для retail)
2. Top-10% клиентов = 38% выручки (Pareto 80/20)
3. Cohort retention: D30 = 8%, D90 = 4%
## Технический стек
- **SQL**: CTE, window functions (RANK, LAG), recursive CTE для cohort
- **Python**: pandas merge, groupby, dt.date arithmetic
- **dbt**: 8 staging models, 5 marts models, 12 tests
- **BI**: DataLens dashboard с 4 KPI и 6 charts
## Запуск проектаbash
docker-compose up -d
make load-data
make run-dbt
make dashboard-url
## Чему научился
- Cohort retention analysis на SQL
- dbt incremental models (см. модель orders_daily)
- RFM segmentation через NTILE(5)
Контролируй детали
- ✅ Screenshot dashboard (или GIF)
- ✅ Insights — конкретные числа («Top-10% = 38% выручки»)
- ✅ Tech stack — список skills, чтобы HR-recruiter found твоё резюме
- ✅ Запуск — повторяется за <30 мин
- ❌ Без скриншотов — снова не увидят
- ❌ Без insights — кажется «просто SQL-скрипты»
Шаг 3: пишем в резюме (1 час)
Резюме — раздел «Проекты»:
### E-comm Funnel Analytics [github.com/yourname/ecf-project]
ETL pipeline для retail-воронки на 100k+ заказов: PostgreSQL 16,
Python (pandas), dbt 1.7, DataLens dashboard.
Реализовано:
- 8 dbt-моделей: staging → marts с incremental refresh
- SQL-запросы: cohort retention (window functions),
RFM segmentation (NTILE), Pareto analysis (running sum)
- Dashboard в DataLens: 4 KPI + 6 charts с RLS
- Документация README + scripts для воспроизведения
Ключевой инсайт: Top-10% клиентов формируют 38% выручки
(Pareto), retention D30 = 8% (на уровне SaaS-приложений среднего).
Подробнее про резюме — в нашем гайде по резюме аналитика 2026.
Шаг 4: что говорить на собесе
Когда HR спрашивает «расскажи про проект» — у тебя должна быть 45-секундная elevator pitch:
«Анализировал retail-воронку из Olist e-commerce dataset на 100K заказов. Главный insight — top-10% клиентов формируют 38% выручки, классический Pareto. Делал в PostgreSQL + dbt + DataLens. Самое сложное было — посчитать correct cohort retention с window-функциями, переписывал три раза. GitHub есть, могу прислать».
Когда tech-интервьюер спрашивает «расскажи про SQL» — открывай свой проект и разбирай конкретный запрос:
«Вот мой funnel-запрос на оконных функциях. Здесь использовал CTE для очистки данных, потом LAG для расчёта времени между событиями. Изначально я делал self-join, но это O(n²) — переписал на window, в 10× быстрее на 100K rows».
Это в 100× сильнее чем абстрактные ответы.
Шаг 5: где взять помощь, если застрял
- SQL вопросы: на SQL-тренажёре практика паттернов (window/CTE/recursion)
- Python: Python-тренажёр с автопроверкой
- dbt setup: наш dbt пост для начинающих
- Метрики (retention, RFM): см. гайд по cohort retention и RFM сегментация
- AI-помощник: AI-интервью на AI-Hub — задаёт вопросы по твоему проекту, проверяет понимание
Подводные камни
Грабли 1: pet-проект «as is from курс»
Все знают что-то из Karpov / Practicum. Сделать тот же проект что в курсе = тебя не выделит. Возьми базу из курса, но добавь свои фичи (другой dataset, другой BI, другая метрика).
Грабли 2: TODO в README
«Планирую сделать X, Y, Z» — это не сделанное. У тебя 30 секунд внимания HR. Не показывай чем хотел стать, показывай что есть.
Грабли 3: 100 «маленьких» проектов
5 пет-проектов по 1 файлу SQL — это нулевой signal. Лучше один полный проект с dashboard, дашбоардом и insights, чем 5 SQL-snippet'ов.
Грабли 4: «учебный» подход в README
Не пиши «Это учебный проект, я учусь SQL». Пиши как взрослый аналитик: «Анализирую retail-воронку, получены такие-то инсайты». Junior должен звучать как Middle.
Частые вопросы
Сколько времени реально занимает?
ECF проект: 2-3 недели по 10-15 часов в неделю. Если меньше — заметно по quality. Если больше 5 недель — закопаешься в perfection.
Можно ли pet-проект на курсе делать?
Можно, но сделай чуть-чуть свой. Другой dataset, другая визуализация, другой angle. HR быстро узнаёт Karpov / Practicum проекты.
Нужно ли деплоить дашборд публично?
Да! DataLens-публичная ссылка или скриншот в README. Без визуала проект в 10× менее впечатляет.
Если я только в SQL хочу — мне нужен Python?
Желательно. Не для production, а для loading data. Junior без Python — это ограниченный диапазон ролей. Минимум — pandas + psycopg2 (или sqlalchemy) для CSV→DB.
Можно использовать AI/LLM для написания pet-проекта?
Да, но понимай каждую строчку. Если AI написал query, который ты не объяснишь на собесе — это минус. Используй AI как ментора, не как ghost-writer. См. LLM для аналитика.
Что дальше
Если хочешь практику — попробуй SQL-тренажёр с автопроверкой (5 задач бесплатно). Все паттерны (cohort, funnel, RFM) можно отрепетировать там, а потом включить в pet-проект.
Готов к собеседованиям? AI-интервью задаёт вопросы про твой pet-проект (HR-style: «расскажи кратко», tech-style: «как ты считал retention»). В Pro — безлимит мок-собесов + 491 SQL-задача + 612 тестовых + 50+ блог-постов по аналитике и карьере.
Смежные посты
- Где практиковать SQL для аналитика 2026
- Cohort retention в SQL
- RFM сегментация в SQL
- Voronka конверсии SQL
- Резюме аналитика 2026
- Roadmap от нуля до Junior аналитика
Сравнить Free и Pro → (1999₽/мес, экономит часы рутины)
Источники
- Kaggle Datasets: «Olist Brazilian E-Commerce» (kaggle.com)
- NYC TLC: «Yellow Taxi Trip Records»
- Habr Career: «Pet-проекты аналитика 2026» (habr.com/career)
- Avito Tech: «Как мы нанимаем Junior аналитиков»
- T-Bank: «Что показывать в портфолио»