Pandas внутри это numpy + индекс. Знание numpy открывает: ускорение pandas-операций через .values + numpy-функции, написание sklearn-преобразований, понимание broadcasting (ошибки «shape mismatch» — это про numpy).
Автоматическое выравнивание размерностей при операциях между массивами разных форм. np.array([1,2,3]) + 10 → [11,12,13] — 10 «броадкастится» на каждую строку. Работает по правилам совместимости shape.
На массиве 1М элементов: цикл for ~1 сек, np.sum() — 5мс. Разница 200×. Это потому что numpy под капотом C-код, а Python-цикл интерпретируется.
np.where(condition, value_if_true, value_if_false) — векторная замена if-else. На больших данных в 100× быстрее. Поддерживает вложенность (np.where внутри np.where) для multi-condition.
* — поэлементное умножение (Hadamard product). np.dot или @ — матричное умножение (как в линейной алгебре). Путают на собесе ML-аналитика регулярно.
Pandas: основы · Pandas groupby · Pandas merge / join · Pandas time series · scipy: A/B-тесты · sklearn для аналитика · Графики: matplotlib / seaborn