Ситуация: Lyft — ride-sharing с миллионами поездок/день. Разные данные в разных источниках: rides в MySQL, events в Hive S3, driver data в DynamoDB. Аналитики хотят cross-source SQL без ETL pipeline.
Lyft Engineering blog публикует архитектуру с Trino как central query engine. Раньше — много specialized pipelines. Теперь — federated Trino для self-service analytics.
rides_db (MySQL): ride_id, rider_id, driver_id, fare, start_timeevents_lake (Hive/S3): user_events за 2+ годаdriver_dynamo (DynamoDB): driver_status, current_locationml_features (Iceberg): pre-computed features