6x Faster ML Inference: Why Online≫Batch Кейс компании Whatnot. Они столкнулись с проблемой масштабирования пакетного ML-инференса: ежедневная обработка 10+ миллиардов пар пользователь-продавец приводила к потере покрытия и значительным финансовым потерям. Для решения пробелмы они перешли на онлайн-инференс, что позволило выдавать миллионы предсказаний с задержкой менее 200 мс и надежностью >99,9%. Основные моменты: - Миграция хранилища признаков с DynamoDB на Redis: это дало 3-кратное снижение задержки, особенно на длинных хвостах при параллельных батчах. - Переход с HTTP/1.1 на gRPC (HTTP/2) для передачи данных: 6,7-кратное улучшение скорости передачи больших матриц признаков. - Tail latency — критический фактор для онлайн-инференции: даже при хорошей средней производительности, длинные хвосты задержек могут разрушить SLO. - Применен системный подход к оптимизации: вместо догадок — нагрузочное тестирование, grid search, пошаговая изоляция узких мест. https://medium.com/whatnot-engineering/6x-faster-ml-inference-why-online-batch-16cbf1203947