6x Faster ML Inference: Why Online≫Batch Кейс компании Whatnot. Они столкнулись с проблемой масштабирования пакетного ML-инференса: ежедневная обработка 10+ миллиардов пар пользователь-продавец приводила к потере покрытия и значительным финансовым потерям. Для решения пробелмы они перешли на онлайн-инференс, что позволило выдавать миллионы предсказаний с задержкой менее 200 мс и надежностью >99,9%. Основные моменты: - Миграция хранилища признаков с DynamoDB на Redis: это дало 3-кратное снижение задержки, особенно на длинных хвостах при параллельных батчах. - Переход с HTTP/1.1 на gRPC (HTTP/2) для передачи данных: 6,7-кратное улучшение скорости передачи больших матриц признаков. - Tail latency — критический фактор для онлайн-инференции: даже при хорошей средней производительности, длинные хвосты задержек могут разрушить SLO. - Применен системный подход к оптимизации: вместо догадок — нагрузочное тестирование, grid search, пошаговая изоляция узких мест. https://medium.com/whatnot-engineering/6x-faster-ml-inference-why-online-batch-16cbf1203947
6x Faster ML Inference: Why Online≫Batch Кейс компании Whatnot. Они столкнулись…
Из этого канала
- #2454Дайджест статей Data Engineering Was Hard Until I Learned These 15 System…
Дайджест статей Data Engineering Was Hard Until I Learned These 15 System Design Concepts.
- #2455Данная статья — подробный гайд по выбору нейросети для глубоких исследований…
Данная статья — подробный гайд по выбору нейросети для глубоких исследований (Deep Research), с акцентом на ChatGPT, Gemini, Perplexity, Grok и Claude.
- #2456Коллеги, не могу не поделиться новостью от нашей команды CleverDATA -…
Коллеги, не могу не поделиться новостью от нашей команды CleverDATA - CDP-платформу CleverData Join включили в первую карту B2B-MarTech-инструментов России от…
- #2452Как ИИ изменит ЧЕЛОВЕЧЕСТВО? | Давид Ян, Кремниевая долина Посмотрел очередное…
Как ИИ изменит ЧЕЛОВЕЧЕСТВО? | Давид Ян, Кремниевая долина Посмотрел очередное интервью Давида Яна.
- #2451How Salesforce Delivers Reliable, Low-Latency AI Inference Сейчас довольно…
How Salesforce Delivers Reliable, Low-Latency AI Inference Сейчас довольно остро стоит задача по повышению скорости инференса в AI LLM-based решениях.