How Salesforce Delivers Reliable, Low-Latency AI Inference Сейчас довольно остро стоит задача по повышению скорости инференса в AI LLM-based решениях. Ответ тут похоже простой и универсальный: либо делать магию с кэшем либо использовать sLM и прочие дисцилянты которые тупо быстро работают и требуют мало вычислительных ресурсов. Вот хороший пример: Salesforce разработала AI Metadata Service (AIMS), который обеспечивает индивидуальные настройки для AI-инференса в мультиоблачной и мультиарендной архитектуре. Основная задача команды было обеспечить высокую доступность и масштабируемость инфраструктуры для AI-воркфлоу, включая управление моделями и оркестрацию. Технически интересные моменты - Многоуровневое кэширование: Для устранения узких мест по производительности и надежности внедрены два уровня кэша: ▫ L1 (локальный кэш на стороне клиента AI Gateway) — мгновенный доступ к метаданным. ▫ L2 (кэш на стороне сервиса AIMS) — хранит долгоживущие данные и обеспечивает работу при сбоях бэкенда. - Снижение латентности: Кэширование позволило сократить задержку получения метаданных с 400 мс до нескольких миллисекунд, а общую задержку запроса — с 15 000 мс до 11 000 мс (на 27%). - Устойчивость к сбоям: L2-кэш позволяет системе работать даже при полной недоступности базы данных, обеспечивая до 65% доступности во время инцидентов. - Использование фреймворка Scone и аннотаций SmartCacheable упростило внедрение кэширования и обеспечило единые guardrails для команд. - Внедрена телеметрия для отслеживания хитов кэша, задержек и перехода на резервный кэш, с автоматическим оповещением через PagerDuty. Вывод простой: кэш всему голова :) Многоуровневое кэширование критично для масштабируемых AI-систем, особенно в условиях высокой нагрузки и редких изменений конфигураций. https://engineering.salesforce.com/how-salesforce-delivers-reliable-low-latency-ai-inference/
How Salesforce Delivers Reliable, Low-Latency AI Inference Сейчас довольно…
Из этого канала
- #2452Как ИИ изменит ЧЕЛОВЕЧЕСТВО? | Давид Ян, Кремниевая долина Посмотрел очередное…
Как ИИ изменит ЧЕЛОВЕЧЕСТВО? | Давид Ян, Кремниевая долина Посмотрел очередное интервью Давида Яна.
- #24536x Faster ML Inference: Why Online≫Batch Кейс компании Whatnot. Они столкнулись…
6x Faster ML Inference: Why Online≫Batch Кейс компании Whatnot. Они столкнулись с проблемой масштабирования пакетного ML-инференса: ежедневная обработка 10+…
- #2454Дайджест статей Data Engineering Was Hard Until I Learned These 15 System…
Дайджест статей Data Engineering Was Hard Until I Learned These 15 System Design Concepts.
- #2450В предверии презентации Apple, которая пока так и не смогла ничего показать в…
В предверии презентации Apple, которая пока так и не смогла ничего показать в части развития Siri и похоже безнадежно отстала от Google с его Pixel 10 (но как…
- #2449Дайджест статей Как аналитики Авито с помощью ML помогают людям выбирать…
Дайджест статей Как аналитики Авито с помощью ML помогают людям выбирать хорошие авто с пробегом https://habr.com/ru/companies/avito/articles/937610/…