How Salesforce Delivers Reliable, Low-Latency AI Inference Сейчас довольно… — @cdo_club

How Salesforce Delivers Reliable, Low-Latency AI Inference Сейчас довольно остро стоит задача по повышению скорости инференса в AI LLM-based решениях. Ответ тут похоже простой и универсальный: либо делать магию с кэшем либо использовать sLM и прочие дисцилянты которые тупо быстро работают и требуют мало вычислительных ресурсов. Вот хороший пример: Salesforce разработала AI Metadata Service (AIMS), который обеспечивает индивидуальные настройки для AI-инференса в мультиоблачной и мультиарендной архитектуре. Основная задача команды было обеспечить высокую доступность и масштабируемость инфраструктуры для AI-воркфлоу, включая управление моделями и оркестрацию. Технически интересные моменты - Многоуровневое кэширование: Для устранения узких мест по производительности и надежности внедрены два уровня кэша: ▫ L1 (локальный кэш на стороне клиента AI Gateway) — мгновенный доступ к метаданным. ▫ L2 (кэш на стороне сервиса AIMS) — хранит долгоживущие данные и обеспечивает работу при сбоях бэкенда. - Снижение латентности: Кэширование позволило сократить задержку получения метаданных с 400 мс до нескольких миллисекунд, а общую задержку запроса — с 15 000 мс до 11 000 мс (на 27%). - Устойчивость к сбоям: L2-кэш позволяет системе работать даже при полной недоступности базы данных, обеспечивая до 65% доступности во время инцидентов. - Использование фреймворка Scone и аннотаций SmartCacheable упростило внедрение кэширования и обеспечило единые guardrails для команд. - Внедрена телеметрия для отслеживания хитов кэша, задержек и перехода на резервный кэш, с автоматическим оповещением через PagerDuty. Вывод простой: кэш всему голова :) Многоуровневое кэширование критично для масштабируемых AI-систем, особенно в условиях высокой нагрузки и редких изменений конфигураций. https://engineering.salesforce.com/how-salesforce-delivers-reliable-low-latency-ai-inference/

Из этого канала