Отличная и редкая статья - с глубоким техническим и практическим погружением в проблему скорости инференса. Не общие слова про «мы внедрили ИИ», а конкретика: continuous batching, admission control, выбор движка под нагрузку (vLLM на старт, SGLang в прод с длинным контекстом) - всё на примерах из боевых проектов, с цифрами по latency и GPU. Много утащил себе в заметки и вам рекомендую. https://habr.com/ru/companies/otus/articles/1031286/
Отличная и редкая статья - с глубоким техническим и практическим погружением в…
Из этого канала
- #2890"Подготовили саммари выступлений в рамках прошедшего 26 мая оффлайн митапа…
"Подготовили саммари выступлений в рамках прошедшего 26 мая оффлайн митапа VTORNIK.Вечер.
- #2891Занимательная статистика
Занимательная статистика
- #2892Cursor выпустил отчёт о привычках разработчиков. Самое интересное в нём не…
Cursor выпустил отчёт о привычках разработчиков. Самое интересное в нём не выводы, а то, что в нём аккуратно не названо ни одним словом.
- #2887⚡️Вышло новое исследование Self-Service-круг Громова 2026 Оно показывает, как…
⚡️Вышло новое исследование Self-Service-круг Громова 2026 Оно показывает, как российские платформы помогают бизнес-пользователям работать автономно во всей…
- #2886Что такое творчество в положительном определении — сказать невозможно. Но…
Что такое творчество в положительном определении — сказать невозможно. Но возможно апофатическое: творчество есть то, к чему ИИ не способен в силу своей…