Отличная и редкая статья - с глубоким техническим и практическим погружением в проблему скорости инференса. Не общие слова про «мы внедрили ИИ», а конкретика: continuous batching, admission control, выбор движка под нагрузку (vLLM на старт, SGLang в прод с длинным контекстом) - всё на примерах из боевых проектов, с цифрами по latency и GPU. Много утащил себе в заметки и вам рекомендую. https://habr.com/ru/companies/otus/articles/1031286/