mini-SGLang — оптимизированный минималистичный инференс движок Кодбаза способна на полноценный инференс Qwen 3 (Dense) и Llama 3 на уровне производительности большого SGLang, в котором на два порядка больше кода. Проект предназначен как и для обучения работе современных инференс движков, так и как минималистичная кодбаза для ресёрча. В ~5,000 строк кода на Python влезают основные оптимизации SGLang и довольно много функционала. Движок поддерживает как онлайн (по OpenAI API) так и оффлайн инференс, инференс на нескольких GPU, context caching. Но в то же время многим пришлось пожертвовать — выкинули поддержку большинства моделей, поддержку MoE, поддержку AMD и т.д. Но сама идея иметь минималистичную версию проекта с такой же архитектурой для экспериментирования и онбординга новых контрибьюторов мне нравится, хотелось бы больше такого. Блогпост https://github.com/sgl-project/mini-sglang @ai_newz