"Все обсуждают, кто обучил модель покруче. Мало кто обсуждает, как эту модель потом эффективно крутить в продакшене. А между тем именно инференс — это то, за что компании платят каждый день. Наткнулся на книгу ""Inference Engineering"" от Philip Kiely из Baseten. Сам пока не читал, но видел рекомендации от разработчиков, которым я доверяю. Почему тема важная, особенно для крупных компаний: инференс — это не только про то, как гонять GPT-класса модели на кластерах. Это и про SLM, которые можно запускать ближе к пользователю, дешевле и быстрее. Когда у тебя тысячи запросов в секунду и бюджет не резиновый, умение выжимать максимум из железа на этапе инференса — это прямая экономия. И конкурентное преимущество. Книга покрывает весь стек: от CUDA и GPU-архитектур до квантизации, speculative decoding и продакшен-инфраструктуры. 256 страниц, 7 глав, без воды. И главное — она бесплатная. PDF можно скачать прямо на сайте. Когда тебе бесплатно дают структурированное знание по теме, в которой через пару лет будет дефицит специалистов — странно не воспользоваться. https://www.baseten.co/inference-engineering/"