На чем запускать локальные модели? В нашем комьюнити очень много людей и команд с практическим опытом локального разнообразных систем с LLM под капотом. Это видно по RAG решениям на ERC, обсуждениям в чате и представлениям в группе курса. А давайте поговорим про то, как вы запускаете свои системы для пользователей? Речь не столько про запуск через ollama на ноутбуке, сколько про разворачивание системы для 5-30 одновременных пользователей (скорее throughput, чем latency). - Какие модели используете? - Как заводите Structured Outputs (если используете)? - Какое железо и inference framework под капотом, с какими параметрами? - Сколько tokens per second получается выжать и с какими контекстами. Но, самое главное, как оно вообще вам на практике? Ваш, @llm_under_hood 🤗 PS: Если кажется, что в комментариях дискуссия прервалась - она могла отвязаться от обсуждения и провалиться в чат канала: @llm_driven_products. PPS: Если впервые заходите в чат, пожалуйста, не игнорируйте запрос от нашего бота. Он бдит, банит ботов и не понимает шуток.