ИИ в разработке на локальном инференсе Вчера встретились небольшой группой… — @blog_sb

ИИ в разработке на локальном инференсе Вчера встретились небольшой группой обсудить итоги практических экспериментов по использованию локального инференса для целей корпоративной разработки. Выступал Андрей Зорин, собрались в офисе ScrumTrek, договорились не снимать и не записывать, чтобы свободно обсуждать чувствительные темы. Было много технических деталей, разнонаправленных мнений, примеров, сформулирую несколько полезных/интересных на мой взгляд тезисов. Самый главный вывод, - локальный инференс стал реальным. ▪️В декабре 2025-го года открытые LLM (Qwen3.5, GLM 5, DeepSeek) в части решения прикладных задач достигли уровня, сопоставимого с GPT 5.2, что сократило до минимума разрыв с закрытыми облачными моделями ▪️Основные барьеры 2025 года, такие как запредельная стоимость железа, отсутствие методологии, слабость локальных моделей на сегодняшний день сняты Самый главный сдвиг - появились мини-ПК, способные запускать модели класса 120–130B параметров ▪️Mac Studio M3 Ultra [6,5-8,5K USD за 256ГБ версию, 4k за 128ГБ] ▪️Nvidia DGX Spark (или альтернативы на GB10 от других вендоров) [5k USD за 128ГБ] ▪️AMD Strix Halo (Ryzen AI Max+ 395, от разных вендоров) [2-3k USD за 64-128ГБ] Разобрали вопросы архитектуры моделей, квантования и так кластеризации. Оптимальный выбор (исходя из соотношения стоимость/доступность/качество, а не скорости работы модели) для инференса в продакшне на текущий момент - Qwen3.5-122B-A10B в квантах Q4–Q5 с pipeline parallelism при объединении в кластер 2x2. Отдельно позже напишу свои мысли по компромиссу CAPEX/OPEX при выборе dense/sparse архитектуры модели. Обсудили на прикладном уровне PDC(S)A как базовую методологию работы с LLM-агентами. И отдельно, на основе изучения возможностей, существующих уже сейчас на базе личных прикладных опытов выдвинули предположение о сокращении численности продуктовых команд на при одновременном росте эффективности в 2027-м году. Мы, конечно, обсудили и конкретные проценты и области исходя из личных наблюдений, но пока это локальные гипотезы их лучше в публичное пространство не выносить. Лишь отмечу, что заявления Гартнера о том, что «50% компаний, уже сокративших персонал из-за ИИ, к 2027 году восстановят штат..» – это все из-за того, что они просто сократили штат, а не из-за ИИ (несмотря на заявления) и просто потеряли людей, с участием которых и должен происходить плавный переход. Фальшстарт, в общем.

Из этого канала