ИИ в разработке на локальном инференсе Вчера встретились небольшой группой обсудить итоги практических экспериментов по использованию локального инференса для целей корпоративной разработки. Выступал Андрей Зорин, собрались в офисе ScrumTrek, договорились не снимать и не записывать, чтобы свободно обсуждать чувствительные темы. Было много технических деталей, разнонаправленных мнений, примеров, сформулирую несколько полезных/интересных на мой взгляд тезисов. Самый главный вывод, - локальный инференс стал реальным. ▪️В декабре 2025-го года открытые LLM (Qwen3.5, GLM 5, DeepSeek) в части решения прикладных задач достигли уровня, сопоставимого с GPT 5.2, что сократило до минимума разрыв с закрытыми облачными моделями ▪️Основные барьеры 2025 года, такие как запредельная стоимость железа, отсутствие методологии, слабость локальных моделей на сегодняшний день сняты Самый главный сдвиг - появились мини-ПК, способные запускать модели класса 120–130B параметров ▪️Mac Studio M3 Ultra [6,5-8,5K USD за 256ГБ версию, 4k за 128ГБ] ▪️Nvidia DGX Spark (или альтернативы на GB10 от других вендоров) [5k USD за 128ГБ] ▪️AMD Strix Halo (Ryzen AI Max+ 395, от разных вендоров) [2-3k USD за 64-128ГБ] Разобрали вопросы архитектуры моделей, квантования и так кластеризации. Оптимальный выбор (исходя из соотношения стоимость/доступность/качество, а не скорости работы модели) для инференса в продакшне на текущий момент - Qwen3.5-122B-A10B в квантах Q4–Q5 с pipeline parallelism при объединении в кластер 2x2. Отдельно позже напишу свои мысли по компромиссу CAPEX/OPEX при выборе dense/sparse архитектуры модели. Обсудили на прикладном уровне PDC(S)A как базовую методологию работы с LLM-агентами. И отдельно, на основе изучения возможностей, существующих уже сейчас на базе личных прикладных опытов выдвинули предположение о сокращении численности продуктовых команд на при одновременном росте эффективности в 2027-м году. Мы, конечно, обсудили и конкретные проценты и области исходя из личных наблюдений, но пока это локальные гипотезы их лучше в публичное пространство не выносить. Лишь отмечу, что заявления Гартнера о том, что «50% компаний, уже сокративших персонал из-за ИИ, к 2027 году восстановят штат..» – это все из-за того, что они просто сократили штат, а не из-за ИИ (несмотря на заявления) и просто потеряли людей, с участием которых и должен происходить плавный переход. Фальшстарт, в общем.
ИИ в разработке на локальном инференсе Вчера встретились небольшой группой…
Из этого канала
- #734Поздравляю. Все заблокировали, создали SPOF, пользуйтесь VK. Только VK уже…
Поздравляю. Все заблокировали, создали SPOF, пользуйтесь VK. Только VK уже неделю не работает (не только у меня).
- #735Стратегия использования с позиции CIO/CTO Давайте на основе этой встречи…
Стратегия использования с позиции CIO/CTO Давайте на основе этой встречи попробуем провести SWOT-анализ и построить достаточно универсальную стратегию…
- #736Единая модель данных и сами данные Сейчас идет интересный проект с внутренней…
Единая модель данных и сами данные Сейчас идет интересный проект с внутренней платформой в организации.
- #731Начинаем встречу https://www.youtube.com/watch?v=Dxb0OoeSMrI
Начинаем встречу https://www.youtube.com/watch?v=Dxb0OoeSMrI
- #730Митап с Сергеем Барановым про LLM в архитектуре IT решения Как вы поняли, на…
Митап с Сергеем Барановым про LLM в архитектуре IT решения Как вы поняли, на стримы мы подсели плотно :) Очень интересные гости у нас.