"Код - это настолько мощная абстракция для мышления моделей, что иных инструментов LLM-кам и не надо Первые признаки этого мы с вами видели в топовых архитектурах соревнований Enterprise RAG Challenge и Personal Assistants Challenge, но настоящие результаты начинаем пожинать только сейчас. Вот вам еще один пример архитектуры, которая была очень простой, использовала Open Weights модель, но при этом заняла вслепую TOP-20 место в ECOM1. Ее создал __Farid Temuri__ вместе с Claude на TypeScript. Рисунок архитектуры - в комментариях. Под капотом mimo-v2.5-pro (1T sparse MoE модель с 42B активных параметров), кодовая песочница, агент замкнут в REPL цикл до 35 шагов, чеклист на выходе заворачивает ошибочные ответы назад с обратной связью. Работает не сильно быстро - 233 минуты, но это Open Weights агент, который выбил вслепую 72 балла в Ultimate Leaderboard на экзотической модели! Я думаю, что дальше тренды внедрений LLM в бизнес будут развиваться так: (1) благодаря кодовым рельсам мы будем видеть все больше Open Weights моделей в топах (2) модели под капотом будут становиться все меньше и доступнее (3) внедрения LLM в бизнес будут все больше приходить в сторону кодовых агентов. __Люди так долго ждали первые AI-Native компании, что проспали их возникновение. Просто потому, что они пришли не из какого-то невероятно нового будущего, а тихонько прокрались из старого и знакомого. Они рождаются из старого доброго кода, который прорастает вокруг существующих процессов. __ Oбзор архитектуры, ссылки на лог соревнования и исходники лежат тут на BitGN Insights. Вы можете хоть сегодня забрать эту версию агента и попробовать запустить самостоятельно на какой-нибудь модели поменьше и сами посмотреть, что получится. Чтобы все могли быстрее прокачиваться, я добавил на платформу мощностей и повысил лимиты. Ваш, @llm _under_hood 🤗 PS: А тем, кто прошел мой видео-курс по основам создания AI Ассистентов, задачка - ""Сколько паттернов из курса вы найдете на схеме этой архитектуры?"""
"Код - это настолько мощная абстракция для мышления моделей, что иных…
Из этого канала
- #866LLM Бенчмарк Anthropic Fable 5 на бизнес-задачах c максимальным reasoning Если…
LLM Бенчмарк Anthropic Fable 5 на бизнес-задачах c максимальным reasoning Если кратко, то эта новая модель считает себя слишком умной и на задачах, которые…
- #867Что стоит обсуждать при разговоре о разработке с AI агентами? Вот примерно…
Что стоит обсуждать при разговоре о разработке с AI агентами? Вот примерно такой план набросали мы с Айгизом для подготовке к созвону в пятницу.
- #864А давайте проведем вебинар про современную разработку при помощи агентов? У нас…
А давайте проведем вебинар про современную разработку при помощи агентов? У нас тут с Айгизом наболело, и мы решили провести совместный вебинар про современную…
- #863Я купил свою последнюю лицензию JetBrains - Goland. Вообще я пользуюсь…
Я купил свою последнюю лицензию JetBrains - Goland. Вообще я пользуюсь инструментами разработки от JetBrains лет двадцать, со времен первых версий ReSharper-a…
- #862Все читали про взлом аккаунтов в Instagram через агента службы поддержки? Там…
Все читали про взлом аккаунтов в Instagram через агента службы поддержки? Там подсунули боту фейковый контекст и попросили поменять почтовый адрес своего…