LLM под капотом@llm_under_hood
Канал про разработку продуктов на базе LLM/ChatGPT. Выжимка важных новостей и разборы кейсов. Чтобы писать - напишите боту @llm_under_hood_bot Рекламы в канале - нет. За комменты от ботов баним вместе с хозяином.
Последние посты (60)
- #86710 июн. 2026 г.4 531 views
Что стоит обсуждать при разговоре о разработке с AI агентами? Вот примерно…
Что стоит обсуждать при разговоре о разработке с AI агентами? Вот примерно такой план набросали мы с Айгизом для подготовке к созвону в пятницу. Нам пришлось порезать список проектов, о которых рассказываем, чтобы был шанс уложиться в два часа.
- #8669 июн. 2026 г.2 614 views
LLM Бенчмарк Anthropic Fable 5 на бизнес-задачах c максимальным reasoning Если…
LLM Бенчмарк Anthropic Fable 5 на бизнес-задачах c максимальным reasoning Если кратко, то эта новая модель считает себя слишком умной и на задачах, которые требуют точных ответов, иногда начинает нести больше отсебятины, нежели другие frontier модели.
- #8659 июн. 2026 г.4 932 views
"Код - это настолько мощная абстракция для мышления моделей, что иных…
"Код - это настолько мощная абстракция для мышления моделей, что иных инструментов LLM-кам и не надо Первые признаки этого мы с вами видели в топовых архитектурах соревнований Enterprise RAG Challenge и Personal Assistants Challenge, но настоящие результаты начинаем пожинать…
- #8648 июн. 2026 г.6 390 views
А давайте проведем вебинар про современную разработку при помощи агентов? У нас…
А давайте проведем вебинар про современную разработку при помощи агентов? У нас тут с Айгизом наболело, и мы решили провести совместный вебинар про современную разработку.
- #8637 июн. 2026 г.7 496 views
Я купил свою последнюю лицензию JetBrains - Goland. Вообще я пользуюсь…
Я купил свою последнюю лицензию JetBrains - Goland. Вообще я пользуюсь инструментами разработки от JetBrains лет двадцать, со времен первых версий ReSharper-a для VisualStudio. Их инструменты круты, но руками уже что-то разрабатывать нет нужды.
- #8625 июн. 2026 г.5 178 views
Все читали про взлом аккаунтов в Instagram через агента службы поддержки? Там…
Все читали про взлом аккаунтов в Instagram через агента службы поддержки? Там подсунули боту фейковый контекст и попросили поменять почтовый адрес своего аккаунта на новый, что он и сделал. Так утекло немало аккаунтов.
- #8614 июн. 2026 г.3 393 views
"Мы с COLIBRIX нашли классных партнеров на ECOM2! Правда они еще секретные и…
"Мы с COLIBRIX нашли классных партнеров на ECOM2! Правда они еще секретные и медленные, к июню раскачаться не успеют, поэтому ECOM2 перенесем на осень.
- #8603 июн. 2026 г.5 404 views
"LLM Бенчмарки Qwen 3.7, GPT-5.4+, Opus 4.7+, DeepSeek V4 Пока я хожу по…
"LLM Бенчмарки Qwen 3.7, GPT-5.4+, Opus 4.7+, DeepSeek V4 Пока я хожу по конференции, вот вам неожиданный подарок от @AigizK - обновленная версия наших LLM бенчмарков с последними версиями.
- #8592 июн. 2026 г.6 044 views
Конференция M2020 - огонь. Не в смысле, что много передового AI (наше комьюнити…
Конференция M2020 - огонь. Не в смысле, что много передового AI (наше комьюнити куда передовее), а в смысле неожиданных инсайтов с полей. Например, про агентов в e-commerce и печальное состояние SotA в бизнесе.
- #8582 июн. 2026 г.6 220 views
Лечу на Money 20/20 в Амстердаме. Буду с Colibrix рассказывать про нашу…
Лечу на Money 20/20 в Амстердаме. Буду с Colibrix рассказывать про нашу платформу, верификацию агентов, искать новые кейсы и коллабы для ECOM2. Пишите, если кто-то будет там! Ваш, @llmunderhood 🤗
- #8571 июн. 2026 г.6 950 views
"Анализ: Nous Hermes Agent + DeepSeek V4 на BitGN ECOM1 Итак, это архитектура…
"Анализ: Nous Hermes Agent + DeepSeek V4 на BitGN ECOM1 Итак, это архитектура Ивана Коновалова. Он выбрал ""hardcore"" режим и использовал только Open Weights модели (бейджики за присланные описания OW архитектур скоро сделаю!).
- #85631 мая 2026 г.4 120 views
Как рассказать всему миру про свою архитектуру? А заодно поделиться ссылками на…
Как рассказать всему миру про свою архитектуру? А заодно поделиться ссылками на github/LinkedIn блоги? Возможно найти новые интересные проекты? Нужно прислать PR вот в эту github repo.
- #85531 мая 2026 г.4 149 views
BitGN ECOM1 Scores Reveal - рассказываем про победителей! Youtube Stream Hall…
BitGN ECOM1 Scores Reveal - рассказываем про победителей! Youtube Stream Hall of fame leaderboards: • Accuracy at any costs - only one blind nomination per account. • Speed - nominated runs under 1 hour • Ultimate - across all blind submissions Заходите! Ваш, @llmunderhood 🤗
- #85430 мая 2026 г.3 222 views
Соревнование BitGN ECOM1-PROD закончилось! Бенчмарк теперь открыт для всех.…
Соревнование BitGN ECOM1-PROD закончилось! Бенчмарк теперь открыт для всех. Те, кто чуть-чуть не успел - могут первыми посмотреть на свои результаты.
- #85330 мая 2026 г.3 704 views
BitGN1 ECOM1-PROD запущен (1) Соревновании агентов и их разработчиков - на…
BitGN1 ECOM1-PROD запущен (1) Соревновании агентов и их разработчиков - на странице ECOM. (2) Стрим с открытия - YouTube. (3) Почему у меня такая прическа сегодня - рассказано в стриме.
- #85230 мая 2026 г.4 034 views
ECOM1 Challenge - низкий старт • Предварительный стрим: 9:30 CEST (по Вене): •…
ECOM1 Challenge - низкий старт • Предварительный стрим: 9:30 CEST (по Вене): • В 10:00 - открытие задач ECOM1-PROD • 13:00 - закрываем соревновательный раунд, переводим бенчмарк в открытый режим. • 31 Мая в 10:00 - открытие результатов и объявление мест.
- #85128 мая 2026 г.3 043 views
Задачки на OCR в ecom1-dev и сюрприз агентам-скрейперам Итак, небольшой апдейт…
Задачки на OCR в ecom1-dev и сюрприз агентам-скрейперам Итак, небольшой апдейт платформы. (1) Просили OCR? Добавил 3 задачки на OCR. Теперь потолок - 53 (2) Интерфейс работы с Harness чуть поменялся.
- #85028 мая 2026 г.5 387 views
Markdown самый популярный язык программирования в моих проектах :D Следом за…
Markdown самый популярный язык программирования в моих проектах :D Следом за ним идут go, HTML, Text и CSS. На графике - рост числа строчек кода в этом году.
- #84927 мая 2026 г.3 681 views
Разработка проектов с AI агентами - про правильные сценарии, требования и…
Разработка проектов с AI агентами - про правильные сценарии, требования и инструментарий. Когда такие рельсы настроены, то процессы по ним просто летают. Например, вчера вы мне чуть не уронили сервер загрузкой. Но чуть не считается, ибо Codex быстро все оптимизировал и выкатил.
- #84826 мая 2026 г.3 889 views
Я скоро смогу написать кандидатскую на тему того, как могут жульничать агенты в…
Я скоро смогу написать кандидатскую на тему того, как могут жульничать агенты в Agentic E-Commerce бенчмарках Но это все потом, а пока ловите новую версию задач ECOM1-DEV BitGN.
- #84725 мая 2026 г.3 376 views
BitGN ECOM1 состоится 30 Мая. Расписание remote-first: • Предварительный стрим…
BitGN ECOM1 состоится 30 Мая. Расписание remote-first: • Предварительный стрим начнется в 9:30 CEST (по Вене) • В 10:00 - открытие 100 задач ECOM1-PROD • 13:00 - закрываем соревновательный раунд, переводим бенчмарк в открытый режим.
- #84623 мая 2026 г.3 417 views
В чате недавно обсуждали, на что использовать оставшиеся свободные tokens в…
В чате недавно обсуждали, на что использовать оставшиеся свободные tokens в подписках ChatGPT/Claude? Например, на эксперименты с архитектурами AI агентов, используя задачи с BitGN Arena в качестве индикатора.
- #84523 мая 2026 г.4 443 views
Personal OS v2.1 - субличность без привязки к провайдеру Пост выходного дня…
Personal OS v2.1 - субличность без привязки к провайдеру Пост выходного дня #weekend В феврале я начал свой эксперимент с использованием OpenAI Codex в качестве персонального ассистента. Успешного успеха хотелось, но использовать OpenClaw было боязно.
- #84322 мая 2026 г.3 527 views
BitGN Live лидерборды теперь учитывают время прогона Начиная с сейчас, в…
BitGN Live лидерборды теперь учитывают время прогона Начиная с сейчас, в лидербордах публикуется полное время, которое потребовалось агенту для прохождения прогона. Если очки одинаковые, то теперь в топ попадает не последнее решение, а более быстрое.
- #84221 мая 2026 г.3 679 views
ECOM1 получил продолжение на второй сезон! ECOM1 заходит хорошо (6.4k…
ECOM1 получил продолжение на второй сезон! ECOM1 заходит хорошо (6.4k завершенных агентских прогонов и четверть миллиона попыток решения задач, нагрузка идет круглые сутки), а в логах начинают просматриваться интересные вещи.
- #84120 мая 2026 г.5 619 views
"Что у нас сейчас происходит в мире? - продавцы быстрее делают AI-приложения и…
"Что у нас сейчас происходит в мире? - продавцы быстрее делают AI-приложения и AI-обертки; - маркетинг обещает пользователю все больше магии (сейлзы теперь могут не слайды делать, а вайб-кодить сразу продукт) - личные агенты начинают выбирать, покупать и строчить жалобы вместо…
- #84018 мая 2026 г.4 483 views
Если дать агентам свободу - они могут лениться Про такое сейчас можно часто…
Если дать агентам свободу - они могут лениться Про такое сейчас можно часто услышать. У кого-то они закомментируют тесты, чтобы получить 100% pass rate, у кого-то выпилят нужную фичу или просто поправят код проверки.
- #83917 мая 2026 г.4 007 views
Я поднял потолок ECOM1-DEV до 40, теперь и с мошенничеством! В тестовой BitGN…
Я поднял потолок ECOM1-DEV до 40, теперь и с мошенничеством! В тестовой BitGN арене для AI агентов (BitGN ECOM1-DEV) добавилось 9 новых задач. Последние три задачи самые интересные. Если кто помнит, я люблю симуляции (см раздел про симуляции у меня на сайте).
- #83817 мая 2026 г.4 889 views
"Codex Desktop / CLI поддерживает режим ""копать отсюда до обеда"" Для этого…
"Codex Desktop / CLI поддерживает режим ""копать отсюда до обеда"" Для этого нужно в `~/.codex/config.toml` включить такой флаг: ``` [features] goals = true ``` и потом можно запускать задачу с режимом `/goal` и уходить заниматься своими делами.
- #83716 мая 2026 г.6 045 views
"Когда-то, когда только появлялись первые сервера и BBS-ки, а по сетям бродили…
"Когда-то, когда только появлялись первые сервера и BBS-ки, а по сетям бродили призраки Кейса и Стрелка (Глубина-глубина, я не твой…), субкультура хакеров цвела и пахла. Было что взламывать и чем, это было прямо приключениями. Потом все стало скучнее.
- #83615 мая 2026 г.6 373 views
BitGN ECOM API Freeze и новые задачки! Больше API для агентов до соревнования…
BitGN ECOM API Freeze и новые задачки! Больше API для агентов до соревнования 30 мая я менять не буду. Только удалил методы и поля, которые были помечены ранее как deprecated. SDK и примеры обновлены.
- #83514 мая 2026 г.8 157 views
Говорят, что вышел новый Codex, который позволяет подключаться к локальным…
Говорят, что вышел новый Codex, который позволяет подключаться к локальным сессиям c мобильного. Как Claude Dispatch. Это в теории позволит обойти все костыли в виде telegram bridges. Но это пока не про меня.
- #83414 мая 2026 г.8 571 views
"Я попросил своего AI ассистента выбрать себе имя, и он стал лучше работать для…
"Я попросил своего AI ассистента выбрать себе имя, и он стал лучше работать для меня Вообще, у меня бэкграунд в разработке. Поэтому, OpenAI Codex/Claude всегда воспринимались как рабочие инструменты, которые просто должны точно выполнять мои задачи.
- #83313 мая 2026 г.8 120 views
+4 задачи в ECOM1-DEV и еще больше инструментов в OS! Уже 12 команд выбили 20…
+4 задачи в ECOM1-DEV и еще больше инструментов в OS! Уже 12 команд выбили 20 из 20 очков в ECOM1-DEV, поэтому время расширить мир и добавить 4 новые задачи и немного prompt injections. Внимание. API агента немного поменялось в сторону уменьшения числа полей и методов.
- #83212 мая 2026 г.14 466 views
OpenAI осознали бесперспективность файн-тюнинга моделей 7 Мая OpenAI оповестили…
OpenAI осознали бесперспективность файн-тюнинга моделей 7 Мая OpenAI оповестили разработчиков, что лавочка закрывается. Новые компании уже больше не могут запускать задачи тюнинга. В течение полугода закроют возможность даже для тех, кто уже тюнил.
- #83111 мая 2026 г.9 557 views
"+8 задач в ECOM1-DEV. Теперь в мире бенчмарка появились магазины и складские…
"+8 задач в ECOM1-DEV. Теперь в мире бенчмарка появились магазины и складские запасы Задачи к вашему агенту будут вроде: > I'll be in Vienna today and need to buy as many items of product (the Sealant from Soudal in the Soudal Fix All Silirub 1GH-EJ4 Sealant line that has…
- #8308 мая 2026 г.3 915 views
Первые 12 задач бенчмарка агентов ECOM1-DEV доступны на BitGN! Все похоже на…
Первые 12 задач бенчмарка агентов ECOM1-DEV доступны на BitGN! Все похоже на PAC1, но есть пара нюансов. (0) В E-commerce бенчмарке мы будем работать не с личной базой Майлза, а с оцифрованными версиями компаний. Это уже ближе к ERC3. (1) SDK похожий на PAC1, но чуть другой.
- #8293 мая 2026 г.7 497 views
"OpenCode + GPT 5.5 - ну не используйте вы субагентов! В комментариях к посту…
"OpenCode + GPT 5.5 - ну не используйте вы субагентов! В комментариях к посту про эксперимент с рефакторингом кода разными агентами, чаще всего просили запустить OpenCode + GPT 5.5.
- #8281 мая 2026 г.8 840 views
OpenAI Codex vs Claude Code vs Amp Code vs OpenCode + DS4 Pro Я сегодня…
OpenAI Codex vs Claude Code vs Amp Code vs OpenCode + DS4 Pro Я сегодня закончил сложный рефактор проекта ядра BitGN. И состояние кода теперь просит генеральной уборки.
- #82730 апр. 2026 г.12 150 views
"Anthropic стремительно катится под гору Пробуем создать пустую git репу с…
"Anthropic стремительно катится под гору Пробуем создать пустую git репу с коммитом, который упоминает openclaw, а потом запускаем там claude: ``` cd /tmp mkdir anthropic-claude cd anthropic-claude/ git init touch hello git add -A git commit -m ""'{\""schema\"":…
- #82630 апр. 2026 г.11 085 views
У YCombinator заметно поменялось видение AI-стартапов Весной их Request For…
У YCombinator заметно поменялось видение AI-стартапов Весной их Request For Startups звучал как “AI-native компании могут быстрее делать дорогую работу”.
- #82529 апр. 2026 г.9 392 views
"У меня есть гипотеза: cамый нудный и денежный слой AI-автоматизации на агентах…
"У меня есть гипотеза: cамый нудный и денежный слой AI-автоматизации на агентах в бизнесе сейчас не в чатботах, а в Excel/Google Sheets Не в смысле ""сделайте мне красивую табличку"", а в смысле: - один отдел выгружает кривую таблицу - второй отдел руками приводит ее к другому…
- #82428 апр. 2026 г.4 351 views
Как бы вы использовали токенов на 500 EUR в день? Такой вопрос сейчас иногда…
Как бы вы использовали токенов на 500 EUR в день? Такой вопрос сейчас иногда задают на интервью. Я долго не мог внятно на него ответить - у меня не получалось перестроиться на делегирование задач LLM. Но недавно все сложилось.
- #82327 апр. 2026 г.5 987 views
Следующее соревнование BitGN пройдет 30 Мая: Agentic Ecommerce Challenge…
Следующее соревнование BitGN пройдет 30 Мая: Agentic Ecommerce Challenge (ECOM1) Это соревнование мы делаем вместе с COLIBRIX ONE (вот красивый лендинг ECOM у них на сайте, вот предварительная инфа на BitGN). В этот раз для глобальных лидербордов будут призы.
- #82027 апр. 2026 г.8 582 views
Если кому интересно Взяли сервер с 6 H100 (и командой rmr) без измеения репо…
Если кому интересно Взяли сервер с 6 H100 (и командой rmr) без измеения репо погоняли разные модели на нем под PAC1 на моем решении https://github.com/vakovalskii/phantom-agent
- #81924 апр. 2026 г.7 943 views
Раз в несколько месяцев я пишу пост в Substack. В нем я собираю в краткую…
Раз в несколько месяцев я пишу пост в Substack. В нем я собираю в краткую выжимку все самое важное (на мой взгляд) из последних инсайтов. Наступило это самое время.
- #81824 апр. 2026 г.9 384 views
В некоторых компаниях сотрудникам выдают шестизначные бюджеты $/€ на токены для…
В некоторых компаниях сотрудникам выдают шестизначные бюджеты $/€ на токены для работы и экспериментов. Причем это не AI вендоры. И самое забавное, что при этом эти сотрудники, как мне рассказывали сами менеджеры, бодаются с довольно примитивными вещами вроде парсинга PDF.
- #81722 апр. 2026 г.9 829 views
Эй, Codex, я тут пошутил в чате, что народ так активно гоняет агентов на BitGN…
Эй, Codex, я тут пошутил в чате, что народ так активно гоняет агентов на BitGN арене, что у файловой системы скоро опять inodes закончатся. Поэтому, напиши мне сервис, который будет служить удобной проксей для отправки агентами сообщений в телеграмм, подключи вот к этому боту и…
- #81622 апр. 2026 г.8 574 views
Краткий анализ codex-on-rails архитектуры из BitGN PAC1 Ядро агента запускает…
Краткий анализ codex-on-rails архитектуры из BitGN PAC1 Ядро агента запускает codex cli через —exec, передавая ему доступ к базе знаний и хранилищу через MCP сервер.
- #81521 апр. 2026 г.8 022 views
Инсайты из второй топовой архитектуры BitGN PAC1 доступны! Вместе с…
Инсайты из второй топовой архитектуры BitGN PAC1 доступны! Вместе с исходниками. Смотрим в оглавлении инсайтов. или прямо из замороженных лидербордов (Accuracy, Ultimate).
- #81418 апр. 2026 г.13 426 views
Анализ кода агента с первым местом в слепом прогоне BitGN PAC1 Итак, Operation…
Анализ кода агента с первым местом в слепом прогоне BitGN PAC1 Итак, Operation Pangolin получил первое место в слепом прогоне в Accuracy Leaderboard (поделил его с codex-on-rails) Что у него под капотом? Это не столько чат-бот агент, сколько компактный программируемый аналитик…
- #81116 апр. 2026 г.3 911 views
Анализ того, как агенты справлялись с задачами на безопасность в BitGN PAC1 Я…
Анализ того, как агенты справлялись с задачами на безопасность в BitGN PAC1 Я взял все прогоны из Accuracy Leadeboard-a и проанализировал то, как разнообразные агенты справлялись с задачами на безопасность и надежность. И там начинается забавное.
- #81015 апр. 2026 г.5 177 views
Hall of Fame лидерборды BitGN - Accuracy + Ultimate Ссылки на глобальные…
Hall of Fame лидерборды BitGN - Accuracy + Ultimate Ссылки на глобальные лидерборды (соревновательные и пополняемые) теперь есть на странице BitGN/PAC1.
- #80713 апр. 2026 г.6 533 views
А покидайте фоточек на то, как проходили BitGN Хабы у вас! А еще лучше - ссылок…
А покидайте фоточек на то, как проходили BitGN Хабы у вас! А еще лучше - ссылок на посты у себя, где есть фоточки и отзывы о том, как как все проходило.
- #80611 апр. 2026 г.8 008 views
"Основная часть конкурса BitGN PAC1 завершена! Всем спасибо за участие! 20…
"Основная часть конкурса BitGN PAC1 завершена! Всем спасибо за участие! 20 хабам и больше 800 инженеров в 80 городов. Громче всех выступили Москва, Уфа и Вена. А суммарная нагрузка на сервера превысила в пике ERC3 раз в 20.
- #80511 апр. 2026 г.6 622 views
Global Live leaderboard https://bitgn.com/l/pac1-prod На днях подчищу…
Global Live leaderboard https://bitgn.com/l/pac1-prod На днях подчищу результаты и выложу вечный leaderboard и разделения по категориям Ваш, @llmunderhood 🤗
- #80411 апр. 2026 г.6 771 views
Напоминаю, что новые сабмиты получают оценки. Это уже вне квалификации. А вот…
Напоминаю, что новые сабмиты получают оценки. Это уже вне квалификации. А вот старые сабмиты, которые были в Blind Run - получат чуть позже. Evaluation progress: [366/1043] [607/1043] [926/1043]
- #80311 апр. 2026 г.6 578 views
Bitgn/Pac1-PROD - соревнование закрыто! Результаты в стриме через полчаса.…
Bitgn/Pac1-PROD - соревнование закрыто! Результаты в стриме через полчаса. Оценки ваших ранов появятся примерно тогда же Бенчмарк теперь в открытом режиме, должен показывать ошибки и оценки на новых ранах. Ваш, @llmunderhood 🤗
- #80211 апр. 2026 г.6 159 views
inodes на сервере закончились! Сейчас почистим и продлим соревнование на…
inodes на сервере закончились! Сейчас почистим и продлим соревнование на сервере на час. Хабы в Вене и Москве уже запивают стресс пивом Можно запускать
- #80111 апр. 2026 г.6 221 views
Кнопка Submit включена. Можно выбирать прогон в категорию у себя в профиле.…
Кнопка Submit включена. Можно выбирать прогон в категорию у себя в профиле. Передумать и выбрать потом другое решение - тоже можно Ваш, @llmunderhood 🤗