LLM под капотом@llm_under_hood

Канал про разработку продуктов на базе LLM/ChatGPT. Выжимка важных новостей и разборы кейсов. Чтобы писать - напишите боту @llm_under_hood_bot Рекламы в канале - нет. За комменты от ботов баним вместе с хозяином.

25 119 подписчиков377 постов проиндексированопоследний пост: 10 июн. 2026 г.
Этот архив создан NERVE — мостом между закрытым контентом Telegram-каналов и веб-поисковиками. Каждый пост публикуется на отдельной странице с полной мета-разметкой, чтобы экспертиза автора была доступна Google, ChatGPT, Claude, Perplexity и другим AI-системам. Оригинал каждого поста — в Telegram-канале @llm_under_hood.

Последние посты (60)

  1. #86710 июн. 2026 г.4 531 views

    Что стоит обсуждать при разговоре о разработке с AI агентами? Вот примерно…

    Что стоит обсуждать при разговоре о разработке с AI агентами? Вот примерно такой план набросали мы с Айгизом для подготовке к созвону в пятницу. Нам пришлось порезать список проектов, о которых рассказываем, чтобы был шанс уложиться в два часа.

  2. #8669 июн. 2026 г.2 614 views

    LLM Бенчмарк Anthropic Fable 5 на бизнес-задачах c максимальным reasoning Если…

    LLM Бенчмарк Anthropic Fable 5 на бизнес-задачах c максимальным reasoning Если кратко, то эта новая модель считает себя слишком умной и на задачах, которые требуют точных ответов, иногда начинает нести больше отсебятины, нежели другие frontier модели.

  3. #8659 июн. 2026 г.4 932 views

    "Код - это настолько мощная абстракция для мышления моделей, что иных…

    "Код - это настолько мощная абстракция для мышления моделей, что иных инструментов LLM-кам и не надо Первые признаки этого мы с вами видели в топовых архитектурах соревнований Enterprise RAG Challenge и Personal Assistants Challenge, но настоящие результаты начинаем пожинать…

  4. #8648 июн. 2026 г.6 390 views

    А давайте проведем вебинар про современную разработку при помощи агентов? У нас…

    А давайте проведем вебинар про современную разработку при помощи агентов? У нас тут с Айгизом наболело, и мы решили провести совместный вебинар про современную разработку.

  5. #8637 июн. 2026 г.7 496 views

    Я купил свою последнюю лицензию JetBrains - Goland. Вообще я пользуюсь…

    Я купил свою последнюю лицензию JetBrains - Goland. Вообще я пользуюсь инструментами разработки от JetBrains лет двадцать, со времен первых версий ReSharper-a для VisualStudio. Их инструменты круты, но руками уже что-то разрабатывать нет нужды.

  6. #8625 июн. 2026 г.5 178 views

    Все читали про взлом аккаунтов в Instagram через агента службы поддержки? Там…

    Все читали про взлом аккаунтов в Instagram через агента службы поддержки? Там подсунули боту фейковый контекст и попросили поменять почтовый адрес своего аккаунта на новый, что он и сделал. Так утекло немало аккаунтов.

  7. #8614 июн. 2026 г.3 393 views

    "Мы с COLIBRIX нашли классных партнеров на ECOM2! Правда они еще секретные и…

    "Мы с COLIBRIX нашли классных партнеров на ECOM2! Правда они еще секретные и медленные, к июню раскачаться не успеют, поэтому ECOM2 перенесем на осень.

  8. #8603 июн. 2026 г.5 404 views

    "LLM Бенчмарки Qwen 3.7, GPT-5.4+, Opus 4.7+, DeepSeek V4 Пока я хожу по…

    "LLM Бенчмарки Qwen 3.7, GPT-5.4+, Opus 4.7+, DeepSeek V4 Пока я хожу по конференции, вот вам неожиданный подарок от @AigizK - обновленная версия наших LLM бенчмарков с последними версиями.

  9. #8592 июн. 2026 г.6 044 views

    Конференция M2020 - огонь. Не в смысле, что много передового AI (наше комьюнити…

    Конференция M2020 - огонь. Не в смысле, что много передового AI (наше комьюнити куда передовее), а в смысле неожиданных инсайтов с полей. Например, про агентов в e-commerce и печальное состояние SotA в бизнесе.

  10. #8582 июн. 2026 г.6 220 views

    Лечу на Money 20/20 в Амстердаме. Буду с Colibrix рассказывать про нашу…

    Лечу на Money 20/20 в Амстердаме. Буду с Colibrix рассказывать про нашу платформу, верификацию агентов, искать новые кейсы и коллабы для ECOM2. Пишите, если кто-то будет там! Ваш, @llmunderhood 🤗

  11. #8571 июн. 2026 г.6 950 views

    "Анализ: Nous Hermes Agent + DeepSeek V4 на BitGN ECOM1 Итак, это архитектура…

    "Анализ: Nous Hermes Agent + DeepSeek V4 на BitGN ECOM1 Итак, это архитектура Ивана Коновалова. Он выбрал ""hardcore"" режим и использовал только Open Weights модели (бейджики за присланные описания OW архитектур скоро сделаю!).

  12. #85631 мая 2026 г.4 120 views

    Как рассказать всему миру про свою архитектуру? А заодно поделиться ссылками на…

    Как рассказать всему миру про свою архитектуру? А заодно поделиться ссылками на github/LinkedIn блоги? Возможно найти новые интересные проекты? Нужно прислать PR вот в эту github repo.

  13. #85531 мая 2026 г.4 149 views

    BitGN ECOM1 Scores Reveal - рассказываем про победителей! Youtube Stream Hall…

    BitGN ECOM1 Scores Reveal - рассказываем про победителей! Youtube Stream Hall of fame leaderboards: • Accuracy at any costs - only one blind nomination per account. • Speed - nominated runs under 1 hour • Ultimate - across all blind submissions Заходите! Ваш, @llmunderhood 🤗

  14. #85430 мая 2026 г.3 222 views

    Соревнование BitGN ECOM1-PROD закончилось! Бенчмарк теперь открыт для всех.…

    Соревнование BitGN ECOM1-PROD закончилось! Бенчмарк теперь открыт для всех. Те, кто чуть-чуть не успел - могут первыми посмотреть на свои результаты.

  15. #85330 мая 2026 г.3 704 views

    BitGN1 ECOM1-PROD запущен (1) Соревновании агентов и их разработчиков - на…

    BitGN1 ECOM1-PROD запущен (1) Соревновании агентов и их разработчиков - на странице ECOM. (2) Стрим с открытия - YouTube. (3) Почему у меня такая прическа сегодня - рассказано в стриме.

  16. #85230 мая 2026 г.4 034 views

    ECOM1 Challenge - низкий старт • Предварительный стрим: 9:30 CEST (по Вене): •…

    ECOM1 Challenge - низкий старт • Предварительный стрим: 9:30 CEST (по Вене): • В 10:00 - открытие задач ECOM1-PROD • 13:00 - закрываем соревновательный раунд, переводим бенчмарк в открытый режим. • 31 Мая в 10:00 - открытие результатов и объявление мест.

  17. #85128 мая 2026 г.3 043 views

    Задачки на OCR в ecom1-dev и сюрприз агентам-скрейперам Итак, небольшой апдейт…

    Задачки на OCR в ecom1-dev и сюрприз агентам-скрейперам Итак, небольшой апдейт платформы. (1) Просили OCR? Добавил 3 задачки на OCR. Теперь потолок - 53 (2) Интерфейс работы с Harness чуть поменялся.

  18. #85028 мая 2026 г.5 387 views

    Markdown самый популярный язык программирования в моих проектах :D Следом за…

    Markdown самый популярный язык программирования в моих проектах :D Следом за ним идут go, HTML, Text и CSS. На графике - рост числа строчек кода в этом году.

  19. #84927 мая 2026 г.3 681 views

    Разработка проектов с AI агентами - про правильные сценарии, требования и…

    Разработка проектов с AI агентами - про правильные сценарии, требования и инструментарий. Когда такие рельсы настроены, то процессы по ним просто летают. Например, вчера вы мне чуть не уронили сервер загрузкой. Но чуть не считается, ибо Codex быстро все оптимизировал и выкатил.

  20. #84826 мая 2026 г.3 889 views

    Я скоро смогу написать кандидатскую на тему того, как могут жульничать агенты в…

    Я скоро смогу написать кандидатскую на тему того, как могут жульничать агенты в Agentic E-Commerce бенчмарках Но это все потом, а пока ловите новую версию задач ECOM1-DEV BitGN.

  21. #84725 мая 2026 г.3 376 views

    BitGN ECOM1 состоится 30 Мая. Расписание remote-first: • Предварительный стрим…

    BitGN ECOM1 состоится 30 Мая. Расписание remote-first: • Предварительный стрим начнется в 9:30 CEST (по Вене) • В 10:00 - открытие 100 задач ECOM1-PROD • 13:00 - закрываем соревновательный раунд, переводим бенчмарк в открытый режим.

  22. #84623 мая 2026 г.3 417 views

    В чате недавно обсуждали, на что использовать оставшиеся свободные tokens в…

    В чате недавно обсуждали, на что использовать оставшиеся свободные tokens в подписках ChatGPT/Claude? Например, на эксперименты с архитектурами AI агентов, используя задачи с BitGN Arena в качестве индикатора.

  23. #84523 мая 2026 г.4 443 views

    Personal OS v2.1 - субличность без привязки к провайдеру Пост выходного дня…

    Personal OS v2.1 - субличность без привязки к провайдеру Пост выходного дня #weekend В феврале я начал свой эксперимент с использованием OpenAI Codex в качестве персонального ассистента. Успешного успеха хотелось, но использовать OpenClaw было боязно.

  24. #84322 мая 2026 г.3 527 views

    BitGN Live лидерборды теперь учитывают время прогона Начиная с сейчас, в…

    BitGN Live лидерборды теперь учитывают время прогона Начиная с сейчас, в лидербордах публикуется полное время, которое потребовалось агенту для прохождения прогона. Если очки одинаковые, то теперь в топ попадает не последнее решение, а более быстрое.

  25. #84221 мая 2026 г.3 679 views

    ECOM1 получил продолжение на второй сезон! ECOM1 заходит хорошо (6.4k…

    ECOM1 получил продолжение на второй сезон! ECOM1 заходит хорошо (6.4k завершенных агентских прогонов и четверть миллиона попыток решения задач, нагрузка идет круглые сутки), а в логах начинают просматриваться интересные вещи.

  26. #84120 мая 2026 г.5 619 views

    "Что у нас сейчас происходит в мире? - продавцы быстрее делают AI-приложения и…

    "Что у нас сейчас происходит в мире? - продавцы быстрее делают AI-приложения и AI-обертки; - маркетинг обещает пользователю все больше магии (сейлзы теперь могут не слайды делать, а вайб-кодить сразу продукт) - личные агенты начинают выбирать, покупать и строчить жалобы вместо…

  27. #84018 мая 2026 г.4 483 views

    Если дать агентам свободу - они могут лениться Про такое сейчас можно часто…

    Если дать агентам свободу - они могут лениться Про такое сейчас можно часто услышать. У кого-то они закомментируют тесты, чтобы получить 100% pass rate, у кого-то выпилят нужную фичу или просто поправят код проверки.

  28. #83917 мая 2026 г.4 007 views

    Я поднял потолок ECOM1-DEV до 40, теперь и с мошенничеством! В тестовой BitGN…

    Я поднял потолок ECOM1-DEV до 40, теперь и с мошенничеством! В тестовой BitGN арене для AI агентов (BitGN ECOM1-DEV) добавилось 9 новых задач. Последние три задачи самые интересные. Если кто помнит, я люблю симуляции (см раздел про симуляции у меня на сайте).

  29. #83817 мая 2026 г.4 889 views

    "Codex Desktop / CLI поддерживает режим ""копать отсюда до обеда"" Для этого…

    "Codex Desktop / CLI поддерживает режим ""копать отсюда до обеда"" Для этого нужно в `~/.codex/config.toml` включить такой флаг: ``` [features] goals = true ``` и потом можно запускать задачу с режимом `/goal` и уходить заниматься своими делами.

  30. #83716 мая 2026 г.6 045 views

    "Когда-то, когда только появлялись первые сервера и BBS-ки, а по сетям бродили…

    "Когда-то, когда только появлялись первые сервера и BBS-ки, а по сетям бродили призраки Кейса и Стрелка (Глубина-глубина, я не твой…), субкультура хакеров цвела и пахла. Было что взламывать и чем, это было прямо приключениями. Потом все стало скучнее.

  31. #83615 мая 2026 г.6 373 views

    BitGN ECOM API Freeze и новые задачки! Больше API для агентов до соревнования…

    BitGN ECOM API Freeze и новые задачки! Больше API для агентов до соревнования 30 мая я менять не буду. Только удалил методы и поля, которые были помечены ранее как deprecated. SDK и примеры обновлены.

  32. #83514 мая 2026 г.8 157 views

    Говорят, что вышел новый Codex, который позволяет подключаться к локальным…

    Говорят, что вышел новый Codex, который позволяет подключаться к локальным сессиям c мобильного. Как Claude Dispatch. Это в теории позволит обойти все костыли в виде telegram bridges. Но это пока не про меня.

  33. #83414 мая 2026 г.8 571 views

    "Я попросил своего AI ассистента выбрать себе имя, и он стал лучше работать для…

    "Я попросил своего AI ассистента выбрать себе имя, и он стал лучше работать для меня Вообще, у меня бэкграунд в разработке. Поэтому, OpenAI Codex/Claude всегда воспринимались как рабочие инструменты, которые просто должны точно выполнять мои задачи.

  34. #83313 мая 2026 г.8 120 views

    +4 задачи в ECOM1-DEV и еще больше инструментов в OS! Уже 12 команд выбили 20…

    +4 задачи в ECOM1-DEV и еще больше инструментов в OS! Уже 12 команд выбили 20 из 20 очков в ECOM1-DEV, поэтому время расширить мир и добавить 4 новые задачи и немного prompt injections. Внимание. API агента немного поменялось в сторону уменьшения числа полей и методов.

  35. #83212 мая 2026 г.14 466 views

    OpenAI осознали бесперспективность файн-тюнинга моделей 7 Мая OpenAI оповестили…

    OpenAI осознали бесперспективность файн-тюнинга моделей 7 Мая OpenAI оповестили разработчиков, что лавочка закрывается. Новые компании уже больше не могут запускать задачи тюнинга. В течение полугода закроют возможность даже для тех, кто уже тюнил.

  36. #83111 мая 2026 г.9 557 views

    "+8 задач в ECOM1-DEV. Теперь в мире бенчмарка появились магазины и складские…

    "+8 задач в ECOM1-DEV. Теперь в мире бенчмарка появились магазины и складские запасы Задачи к вашему агенту будут вроде: > I'll be in Vienna today and need to buy as many items of product (the Sealant from Soudal in the Soudal Fix All Silirub 1GH-EJ4 Sealant line that has…

  37. #8308 мая 2026 г.3 915 views

    Первые 12 задач бенчмарка агентов ECOM1-DEV доступны на BitGN! Все похоже на…

    Первые 12 задач бенчмарка агентов ECOM1-DEV доступны на BitGN! Все похоже на PAC1, но есть пара нюансов. (0) В E-commerce бенчмарке мы будем работать не с личной базой Майлза, а с оцифрованными версиями компаний. Это уже ближе к ERC3. (1) SDK похожий на PAC1, но чуть другой.

  38. #8293 мая 2026 г.7 497 views

    "OpenCode + GPT 5.5 - ну не используйте вы субагентов! В комментариях к посту…

    "OpenCode + GPT 5.5 - ну не используйте вы субагентов! В комментариях к посту про эксперимент с рефакторингом кода разными агентами, чаще всего просили запустить OpenCode + GPT 5.5.

  39. #8281 мая 2026 г.8 840 views

    OpenAI Codex vs Claude Code vs Amp Code vs OpenCode + DS4 Pro Я сегодня…

    OpenAI Codex vs Claude Code vs Amp Code vs OpenCode + DS4 Pro Я сегодня закончил сложный рефактор проекта ядра BitGN. И состояние кода теперь просит генеральной уборки.

  40. #82730 апр. 2026 г.12 150 views

    "Anthropic стремительно катится под гору Пробуем создать пустую git репу с…

    "Anthropic стремительно катится под гору Пробуем создать пустую git репу с коммитом, который упоминает openclaw, а потом запускаем там claude: ``` cd /tmp mkdir anthropic-claude cd anthropic-claude/ git init touch hello git add -A git commit -m ""'{\""schema\"":…

  41. #82630 апр. 2026 г.11 085 views

    У YCombinator заметно поменялось видение AI-стартапов Весной их Request For…

    У YCombinator заметно поменялось видение AI-стартапов Весной их Request For Startups звучал как “AI-native компании могут быстрее делать дорогую работу”.

  42. #82529 апр. 2026 г.9 392 views

    "У меня есть гипотеза: cамый нудный и денежный слой AI-автоматизации на агентах…

    "У меня есть гипотеза: cамый нудный и денежный слой AI-автоматизации на агентах в бизнесе сейчас не в чатботах, а в Excel/Google Sheets Не в смысле ""сделайте мне красивую табличку"", а в смысле: - один отдел выгружает кривую таблицу - второй отдел руками приводит ее к другому…

  43. #82428 апр. 2026 г.4 351 views

    Как бы вы использовали токенов на 500 EUR в день? Такой вопрос сейчас иногда…

    Как бы вы использовали токенов на 500 EUR в день? Такой вопрос сейчас иногда задают на интервью. Я долго не мог внятно на него ответить - у меня не получалось перестроиться на делегирование задач LLM. Но недавно все сложилось.

  44. #82327 апр. 2026 г.5 987 views

    Следующее соревнование BitGN пройдет 30 Мая: Agentic Ecommerce Challenge…

    Следующее соревнование BitGN пройдет 30 Мая: Agentic Ecommerce Challenge (ECOM1) Это соревнование мы делаем вместе с COLIBRIX ONE (вот красивый лендинг ECOM у них на сайте, вот предварительная инфа на BitGN). В этот раз для глобальных лидербордов будут призы.

  45. #82027 апр. 2026 г.8 582 views

    Если кому интересно Взяли сервер с 6 H100 (и командой rmr) без измеения репо…

    Если кому интересно Взяли сервер с 6 H100 (и командой rmr) без измеения репо погоняли разные модели на нем под PAC1 на моем решении https://github.com/vakovalskii/phantom-agent

  46. #81924 апр. 2026 г.7 943 views

    Раз в несколько месяцев я пишу пост в Substack. В нем я собираю в краткую…

    Раз в несколько месяцев я пишу пост в Substack. В нем я собираю в краткую выжимку все самое важное (на мой взгляд) из последних инсайтов. Наступило это самое время.

  47. #81824 апр. 2026 г.9 384 views

    В некоторых компаниях сотрудникам выдают шестизначные бюджеты $/€ на токены для…

    В некоторых компаниях сотрудникам выдают шестизначные бюджеты $/€ на токены для работы и экспериментов. Причем это не AI вендоры. И самое забавное, что при этом эти сотрудники, как мне рассказывали сами менеджеры, бодаются с довольно примитивными вещами вроде парсинга PDF.

  48. #81722 апр. 2026 г.9 829 views

    Эй, Codex, я тут пошутил в чате, что народ так активно гоняет агентов на BitGN…

    Эй, Codex, я тут пошутил в чате, что народ так активно гоняет агентов на BitGN арене, что у файловой системы скоро опять inodes закончатся. Поэтому, напиши мне сервис, который будет служить удобной проксей для отправки агентами сообщений в телеграмм, подключи вот к этому боту и…

  49. #81622 апр. 2026 г.8 574 views

    Краткий анализ codex-on-rails архитектуры из BitGN PAC1 Ядро агента запускает…

    Краткий анализ codex-on-rails архитектуры из BitGN PAC1 Ядро агента запускает codex cli через —exec, передавая ему доступ к базе знаний и хранилищу через MCP сервер.

  50. #81521 апр. 2026 г.8 022 views

    Инсайты из второй топовой архитектуры BitGN PAC1 доступны! Вместе с…

    Инсайты из второй топовой архитектуры BitGN PAC1 доступны! Вместе с исходниками. Смотрим в оглавлении инсайтов. или прямо из замороженных лидербордов (Accuracy, Ultimate).

  51. #81418 апр. 2026 г.13 426 views

    Анализ кода агента с первым местом в слепом прогоне BitGN PAC1 Итак, Operation…

    Анализ кода агента с первым местом в слепом прогоне BitGN PAC1 Итак, Operation Pangolin получил первое место в слепом прогоне в Accuracy Leaderboard (поделил его с codex-on-rails) Что у него под капотом? Это не столько чат-бот агент, сколько компактный программируемый аналитик…

  52. #81116 апр. 2026 г.3 911 views

    Анализ того, как агенты справлялись с задачами на безопасность в BitGN PAC1 Я…

    Анализ того, как агенты справлялись с задачами на безопасность в BitGN PAC1 Я взял все прогоны из Accuracy Leadeboard-a и проанализировал то, как разнообразные агенты справлялись с задачами на безопасность и надежность. И там начинается забавное.

  53. #81015 апр. 2026 г.5 177 views

    Hall of Fame лидерборды BitGN - Accuracy + Ultimate Ссылки на глобальные…

    Hall of Fame лидерборды BitGN - Accuracy + Ultimate Ссылки на глобальные лидерборды (соревновательные и пополняемые) теперь есть на странице BitGN/PAC1.

  54. #80713 апр. 2026 г.6 533 views

    А покидайте фоточек на то, как проходили BitGN Хабы у вас! А еще лучше - ссылок…

    А покидайте фоточек на то, как проходили BitGN Хабы у вас! А еще лучше - ссылок на посты у себя, где есть фоточки и отзывы о том, как как все проходило.

  55. #80611 апр. 2026 г.8 008 views

    "Основная часть конкурса BitGN PAC1 завершена! Всем спасибо за участие! 20…

    "Основная часть конкурса BitGN PAC1 завершена! Всем спасибо за участие! 20 хабам и больше 800 инженеров в 80 городов. Громче всех выступили Москва, Уфа и Вена. А суммарная нагрузка на сервера превысила в пике ERC3 раз в 20.

  56. #80511 апр. 2026 г.6 622 views

    Global Live leaderboard https://bitgn.com/l/pac1-prod На днях подчищу…

    Global Live leaderboard https://bitgn.com/l/pac1-prod На днях подчищу результаты и выложу вечный leaderboard и разделения по категориям Ваш, @llmunderhood 🤗

  57. #80411 апр. 2026 г.6 771 views

    Напоминаю, что новые сабмиты получают оценки. Это уже вне квалификации. А вот…

    Напоминаю, что новые сабмиты получают оценки. Это уже вне квалификации. А вот старые сабмиты, которые были в Blind Run - получат чуть позже. Evaluation progress: [366/1043] [607/1043] [926/1043]

  58. #80311 апр. 2026 г.6 578 views

    Bitgn/Pac1-PROD - соревнование закрыто! Результаты в стриме через полчаса.…

    Bitgn/Pac1-PROD - соревнование закрыто! Результаты в стриме через полчаса. Оценки ваших ранов появятся примерно тогда же Бенчмарк теперь в открытом режиме, должен показывать ошибки и оценки на новых ранах. Ваш, @llmunderhood 🤗

  59. #80211 апр. 2026 г.6 159 views

    inodes на сервере закончились! Сейчас почистим и продлим соревнование на…

    inodes на сервере закончились! Сейчас почистим и продлим соревнование на сервере на час. Хабы в Вене и Москве уже запивают стресс пивом Можно запускать

  60. #80111 апр. 2026 г.6 221 views

    Кнопка Submit включена. Можно выбирать прогон в категорию у себя в профиле.…

    Кнопка Submit включена. Можно выбирать прогон в категорию у себя в профиле. Передумать и выбрать потом другое решение - тоже можно Ваш, @llmunderhood 🤗