"⚪️ Theory of Code Space Григория Сапунова Большая статья у Григория Спаунова, Gonzo ML: 🔗 Папир: https://arxiv.org/abs/2603.00601 🔗 Статья на субстеке: https://gonzoml.substack.com/p/do-code-agents-actually-understand 🔗 В телеграмме на русском: https://t.me/gonzo_ML/4938 Прочитайте - это про подход к исследованию, а ""понимают"" ли модели код, с которым работают? А насколько хорошо? Весьма занимательно. Очень занимательный бенчмарк предложен, с понятной логикой создания синтетеческого тестового репо, с понятными цифирками метрик, с понятными вопросами в исследовании баы, которые возникают. И даже просто сам подход к вопросу и теме - тоже дает много пищи для размышлений! Почитатйте саму статью, рекомендуется. ▶️ Я вот лично задумался над различными экспериментами с эвалами. Например, что можно будет цифирками измерить как влияет меморибанк на ""понимание"" кодобазы агентами: с меморибанком и без. С промптами на исследование и ""насухую"", без промптов. Как влияет ""прогрев"" контекста при планировании изменений. В общем, предлагаемый подход позволяет построить весьма любопытные и практически актуальные тестовые стенды для исследования актуальных и практических вопросов! Не говоря уже про бенчмаркинг моделей/упряжек Я впечатлен и воодушевлен Респект 👍 Саше @o2alex за наводку! (ц) такое мы внимательно перечитываем и много думаем )) @deksden_notes"
"⚪️ Theory of Code Space Григория Сапунова Большая статья у Григория Спаунова,…
Из этого канала
- #582⚪️ Неделя скиллов : Lessons from Building Claude Code: How We Use Skills…
⚪️ Неделя скиллов : Lessons from Building Claude Code: How We Use Skills Видимо, астрологи объявили неделю скиллов в мире AI development, и количество…
- #583⚪️ Еще одна твиттер статья: You Don’t Know Claude Code: Architecture,…
⚪️ Еще одна твиттер статья: You Don’t Know Claude Code: Architecture, Governance, and Engineering Practices И раз уж сегодня такой день, в чате правильно…
- #584⚪️ Stitch что то готовит говорят - наша крупнейшая обновка ever! Хайпят ))…
⚪️ Stitch что то готовит говорят - наша крупнейшая обновка ever! Хайпят )) релиз - завтра. Ну - посмотрим.
- #580"⚪️ Guide to Building Skills от Антропиков Крайне полезную PDF выпустили…
"⚪️ Guide to Building Skills от Антропиков Крайне полезную PDF выпустили антропики - про скиллы.
- #579⚪️ Google Stitch SDK Гугл переключился: если прошлый год они усиленно и бодро…
⚪️ Google Stitch SDK Гугл переключился: если прошлый год они усиленно и бодро допиливали Жульеса (он стал таки продуктом, в GA и с ценником), теперь так же…