"⚪️ Theory of Code Space Григория Сапунова Большая статья у Григория Спаунова, Gonzo ML: 🔗 Папир: https://arxiv.org/abs/2603.00601 🔗 Статья на субстеке: https://gonzoml.substack.com/p/do-code-agents-actually-understand 🔗 В телеграмме на русском: https://t.me/gonzo_ML/4938 Прочитайте - это про подход к исследованию, а ""понимают"" ли модели код, с которым работают? А насколько хорошо? Весьма занимательно. Очень занимательный бенчмарк предложен, с понятной логикой создания синтетеческого тестового репо, с понятными цифирками метрик, с понятными вопросами в исследовании баы, которые возникают. И даже просто сам подход к вопросу и теме - тоже дает много пищи для размышлений! Почитатйте саму статью, рекомендуется. ▶️ Я вот лично задумался над различными экспериментами с эвалами. Например, что можно будет цифирками измерить как влияет меморибанк на ""понимание"" кодобазы агентами: с меморибанком и без. С промптами на исследование и ""насухую"", без промптов. Как влияет ""прогрев"" контекста при планировании изменений. В общем, предлагаемый подход позволяет построить весьма любопытные и практически актуальные тестовые стенды для исследования актуальных и практических вопросов! Не говоря уже про бенчмаркинг моделей/упряжек Я впечатлен и воодушевлен Респект 👍 Саше @o2alex за наводку! (ц) такое мы внимательно перечитываем и много думаем )) @deksden_notes"