Прикольная работа про AI агентов-исследователей. Очень жизненная, на людей всё то же вполне переносится. #ВсёКакУЛюдей Гипотеза разнообразия: почему ИИ-учёные должны хеджировать риски What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity __Alexis Audran-Reiss, Jordi Armengol Estapé, Karen Hambardzumyan, Amar Budhiraja, Martin Josifoski, Edan Toledo, Rishi Hazra, Despoina Magka, Michael Shvartsman, Parth Pathak, Justine T Kao, Lucia Cipolina-Kun, Bhavul Gauri, Jean-Christophe Gagnon-Audet, Emanuel Tewolde, Jenny Zhang, Taco Cohen, Yossi Adi, Tatiana Shavrina, Yoram Bachrach__ Статья: https://arxiv.org/abs/2511.15593 Ревью: https://arxiviq.substack.com/p/what-does-it-take-to-be-a-good-ai # TL;DR ЧТО сделали? Авторы провели масштабный анализ 11,000 траекторий на бенчмарке MLE-bench (https://arxiv.org/abs/2410.07095), чтобы количественно оценить связь между «разнообразием идей» (энтропией предложенных ML-архитектур) и успехом агента. Затем они провалидировали выводы через контролируемые абляции, показав, что принуждение агентов к генерации однотипных идей приводит к статзначимому падению результатов. ПОЧЕМУ это важно? Работа подсвечивает критический механизм в дизайне автономных агентов-исследователей: разнообразие работает как страховка (хедж) от провала реализации. Результаты намекают, что текущие SOTA агенты (вроде o3 или DeepSeek-R1) побеждают не только за счёт крутого кодинга, но и благодаря исследованию более широкого распределения типов решений. Это повышает вероятность найти вариант, который будет не только эффективным, но и — что критично — реализуемым в рамках ограничений агента. Подробнее: https://t.me/gonzo_ML_podcasts/1430 Пользуясь случаем, передаю привет Тане! Она в соавторах работы. Если вы не подписаны на её канал (https://t.me/rybolos_channel), это упущение надо немедленно исправить! Там же можно прочитать и её оригинальный разбор собственной статьи: https://t.me/rybolos_channel/1670
Прикольная работа про AI агентов-исследователей. Очень жизненная, на людей всё…
Из этого канала
- #4262Ну вы поняли...
Ну вы поняли...
- #4263Свежих матрёшек завезли! Помните Matryoshka Representation Learning, MatFormer…
Свежих матрёшек завезли! Помните Matryoshka Representation Learning, MatFormer и Gemma 3n? А теперь работа от Нвидии про SSM-гибрид с длинным контекстом для…
- #4266Эволюция residual connections — не держим единый residual стрим, потому что там…
Эволюция residual connections — не держим единый residual стрим, потому что там накапливается шум, а разбиваем каналы входного сигнала на группы и постепенно…
- #4260Свежий подкаст с Ильёй https://open.substack.com/pub/dwarkesh/p/ilya-sutskever-2
Свежий подкаст с Ильёй https://open.substack.com/pub/dwarkesh/p/ilya-sutskever-2
- #4258Тут MS анонсировали крутую маленькую агентную модельку Fara-7B для Computer Use…
Тут MS анонсировали крутую маленькую агентную модельку Fara-7B для Computer Use Agent (CUA). Умеет воспринимать скриншоты и действия с GUI.