"Добро пожаловать в эру обучения на опыте (от Дэвида Сильвера и Ричарда Саттона) Мол хорошие данные полученные от людей к концу подходят. Сейчас будем RL с LLMами накручивать, чтобы они больше могли исследовать и сами учиться. *Иишки обученные на знаниях от людей знают только эти знания, а как новые получать? *ИИшка будет меньше опираться на получение информации от людей и больше выуживать ее из среды с которой взаимодействует. Например награду и возможные действия Иишка будет больше доставать из среды и опыта взаимодействия с ней. *Обучение будет происходить все время ""жизни"" иишки. У RLя есть проблемы и сейчас хорошее время попробовать решить их заново. С теми же ревардами. В некоторых хороших задачах их можно определить и агент по ним научится делать полезные вещи. Но в большинстве задач построить реварды которые бы привели к нахождению решения трудно. Вспомним про тот же Human Feedback, который нужен чтобы учить модельки быть приятными и послушными, и хорошо инструкциям следовали. Может ли ллмка сама для любой задачи разработать систему наград которая бы позволила эффективно найти решение для новой незнакомой задачи? Я думаю, что нет, хотя и не проверял. (ну разве что o3 и o4-mini смогут 😎) Вопросов и проблем множество. Определенно прогресс есть, но достаточен ли он и как быстро будет двигаться? Следим за ситуацией статью читаем И не забудьте ваше мнение в комментариях оставить"
"Добро пожаловать в эру обучения на опыте (от Дэвида Сильвера и Ричарда…
Из этого канала
- #1057Несколько дней не видел обзорок по тест тайм скейлингам, RLям, CoT, агентам и…
Несколько дней не видел обзорок по тест тайм скейлингам, RLям, CoT, агентам и вот этому всему.
- #1058RL не развивает потенциал рассуждений LLM (by Tsinghua) RL с верифицируемыми…
RL не развивает потенциал рассуждений LLM (by Tsinghua) RL с верифицируемыми наградами (RLVR) — один из самых популярных подходов для прокачки…
- #1059RL В С Ё 😕 Кстати я эту статью в https://t.me/researchim еще с утра положил и…
RL В С Ё 😕 Кстати я эту статью в https://t.me/researchim еще с утра положил и вы могли ее еще раньше там прочитать) заходите
- #1055Superhuman vending bot Агенту дают 500usd, автомат на три лотка, чаржат по 2usd…
Superhuman vending bot Агенту дают 500usd, автомат на три лотка, чаржат по 2usd в день за использование автомата, а еще 3 тулa: - посмотреть информацию о…
- #1054Еще один крутецкий момент на https://www.alphaxiv.org/ Там есть не только сами…
Еще один крутецкий момент на https://www.alphaxiv.org/ Там есть не только сами статьи, но и вкладка Blog, а на ней показывается сгенеренный по статье…