"Добро пожаловать в эру обучения на опыте (от Дэвида Сильвера и Ричарда… — @AGI_and_RL

"Добро пожаловать в эру обучения на опыте (от Дэвида Сильвера и Ричарда Саттона) Мол хорошие данные полученные от людей к концу подходят. Сейчас будем RL с LLMами накручивать, чтобы они больше могли исследовать и сами учиться. *Иишки обученные на знаниях от людей знают только эти знания, а как новые получать? *ИИшка будет меньше опираться на получение информации от людей и больше выуживать ее из среды с которой взаимодействует. Например награду и возможные действия Иишка будет больше доставать из среды и опыта взаимодействия с ней. *Обучение будет происходить все время ""жизни"" иишки. У RLя есть проблемы и сейчас хорошее время попробовать решить их заново. С теми же ревардами. В некоторых хороших задачах их можно определить и агент по ним научится делать полезные вещи. Но в большинстве задач построить реварды которые бы привели к нахождению решения трудно. Вспомним про тот же Human Feedback, который нужен чтобы учить модельки быть приятными и послушными, и хорошо инструкциям следовали. Может ли ллмка сама для любой задачи разработать систему наград которая бы позволила эффективно найти решение для новой незнакомой задачи? Я думаю, что нет, хотя и не проверял. (ну разве что o3 и o4-mini смогут 😎) Вопросов и проблем множество. Определенно прогресс есть, но достаточен ли он и как быстро будет двигаться? Следим за ситуацией статью читаем И не забудьте ваше мнение в комментариях оставить"

Из этого канала