Агенты ИИ | AGI_and_RL@AGI_and_RL· 5 852 subs

reinforcementlearningreinforcementlearningreinforcementlearning Ну шьто? Эндрю…

5 мар. 2025 г.9 367 views56 forwardsОткрыть в Telegram →

reinforcementlearningreinforcementlearningreinforcementlearning Ну шьто? Эндрю Барто и Ричард Саттон получают премию Тьюринга за RL 🥳🕺🥰 https://awards.acm.org/about/2024-turing Я считаю что заслужили. А отметить можно тут: http://incompleteideas.net/book/the-book-2nd.html

Источник

https://t.me/AGI_and_RL/979

Канал Агенты ИИ | AGI_and_RL · опубликовано 5 мар. 2025 г.

Из этого канала

#980Квены дают QwQ-32B. Моделька с размышлениями, которую можно у себя развернуть.…
Квены дают QwQ-32B. Моделька с размышлениями, которую можно у себя развернуть. Контекст 131,072 токенов https://qwenlm.github.io/blog/qwq-32b/…
#981AMD выложили 3B модельки трененые на MI300X…
AMD выложили 3B модельки трененые на MI300X https://rocm.blogs.amd.com/artificial-intelligence/introducing-instella-3B/README.html…
#982хотел полистать серваки, открыл первый а там RL-агенты 🕺🕺🕺 Сразу понял что день…
хотел полистать серваки, открыл первый а там RL-агенты 🕺🕺🕺 Сразу понял что день будет отличным
#976Вышла приятная обзорка по методам посттренинга LLMов и по ризонингу. С…
Вышла приятная обзорка по методам посттренинга LLMов и по ризонингу. С красивыми табличками, схемками.
#975Member of Technical Staff LLM (Оптимизация и RL Alignment) Стартап в области…
Member of Technical Staff LLM (Оптимизация и RL Alignment) Стартап в области безопасности ИИ Чем предстоит заниматься: Дообучение и Оценка Sota llm, аттаки на…