reinforcementlearningreinforcementlearningreinforcementlearning Ну шьто? Эндрю Барто и Ричард Саттон получают премию Тьюринга за RL 🥳🕺🥰 https://awards.acm.org/about/2024-turing Я считаю что заслужили. А отметить можно тут: http://incompleteideas.net/book/the-book-2nd.html
reinforcementlearningreinforcementlearningreinforcementlearning Ну шьто? Эндрю…
Из этого канала
- #980Квены дают QwQ-32B. Моделька с размышлениями, которую можно у себя развернуть.…
Квены дают QwQ-32B. Моделька с размышлениями, которую можно у себя развернуть. Контекст 131,072 токенов https://qwenlm.github.io/blog/qwq-32b/…
- #981AMD выложили 3B модельки трененые на MI300X…
AMD выложили 3B модельки трененые на MI300X https://rocm.blogs.amd.com/artificial-intelligence/introducing-instella-3B/README.html…
- #982хотел полистать серваки, открыл первый а там RL-агенты 🕺🕺🕺 Сразу понял что день…
хотел полистать серваки, открыл первый а там RL-агенты 🕺🕺🕺 Сразу понял что день будет отличным
- #976Вышла приятная обзорка по методам посттренинга LLMов и по ризонингу. С…
Вышла приятная обзорка по методам посттренинга LLMов и по ризонингу. С красивыми табличками, схемками.
- #975Member of Technical Staff LLM (Оптимизация и RL Alignment) Стартап в области…
Member of Technical Staff LLM (Оптимизация и RL Alignment) Стартап в области безопасности ИИ Чем предстоит заниматься: Дообучение и Оценка Sota llm, аттаки на…