хотел полистать серваки, открыл первый а там RL-агенты 🕺🕺🕺 Сразу понял что день будет отличным
хотел полистать серваки, открыл первый а там RL-агенты 🕺🕺🕺 Сразу понял что день…
Из этого канала
- #986Учим модельки решать интегралы через декомпозицию задач и обучение на более…
Учим модельки решать интегралы через декомпозицию задач и обучение на более простых вариантах. С RLем конечно же.
- #987Там походу на редите засветились 4090 96гб Нада 😱…
Там походу на редите засветились 4090 96гб Нада 😱 https://www.reddit.com/r/LocalLLaMA/s/gHde13Isqx
- #988Towards General-Purpose Model-Free Reinforcement Learning Скотт Фуджимото…
Towards General-Purpose Model-Free Reinforcement Learning Скотт Фуджимото может быть известен вам как один из пионеров современных рл методов - TD3 & TD3-BC, а…
- #981AMD выложили 3B модельки трененые на MI300X…
AMD выложили 3B модельки трененые на MI300X https://rocm.blogs.amd.com/artificial-intelligence/introducing-instella-3B/README.html…
- #980Квены дают QwQ-32B. Моделька с размышлениями, которую можно у себя развернуть.…
Квены дают QwQ-32B. Моделька с размышлениями, которую можно у себя развернуть. Контекст 131,072 токенов https://qwenlm.github.io/blog/qwq-32b/…