Там походу на редите засветились 4090 96гб Нада 😱 https://www.reddit.com/r/LocalLLaMA/s/gHde13Isqx
Там походу на редите засветились 4090 96гб Нада 😱…
Из этого канала
- #988Towards General-Purpose Model-Free Reinforcement Learning Скотт Фуджимото…
Towards General-Purpose Model-Free Reinforcement Learning Скотт Фуджимото может быть известен вам как один из пионеров современных рл методов - TD3 & TD3-BC, а…
- #993ЛЛМам пора на завод. Там сделали енвайронмент-бенч для ллмок из игры Factorio.…
ЛЛМам пора на завод. Там сделали енвайронмент-бенч для ллмок из игры Factorio. Я не специалист по факторио, но в целом всегда казалось что тут можно тестить и…
- #994третий апдейт по Open R1 https://huggingface.co/blog/open-r1/update-3 Чем…
третий апдейт по Open R1 https://huggingface.co/blog/open-r1/update-3 Чем занимались Созданием CodeForces-CoTs: датасетом, содержащим почти 100 тысяч…
- #986Учим модельки решать интегралы через декомпозицию задач и обучение на более…
Учим модельки решать интегралы через декомпозицию задач и обучение на более простых вариантах. С RLем конечно же.
- #982хотел полистать серваки, открыл первый а там RL-агенты 🕺🕺🕺 Сразу понял что день…
хотел полистать серваки, открыл первый а там RL-агенты 🕺🕺🕺 Сразу понял что день будет отличным