хм интересная штука двое ребят kalomaze (хз кто он, в иксе часто про всякое рльное пишет) и Will Brown (он одним из первых выложил пример с кодом по grpo для тюна 1б лламы в домашних условиях, который быстро разошелся и многие взяли этот пример за базу и вообще разбирались во всей этой грпо штуке) вот только что пошли работать в https://www.primeintellect.ai/ https://github.com/PrimeIntellect-ai Как понял они делают всякое по распределенному трену моделек и агентские штуки Я к чему - прикольно что кто-то пылесосит популярных рльных/ллмных челов И еще вот вышел видосик по открытым вопросам агентик рля с Виллом Брауном как раз https://www.youtube.com/watch?v=Xkwok_XXQgw
хм интересная штука двое ребят kalomaze (хз кто он, в иксе часто про всякое…
Из этого канала
- #1093Optimal Brain Damage - это когда ежедневно читаешь статьи по RL LLM агентам
Optimal Brain Damage - это когда ежедневно читаешь статьи по RL LLM агентам
- #1094NVIDIA научила гуманоидных роботов двигаться, как люди - но при нулевом…
NVIDIA научила гуманоидных роботов двигаться, как люди - но при нулевом дообучении после переключения из симуляции на реальный мир Если коротко, десять лет…
- #1095Еще порция чатгпт ресечей по ии Ии в промышленности…
Еще порция чатгпт ресечей по ии Ии в промышленности https://github.com/researchim-ai/state-of-ai/blob/main/AIindustry.md квантизация ллмок…
- #1091просто double DQN проходит простой уровень из марио…
просто double DQN проходит простой уровень из марио https://www.reddit.com/r/reinforcementlearning/comments/1kidoi3/mario/
- #1090Полный ноль в ризонинге В смысле, что для обучению ризонингу не надо…
Полный ноль в ризонинге В смысле, что для обучению ризонингу не надо заготовленных данных. Моделька сама формулирует задачи, сама пытается их решать.