Здесь автор пилит UI-шку для экспериментов с обычным рлем https://github.com/dvalenciar/ReinforceUI-Studio дока тут https://docs.reinforceui-studio.com/welcome Мне показалось прикольным, хз почему раньше уишку никто не сделал, это может быть реально удобным для ознакомления
Здесь автор пилит UI-шку для экспериментов с обычным рлем…
Из этого канала
- #1006Тут кстати есть довольно свежии лекции по квантовым алгоритмам…
Тут кстати есть довольно свежии лекции по квантовым алгоритмам https://www.cs.umd.edu/~amchilds/qa/
- #1010RL с ллмами притянули к рекомендашкам. Тюнили Qwen 2.5 3B. Оптимизировались на…
RL с ллмами притянули к рекомендашкам. Тюнили Qwen 2.5 3B. Оптимизировались на двух задачах: Задача поиска товаров (Product Search).
- #1011Еще обзорок по тест-тайм скейлингам и мультиагентам ? Ни слова больше What,…
Еще обзорок по тест-тайм скейлингам и мультиагентам ? Ни слова больше What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models…
- #1004Коротенькая выжимка на английском по отличиям обжективов в алгоритмах…
Коротенькая выжимка на английском по отличиям обжективов в алгоритмах REINFORCE, ReMax, RLOO, PPO, GRPO, Dr.
- #1003Кстати листик с MCP серверами, думаю пригодятся…
Кстати листик с MCP серверами, думаю пригодятся https://github.com/punkpeye/awesome-mcp-servers