у любителей ллмного RLя сегодня снова приподнятое настроение там потюнили квен coder 7б с PPO, чтобы он оптимизировал асемблерный код. Ну и получили ускорение в среднем x1.47 (дефолтный 7б кодер x1.1 выдавал), и % компиляции с 79% до 96% поднял ну и круче других протесченых ллмок получилось 🎹 Improving Assembly Code Performance with Large Language Models via Reinforcement Learning https://www.arxiv.org/abs/2505.11480 увидел в https://t.me/j_links кстати
у любителей ллмного RLя сегодня снова приподнятое настроение там потюнили квен…
Из этого канала
- #11053я версия вышла, 216 страничек теперь. LLM RLя больше стало…
3я версия вышла, 216 страничек теперь. LLM RLя больше стало https://arxiv.org/abs/2412.05265v3
- #1106Кстати, вообще считаю что вайбкодинг это очень круто если понимаешь что…
Кстати, вообще считаю что вайбкодинг это очень круто если понимаешь что делаешь. Прямо быстро можно прототипчик сделать чего угодно.
- #1107Ребят, если что интересного увидите в презухе гугла, черкните в коменты плиз И…
Ребят, если что интересного увидите в презухе гугла, черкните в коменты плиз И надо будет посчитать количество упоминаний ИИ агентов
- #1103Обзор по thinkingу от Лилиан Венг Why We Think…
Обзор по thinkingу от Лилиан Венг Why We Think https://lilianweng.github.io/posts/2025-05-01-thinking/
- #1101Привет! А мы тут не отстаем от Дипмайнда: нашли новый алгоритм умножения XX^t.…
Привет! А мы тут не отстаем от Дипмайнда: нашли новый алгоритм умножения XX^t. Для 4x4 матриц получили алгоритм с 34 умножениями (у SotA было 38).