Для тех, кому обычные визуализации работы трансформера уже приелись: ребята из alphaXiv сделали красивейший интерактивный RL Visualizer На примере игрушечной задачи прохождения лабиринта можно отслеживать, как шаг за шагом агенты учатся с помощью обучения с подкреплением, и сравнивать разные алгоритмы. Например, можно посмотреть, в чем практическая разница между PPO и GRPO. Полезная штука, чтобы освежить знания или интуитивное понимание RL. А еще это красиво. www.alphaxiv.org/labs/rl-playground
Для тех, кому обычные визуализации работы трансформера уже приелись: ребята из…
Из этого канала
- #8430Исследователи Яндекса представили RATE — новую систему оценки нейропереводов…
Исследователи Яндекса представили RATE — новую систему оценки нейропереводов RATE (Refined Assessment for Translation Evaluation) опирается на критерии…
- #8431Google продолжает генерировать занятные продукты: они запустили Workspace…
Google продолжает генерировать занятные продукты: они запустили Workspace Studio – новый инструмент для быстрого создания агентов Там можно будет…
- #8432Сэм Альтман планирует создать конкурента SpaceX По данным WSJ, он пытался…
Сэм Альтман планирует создать конкурента SpaceX По данным WSJ, он пытался собрать средства, чтобы либо купить, либо войти в партнерство с какой-нибудь ракетной…
- #8428🥳 Google Colab теперь доступен в Cursor, Windsurf и Antigravity Напоминаем, что…
🥳 Google Colab теперь доступен в Cursor, Windsurf и Antigravity Напоминаем, что совсем недавно они выкатились в VSCode: там стало возможным подключать…
- #8427"Как ИИ взломал блокчейн контрактов на $4,6 млн: новое исследование Anthropic…
"Как ИИ взломал блокчейн контрактов на $4,6 млн: новое исследование Anthropic Сразу дисклеймер: ничьи кошельки не пострадали, все тесты проводили в симуляции.