Это выглядит просто бомбически! Можно ли сделать такой test-time scaling, чтобы вычислений стало меньше (чем у лучших имеющихся подходов), а точность при этом выросла? Оказывается можно. Без обучения, просто хорошими и простыми новыми метриками для взвешивания разных трейсов и отбора наиболее перспективных. Имеем 99.9% на AIME 2025 с открытой моделью. https://t.me/gonzo_ML_podcasts/759
Это выглядит просто бомбически! Можно ли сделать такой test-time scaling, чтобы…
Из этого канала
- #3989"Вот вам ещё воскресное, про книги. Прочитал за лето пару книжек про нейтрино и…
"Вот вам ещё воскресное, про книги. Прочитал за лето пару книжек про нейтрино и людей вокруг него.
- #3991Simons Foundation Launches Collaboration on the Physics of Learning and Neural…
Simons Foundation Launches Collaboration on the Physics of Learning and Neural Computation…
- #3992Что-то интересное про world models, надо внимательно разбираться:…
Что-то интересное про world models, надо внимательно разбираться: https://t.me/gonzoMLpodcasts/772
- #3986🔬 Метод Форматы FP4 Первым делом исследуют конфигурации форматов FP4. Напомню,…
🔬 Метод Форматы FP4 Первым делом исследуют конфигурации форматов FP4. Напомню, что MXFP4 квантизует веса группами по 32 и квантизует скейлы в E8M0, а NVFP4…
- #3985FP4 All the Way: Fully Quantized Training of LLMs [Статья][Анонимный не…
FP4 All the Way: Fully Quantized Training of LLMs [Статья][Анонимный не анонимный репозитрий] 📘 Введение Висело оно у меня давно в бэклоге, но в кулуарах…