Ты инженер или философ?
Ты инженер или философ?
Из этого канала
- #5415Красивая история. UT с последовательным применением линейного внимания…
Красивая история. UT с последовательным применением линейного внимания увеличивает выразительность трансформера, одновременно сохраняя разумную вычислительную…
- #5420Снова про диффузию в языковых моделях (недавно было это). Красивая идея про то,…
Снова про диффузию в языковых моделях (недавно было это). Красивая идея про то, как уйти от бинарного и необратимого шага с декодированием маски.
- #5424Хорошая, полезная работа. Лишний раз показывает, что оркестрация важна, и…
Хорошая, полезная работа. Лишний раз показывает, что оркестрация важна, и подводит под это математический фундамент.
- #5410Стратегии test-time scaling вручную подбирать не надо, когда есть автомат. LLMs…
Стратегии test-time scaling вручную подбирать не надо, когда есть автомат. LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling Tong Zheng, Haolin Liu,…
- #5406Больше рекурсий богу рекурсий! По факту добавили в TRM работу с популяцией…
Больше рекурсий богу рекурсий! По факту добавили в TRM работу с популяцией решений.