Шмидхубер не унимается. https://people.idsia.ch/~juergen/who-invented-transformer-neural-networks.html
Шмидхубер не унимается.…
Из этого канала
- #4217Encoder-Decoder or Decoder-Only? Revisiting Encoder-Decoder Large Language…
Encoder-Decoder or Decoder-Only? Revisiting Encoder-Decoder Large Language Model Biao Zhang, Yong Cheng, Siamak Shakeri, Xinyi Wang, Min Ma, Orhan Firat…
- #4218RedLLM, энкодер-декодер, применяет RoPE повсеместно: в модулях self-attention…
RedLLM, энкодер-декодер, применяет RoPE повсеместно: в модулях self-attention энкодера, self-attention декодера и cross-attention.
- #4219Наиболее примечательным результатом является превосходство RedLLM в…
Наиболее примечательным результатом является превосходство RedLLM в эффективности.
- #4214Агенты для исследования продолжают развиваться. Вот добавили к AlphaEvolve…
Агенты для исследования продолжают развиваться. Вот добавили к AlphaEvolve отдельную reward model, обученную на ревью ICLR.
- #4212Ну и гулять так гулять! Пока по сети гуляет много слухов про скорый уход Лекуна…
Ну и гулять так гулять! Пока по сети гуляет много слухов про скорый уход Лекуна от Цукерберга, Лекун с соавтором выпустил работу про обновлённую JEPA под…