В стане RNN пополнение, MesaNet, являющийся дальнейшим развитием Mesa-слоя из работы про мезаоптимизацию (https://t.me/gonzo_ML/1855). В новой работе архитектура и слой проработаны основательно, результаты RNN на синтетических тестах очень хороши, но всё равно показывают интересную особенность: подобно другим RNN, MesaNet работает лучше трансформеров на ранних токенах в последовательности, но трансформеры сохраняют преимущество на поздних токенах. Подробнее: https://t.me/gonzo_ML_podcasts/280