Интересная свежая работа про методичное сравнение разных оптимизаторов. https://t.me/gonzo_ML_podcasts/786 Новые матричные оптимизаторы in general хороши, но и AdamW был неплох — во многих случаях был выбран как бейзлайн с плохими гиперпараметрами. С хорошими он не сильно отстаёт.