Интересная свежая работа про методичное сравнение разных оптимизаторов. https://t.me/gonzo_ML_podcasts/786 Новые матричные оптимизаторы in general хороши, но и AdamW был неплох — во многих случаях был выбран как бейзлайн с плохими гиперпараметрами. С хорошими он не сильно отстаёт.
Интересная свежая работа про методичное сравнение разных оптимизаторов.…
Из этого канала
- #4000Хорошая статья-интервью с Демисом Хассабисом была в Гардиане в августе. С…
Хорошая статья-интервью с Демисом Хассабисом была в Гардиане в августе. С каким-то правильным вайбом.
- #4001Интересный репорт вышел про точность предсказания экзистенциальных рисков.…
Интересный репорт вышел про точность предсказания экзистенциальных рисков. Сравнивались суперфоркастеры, доменные эксперты, не-доменные эксперты и X-риск…
- #4008Статья, которую давно хотелось разобрать, но руки не дошли. Зато агент дошёл.…
Статья, которую давно хотелось разобрать, но руки не дошли. Зато агент дошёл. https://t.me/gonzoMLpodcasts/798
- #3997☝ всех с 70-летием ИИ! https://raysolomonoff.com/dartmouth/boxa/dart564props.pdf
☝ всех с 70-летием ИИ! https://raysolomonoff.com/dartmouth/boxa/dart564props.pdf
- #3993Интересный пост от Анимы Анандкумар: It is interesting that the new DeepSeek Al…
Интересный пост от Анимы Анандкумар: It is interesting that the new DeepSeek Al v3.1 is trained using the UE8M0 FP8 scale data format, which is nothing but the…