"В автообзорах пополнение, статья про DataRater (https://t.me/gonzo_ML_podcasts/245). Тема про ""не все данные одинаково полезны"". Очень классное направление — не архитектуру улучшаем в очередной раз, а внимательно смотрим на данные, чтобы отобрать те, что реально улучшают обучение. Для этого берут не эвристики, а метаобучением выучивают модель, которая определяет качество каждого элемента данных, и выкидывают самые плохие. В итоге не только экономят порядка 40%+ вычислений, но ещё и улучшают качество модели. Win-win. Кстати, когда-то давно (боже, уже 7 лет назад) был другой интересный заход на похожую тему — дистилляция датасетов (https://t.me/gonzo_ML/143). Результат был немного эзотерическим, но крайне интересным!"
"В автообзорах пополнение, статья про DataRater…
Из этого канала
- #3694Для тех, кто по Илье соскучился https://youtu.be/zuZ2zaotrJs?si=w4qfH4eU2-90QR4O
Для тех, кто по Илье соскучился https://youtu.be/zuZ2zaotrJs?si=w4qfH4eU2-90QR4O
- #3695Классная движуха про демократизацию моделей «зрение-язык-действие»…
Классная движуха про демократизацию моделей «зрение-язык-действие» (Vision-Language-Action, VLA).
- #3696Sakana.AI продолжает рулить! Придумали Text-to-LoRA (T2L), в котором по…
Sakana.AI продолжает рулить! Придумали Text-to-LoRA (T2L), в котором по текстовому описанию задачи обученная гиперсеть (моя любимая тема, см.
- #3692Очень обсуждаемая сейчас работа от исследователей из Apple про ризонинг модели:…
Очень обсуждаемая сейчас работа от исследователей из Apple про ризонинг модели: https://t.me/gonzoMLpodcasts/234 Из интересного, авторы постарались уйти от…
- #3691Метод Почти с момента выхода Attention было предложено много альтернатив с…
Метод Почти с момента выхода Attention было предложено много альтернатив с субквадратичной сложностью.