"В автообзорах пополнение, статья про DataRater (https://t.me/gonzo_ML_podcasts/245). Тема про ""не все данные одинаково полезны"". Очень классное направление — не архитектуру улучшаем в очередной раз, а внимательно смотрим на данные, чтобы отобрать те, что реально улучшают обучение. Для этого берут не эвристики, а метаобучением выучивают модель, которая определяет качество каждого элемента данных, и выкидывают самые плохие. В итоге не только экономят порядка 40%+ вычислений, но ещё и улучшают качество модели. Win-win. Кстати, когда-то давно (боже, уже 7 лет назад) был другой интересный заход на похожую тему — дистилляция датасетов (https://t.me/gonzo_ML/143). Результат был немного эзотерическим, но крайне интересным!"