Исследователи из Амстердама ускорили обучение ИИ-рекомендаций в 60 раз. Проверить эффективность новых подходов помогло тестирование на российском датасете Yambda Они предложили два новых метода, один из которых рекордно ускоряет обучение модели SEATER. Это одна из наиболее сильных современных систем рекомендаций: она используется для подбора товаров, музыки и другого контента в онлайн-сервисах. До этого момента главной проблемой SEATER была скорость. Перед обучением модель сначала должна организовать все товары или треки в умный иерархический каталог, и на больших масштабах этот этап занимал до 20% всего трейна. В реальных продуктах это делало почти невозможным частое обновление рекомендаций, которого требуют очень многие сервисы. Теперь же, благодаря оптимизации алгоритма, время подготовки данных на тестах сократилось с 82 минут до 83 секунд. Это настоящий прорыв, потому что метод, фактически, наконец открывает SEATER путь в реальный продакшн. Что самое интересное, решающую роль в работе сыграл датасет Яндекса – Yambda. Авторы сами отмечают, что результаты были достигнуты во многом за счет тестирования именно на нем. Почему Yambda? Дело в том, что этот датасет – один из крупнейших в своем роде. Там почти 5 миллиардов обезличенных событий из Яндекс Музыки, детали – вот здесь. Редкие компании согласны делиться таким объемом данных, но только на таком масштабе исследователям удалось реально оценить выигрыш во времени, который будет наблюдаться на практике. Вот почему подобные датасеты настолько важны: они дают доступ к открытиям. Яндекс, открыв Yambda, одним из первых устранил разрыв между академией и крупномасштабными промышленными данными, и вот результат. Статья голландцев (весь код выложили в опенсорс)