Для всех, кто интересуется или занимается разработкой рекомендательных систем — обратите внимание: Yandex опубликовал крупный открытый датасет для обучения таких моделей. Yambda-5B — это масштабная открытая база данных, содержащая 4.79 миллиарда взаимодействий между пользователями и объектами, собранных от 1 миллиона пользователей и охватывающая 9.39 миллиона треков. В датасете представлены как неявные отклики (например, факты прослушивания), так и явные — в виде лайков и дизлайков. Кроме того, он содержит информацию о том, было ли взаимодействие органическим или вызванным рекомендацией, а также предварительно рассчитанные аудиоэмбеддинги, что позволяет использовать его для построения рекомендаций с учетом контента. https://huggingface.co/datasets/yandex/yambda