Яндекс выложил в сеть большой датасет для рекомендательных систем

Freedom Broker Freedom Broker О редакции О редакции Ищем журналистов в Алматы! Ищем журналистов в Алматы!
Дата публикации: 12.06.2025, 15:29

Яндекс представил Yambda (Yandex Music Billion-Interactions Dataset) - крупнейший в мире открытый датасет для рекомендательных систем. Он содержит почти 5 миллиардов обезличенных взаимодействий пользователей с треками из стримингового сервиса «Яндекс Музыка», пишет digitalbusiness.kz

Датасет призван ускорить глобальные исследования и разработки в области рекомендательных алгоритмов. Он может использоваться для тестирования и обучения моделей не только в сфере потокового аудио, но и в электронной коммерции, социальных сетях и видео-сервисах.

Зачем нужен Yambda

Исследования в области рекомендательных систем сталкиваются с нехваткой современных и масштабных наборов данных. Многие открытые датасеты устарели или слишком малы. Например, набор Million Playlists от Spotify недостаточен для промышленного уровня, а Netflix Prize ограничен объемом и временными метками. Данные Criteo Click Logs - без документации и идентификаторов. Из-за этого существует разрыв между академическими разработками и реальными задачами индустрии. Yambda решает эту проблему: исследователи смогут создавать, тестировать и внедрять более точные модели рекомендаций.

Что внутри Yambda

  • 4,79 млрд пользовательских взаимодействий за 10 месяцев;
  • данные от 1 млн пользователей и по 9,39 млн треков;
  • два типа обратной связи: прослушивания и лайки/дизлайки;
  • эмбеддинги треков и обезличенная информация о них;
  • флаг is_organic для разграничения органических и рекомендованных действий;
  • временные метки всех событий для анализа динамики поведения;
  • Все данные обезличены, а сами файлы представлены в формате Apache Parquet™, совместимом с системами обработки больших данных (Spark, Hadoop, Pandas, Polars).

Разные версии и оценка моделей

Для оценки качества алгоритмов используется подход Global Temporal Split (GTS), который подразумевает разбивку данных по времени и позволяет сохранить естественную последовательность событий. При использовании подхода Leave-One-Out из истории каждого пользователя в тестовый набор данных откладывается только последнее подтверждённое взаимодействие, что может привести к нарушению временных последовательностей в обучающих и тестовых выборках. GTS исключает эту ситуацию и гарантирует более реалистичное тестирование модели, при котором имитируются реальные условия, а данные из будущего недоступны.

Бейзлайны для сравнения новых подходов к разработке рекомендательных систем были получены при тестировании алгоритмов MostPop, DecayPop, ItemKNN, iALS, BPR, SANSA и SASRec. Использовались стандартные метрики, в том числе:

  • NDCG@k — качество ранжирования;
  • Recall@k — способность генерировать релевантные рекомендации;
  • Coverage@k — разнообразие каталога.

Доступ

Yambda доступен на Hugging Face, что упрощает доступ для исследователей по всему миру.

Может быть интересно:

Никаких наличных, «живая поддержка» и авторские заведения. Тестируем приложение Яндекс Еда