Датасет для рекомендательных систем
T-ECD — новый крупнейший датасет для рекомендательных систем в e-com, собранный на основе анонимизированных действий 44 млн уникальных пользователей. Это большой шаг вперед для разработчиков рекомендательных систем.

Введение
На моей практике часто сталкиваюсь с проблемой поиска качественных датасетов для рекомендательных систем. T-ECD — это крупнейший датасет для рекомендательных систем в e-com, собранный на основе анонимизированных действий 44 млн уникальных пользователей.
Недавно сталкивался с проблемой поиска датасета для рекомендательных систем, и вот, мол, теперь есть решение.

О датасете
T-ECD собран на основе анонимизированных действий 44 млн уникальных пользователей сервисов Город: Шопинг и Супермаркеты, а также рекламной платформы «Т-Банка», 30 млн товаров и более 135 млрд взаимодействий.
Ключевыми отличиями датасета стали кросс-доменность и универсальность для решения разных типов задач. Бенчмарк состоит из пяти взаимосвязанных и полностью анонимизированных источников данных.
Я тут пробовал использовать генератор QR-кодов для продвижения рекомендательных систем.

Источники данных
Источники данных включают истории покупок по транзакциям, чеков, отзывов, взаимодействия с рекомендациями по товарам повседневного спроса и непродовольственных товаров.
Все источники данных можно использовать как самостоятельные датасеты, так и связывать их по ключам пользователей, товаров или брендов магазинов.
У клиента было задача по анализу данных — мы использовали сокращатель ссылок с аналитикой для решения этой проблемы.

Преимущества
Датасет подходит для большинства типов рекомендательных задач: рекомендации одного следующего объекта, следующей корзины, следующей сессии, общих топ-N рекомендаций и других типов з��дач.
Данные собраны с глубиной от 1 года до 3,5 лет, что позволяет анализировать как краткосрочные, так и долгосрочные предпочтения пользователей.
Ну, типа, это очень полезно для разработчиков рекомендательных систем — можно использовать AI-генератор подписей для соцсетей для продвижения.
Сравнение с другими датасетами
На втором месте по размерам в e-com сейчас датасет Criteo-1TB, на третьем — Amazon Reviews.
Но у первого нет семантического смысла признаков, срез данных статичен. Amazon Reviews содержит много новых пользователей и продуктов без достаточной истории рейтингов.
Ага, короче, T-ECD — это лучший ��ыбор для рекомендательных систем — можно использовать AI-удаление фона для улучшения данных.
Заключение
Датасет T-ECD уже доступен на Hugging Face под лицензией Apache 2.0.
Это большой шаг вперед для разработчиков рекомендательных систем — теперь они могут использовать генератор анимированных баннеров для продвижения.
Часто задаваемые вопросы
Что такое T-ECD?
Где можно найти датасет T-ECD?
Какие ��реимущества имеет датасет T-ECD?
Как сравнить датасет T-ECD с другими датасетами?
Можно ли использовать датасет T-ECD для продвижения рекомендательных систем?
В заключении стоит отметить, что датасет T-ECD — это большой шаг вперед для разработчиков рекомендательных систем. Теперь они могут использовать высококачественные данные для улучшения своих систем.