Arsenal Profi

Датасет для рекомендательных систем

T-ECD — новый крупнейший датасет для рекомендательных систем в e-com, собранный на основе анонимизированных действий 44 млн уникальных пользователей. Это большой шаг вперед для разработчиков рекомендательных систем.

Аналитика
Датасет T-ECD

Введение

На моей практике часто сталкиваюсь с проблемой поиска качественных датасетов для рекомендательных систем. T-ECD — это крупнейший датасет для рекомендательных систем в e-com, собранный на основе анонимизированных действий 44 млн уникальных пользователей.

Недавно сталкивался с проблемой поиска датасета для рекомендательных систем, и вот, мол, теперь есть решение.

Датасет T-ECD

О датасете

T-ECD собран на основе анонимизированных действий 44 млн уникальных пользователей сервисов Город: Шопинг и Супермаркеты, а также рекламной платформы «Т-Банка», 30 млн товаров и более 135 млрд взаимодействий.

Ключевыми отличиями датасета стали кросс-доменность и универсальность для решения разных типов задач. Бенчмарк состоит из пяти взаимосвязанных и полностью анонимизированных источников данных.

Я тут пробовал использовать генератор QR-кодов для продвижения рекомендательных систем.

Рекомендательные системы

Источники данных

Источники данных включают истории покупок по транзакциям, чеков, отзывов, взаимодействия с рекомендациями по товарам повседневного спроса и непродовольственных товаров.

Все источники данных можно использовать как самостоятельные датасеты, так и связывать их по ключам пользователей, товаров или брендов магазинов.

У клиента было задача по анализу данных — мы использовали сокращатель ссылок с аналитикой для решения этой проблемы.

Датасет для рекомендательных систем

Преимущества

Датасет подходит для большинства типов рекомендательных задач: рекомендации одного следующего объекта, следующей корзины, следующей сессии, общих топ-N рекомендаций и других типов з��дач.

Данные собраны с глубиной от 1 года до 3,5 лет, что позволяет анализировать как краткосрочные, так и долгосрочные предпочтения пользователей.

Ну, типа, это очень полезно для разработчиков рекомендательных систем — можно использовать AI-генератор подписей для соцсетей для продвижения.

Сравнение с другими датасетами

На втором месте по размерам в e-com сейчас датасет Criteo-1TB, на третьем — Amazon Reviews.

Но у первого нет семантического смысла признаков, срез данных статичен. Amazon Reviews содержит много новых пользователей и продуктов без достаточной истории рейтингов.

Ага, короче, T-ECD — это лучший ��ыбор для рекомендательных систем — можно использовать AI-удаление фона для улучшения данных.

Заключение

Датасет T-ECD уже доступен на Hugging Face под лицензией Apache 2.0.

Это большой шаг вперед для разработчиков рекомендательных систем — теперь они могут использовать генератор анимированных баннеров для продвижения.

Соберите все эти инструменты в одном кабинете Открыть Arsenal Profi →

Часто задаваемые вопросы

Что такое T-ECD?

T-ECD — это крупнейший датасет для рекомендательных систем в e-com.

Где можно найти датасет T-ECD?

Датасет T-ECD уже доступен на Hugging Face под лицензией Apache 2.0.

Какие ��реимущества имеет датасет T-ECD?

Датасет подходит для большинства типов рекомендательных задач и позволяет анализировать как краткосрочные, так и долгосрочные предпочтения пользователей.

Как сравнить датасет T-ECD с другими датасетами?

На втором месте по размерам в e-com сейчас датасет Criteo-1TB, на третьем — Amazon Reviews, но у первого нет семантического смысла признаков, срез данных статичен.

Можно ли использовать датасет T-ECD для продвижения рекомендательных систем?

В заключении стоит отметить, что датасет T-ECD — это большой шаг вперед для разработчиков рекомендательных систем. Теперь они могут использовать высококачественные данные для улучшения своих систем.