6 个月前

摘要

可扩展性问题是将现代推荐系统投入实际应用过程中的关键挑战。即使采用轻量级模型架构，也可能因中间计算过程带来过高的计算负担，从而限制其在真实场景中的实用性。具体而言，采用完整的交叉熵（Cross-Entropy, CE）损失函数通常能在推荐质量方面达到当前最优性能，但在处理大规模物品目录时，会引发GPU内存资源的过度占用。本文提出一种面向序列学习场景的新型可扩展交叉熵（Scalable Cross-Entropy, SCE）损失函数，能够有效近似大规模目录数据集下的CE损失，在不损害推荐质量的前提下，显著提升计算效率并降低内存消耗。与传统的负采样方法不同，本方法采用一种选择性且GPU高效的计算策略，聚焦于物品目录中最具信息量的元素，尤其是最可能产生假阳性（false positives）的候选项。该策略通过最大内积搜索（Maximum Inner Product Search, MIPS）对模型输出的子集进行softmax分布的近似计算，从而实现高效且精准的损失估计。在多个数据集上的实验结果表明，SCE方法相较于现有方案，可将峰值内存使用量降低高达100倍，同时在推荐性能指标上保持甚至超越原有方法的表现。该方法不仅为大规模推荐系统的高效实现提供了新思路，也为其他领域的大规模模型发展（如大语言模型）开辟了新的技术路径。

源 PDF 查看代码