您现在的位置: 首页 » 学院新闻 » 新闻动态 » 正文

学院新闻

新闻动态

 

SIGMOD会议是数据库领域最具影响力的国际学术会议,与VLDB和ICDE并称为数据库领域的三大顶级会议。崔斌教授课题组发表于SIGMOD 2024的论文《CAFE: Towards Compact, Adaptive, and Fast Embedding for Large-scale Recommendation Models》荣获了SIGMOD24 Honorable Mention for Best Artifact Award,该奖项每年授予至多三篇文章,旨在表彰那些在可复现性、灵活性和可移植性方面表现卓越的研究工作。

 

论文信息:

CAFE: Towards Compact, Adaptive, and Fast Embedding for Large-scale Recommendation Models. Proceedings of the International Conference on Management of Data (SIGMOD), 2024.

 

作者:Hailin Zhang, Zirui Liu, Boxuan Chen, Yikai Zhao, Tong Zhao, Tong Yang, and Bin Cui.

论文链接:https://dl.acm.org/doi/10.1145/3639306

代码地址:https://github.com/PKU-DAIR/CAFE

 

关键词:Embedding; Deep Learning Recommendation Model; Sketch

 

导读

近年来,深度学习推荐模型(DLRM)中嵌入表的内存需求不断增长,给模型训练和部署带来了巨大的挑战。现有的嵌入压缩解决方案无法同时满足三个关键设计要求:高内存效率、低延迟和动态数据分布的适应性。本文提出了CAFE,一种紧凑、自适应和低延迟的嵌入压缩框架,可以同时满足上述要求。CAFE的设计理念是动态地为重要的特征(称为热特征)分配更多的内存资源,为不重要的特征分配更少的内存。在CAFE中,我们提出了一种快速且轻量级的草图数据结构,名为HotSketch,用于捕获特征重要性并实时识别热特征。对于每个热特征,我们为其分配唯一的嵌入;对于非热门特征,我们使用哈希嵌入技术允许多个特征共享一个嵌入。在该设计理念下,我们进一步提出了多级哈希嵌入框架来优化非热门特征的嵌入表。我们从理论上分析了HotSketch的准确性,并分析了模型的收敛性。实验表明,CAFE显着优于现有的嵌入压缩方法,在10000倍的压缩比下,在Criteo Kaggle数据集和CriteoTB数据集上的测试AUC分别提高了3.92%和3.68%。

 

1. CAFE示意图

 

崔斌教授课题组(PKU-DAIR实验室)长期从事数据库系统、大数据管理与分析、人工智能系统等领域的前沿研究,在理论和技术创新以及系统研发上取得多项成果,已在国际顶级学术会议和期刊发表学术论文200余篇,发布多个开源项目。课题组同学曾数十次获得包括中国计算机学会优博、人工智能学会优博、ACM中国优博、北京市优博、北京大学优博、微软学者、苹果奖学金、谷歌奖学金、字节奖学金等荣誉。实验室持续与工业界展开卓有成效的合作,与腾讯、阿里巴巴、字节、百度、苹果、微软等多家知名企业开展项目合作和前沿探索,解决实际问题,进行科研成果的转化落地。