移动计算领域顶级会议MobiSys 2025近日在美国落下帷幕,北京大学计算机学院许辰人长聘副教授团队的研究成果《Data Can Speak for Itself: Quality-guided Utilization of Wireless Synthetic Data》荣获大会最佳论文奖(Best Paper Award)。MobiSys由美国计算机协会(ACM)创办,是移动计算、移动应用和移动服务各个方面创新和重要研究的领域旗舰会议,入选CSRankings和CCF-B类列表。该会议旨在展示有关移动计算和无线系统、应用和服务的设计、实施、使用和评估的创新和重要研究,重视具有高影响力的技术贡献,以及现代移动系统的有效、可复制的实施和实际评估。


左一起:梁博,龚晨(视频),许辰人,高伟(作者),Przemysław Pawełczak和Swarun Kumar(程序委员会主席)
论文介绍:
在万物互联的智能时代,具身智能系统需要超越传统视觉与语言模态的感知能力。无线感知技术通过解析无线信号的反射特性,实现了对物理环境中不可见目标的探测与识别,为人机交互提供了全新的感知维度。然而,从环境感知到智能决策的实现,依赖于具备强大语义理解能力的大模型,这在无线感知领域面临数据获取的挑战:传统基于真实场景的数据采集方式难以满足大模型训练所需的数据规模要求。
生成式模型为解决这一数据瓶颈提供了技术路径,能够生成高保真的合成数据作为补充。虽然现有工作表明,将合成数据纳入训练集可以提升无线感知任务的性能,但其有效性存在显著的不确定性。为此,本研究提出一套可量化评估合成数据质量特征的通用指标——亲和度与多样性。评估发现当前无线合成数据普遍存在亲和度局限,会导致错误标记数据并降低任务性能;并将此质量缺陷归因于生成模型对未训练条件及领域特定处理的认知不足。
基于此,本研究提出SynCheck——一种基于质量评估的合成数据优化框架。该方案通过动态评估合成数据的亲和度与多样性指标,在模型训练过程中实现数据质量的持续优化。实验结果表明,与传统方法相比,SynCheck方案展现出显著优势:在基线方法导致模型性能下降13.4%的情况下,采用SynCheck仍能实现4.3%的性能提升。
该论文由计算机学院博士生龚晨(图灵班2017级本科生)和梁博、美国匹兹堡大学高伟教授及许辰人教授(通讯作者)合作完成。
论文链接:https://arxiv.org/abs/2506.23174
许辰人课题组长期从事移动物联网、超视具身感知与无线科学智能等领域的前沿研究,在理论和技术创新以及系统研发上取得多项成果,已在国际顶级学术会议和期刊发表学术论文100余篇,发布多个开源项目。实验室持续与工业界展开卓有成效的合作,与阿里巴巴、中国移动、腾讯、字节、国铁、微软等多家知名企业开展项目合作和前沿探索,解决实际问题,进行科研成果的转化落地。