12月4日上午,计算机学院在第二教学楼开展第二期“计星启程”师生面对面交流活动。本次活动邀请计算机学院助理教授唐浩老师与多位研究生深入交流,计算机学院团委书记于丹老师、李胤君老师一同参加。
第二期“计星启程”师生面对面活动合影
师生围绕大模型研究、AI for Science、跨学科合作及学术职业规划等主题展开讨论。唐浩老师提出优化模型效率、开发小型专用模型、知识蒸馏等多种解决方案,以应对大模型研究中的资源受限问题,并针对多模态研究及MOE方法改进等具体问题给出可行建议,鼓励学生从任务需求出发,深入挖掘研究痛点,推动创新突破。唐浩老师表示,AI技术在AIGC、虚拟人、教育等面向消费者的领域具有巨大潜力,同时AI for Science领域也蕴含长远价值,建议学生在计算机领域建立科研基础后探索交叉学科方向。随后,唐浩老师分享了自己从博士求学到回国任教的心路历程,建议同学们专注当下,踏实积累,积极参与国际交流以开阔视野,可根据个人性格与目标选择适合的科研环境。
唐浩老师与学生们亲切交流
本次访谈交流活动激发了学生对研究方向和未来发展的深入思考,参与师生一致表示将进一步加强互动与合作,携手推动人工智能领域的学术研究与实践迈向更高水平。
部分精选师生对话:
吴钰晗同学:训练大模型解答化学竞赛题遇到了题目中图片理解的瓶颈,想询问您的建议,以及这个任务上的模型训练提升是否能泛化,对AI for science或相关领域有所增益?
唐浩老师:针对化学竞赛题中图片理解的瓶颈,建议尝试提升模型的多模态能力,特别是结合文本与图像数据的处理。这可以通过引入多模态模型架构(如 CLIP 或 BLIP)和针对化学领域定制的预训练任务来实现。在训练过程中,可以利用强化学习(如基于人类反馈的强化学习,RLHF)进一步优化模型,使其在化学领域的推理能力得到增强。此外,构建一个高质量的化学题目多模态数据集(包括化学结构图、反应式和题干文本等)也非常关键,这将有助于模型更好地理解和泛化化学知识。
关于任务提升的泛化性,解决化学竞赛题的能力对 AI for Science 和其他相关领域有显著增益。例如:(1)科学教育:模型解题能力可以帮助学生更高效地学习化学,同时辅助教育领域的智能化发展,比如自动化作业批改和个性化学习路径规划。(2)科学研究:化学解题能力的提升可以扩展到化学反应预测、新材料设计等领域,为科研工作者提供高效工具。(3)跨学科应用:多模态能力和推理机制的增强对生物化学、材料科学、甚至药物开发领域的复杂问题求解都有潜在帮助。
因此,这不仅是一个教育应用的机会,更是一个推动 AI for Science 发展的方向。建议从小规模多模态数据集开始试验,逐步扩展至更复杂的化学场景,为模型性能提升和应用探索奠定基础。
王晓东同学:目前我主要在做代码理解和GUI理解方面的测试工作,目标是将手机上的界面信息有效提取出来,提供给大模型。使用AI来驱动并训练专用的多模态模型可能更高效。模型生成方面,需要您的专业指导,如何将技术和代码结合起来?图像理解方面,GUI由许多元素组成,涉及到分辨性和尺度的问题,需要在处理这些方面时予以考虑。
唐浩老师:处理尺度问题时,多尺度特征表达是一种常用且有效的解决方案。这种方法的核心是针对不同尺度分别提取特征,并将这些特征进行融合。例如,对于一张大图,可以首先在大尺度上提取整体特征,然后将图像缩小一半,在中尺度上提取细节特征,再进一步缩小,在更小的尺度上提取更精细的特征。多次重复这一过程,我们可以获得不同尺度的特征表达,并将这些特征融合起来,形成最终的综合特征用于识别或分析。这种方法与 Swing Transformer 的滑动窗口机制类似,非常适合多尺度表征学习。具体到 GUI 理解,界面通常由许多不同层次的元素组成——从整体布局到具体按钮和文本。因此,多尺度方法可以帮助我们在不同分辨率下捕捉这些元素的特征,从全局到局部,实现更全面的理解。
此外,结合多模态模型,如图像与文本的联合理解,我们可以将多尺度特征作为输入,配合模型的注意力机制,进一步提升对 GUI 信息的提取和理解效率。通过这种方式,可以更高效地将提取的界面信息提供给大模型,满足多模态任务的需求。
“计星启程”师生面对面交流活动
通过采访计算机学院2024年新入职教师,宣传展示新入职老师的研究方向与科研成果,帮助广大学生了解学院新入职教师们的科研方向及亮点,方便学生自主科学地选择课程及导师,坚定科研方向。同时进一步加强年轻教师与学生们的沟通,形成学-研-教融合的有机体系,助力学院学科建设高质量发展。
文案:彭亦男
审核:于丹 李胤君