计算有约丨细粒度视觉分类与检索

本期分享嘉宾

北京大学2020届博士毕业生

阿里巴巴达摩院高级算法工程师

何相腾


 

 

何相腾,现任阿里巴巴达摩院高级算法工程师。北京大学信息科学技术学院2020届博士毕业生。2020年CCF优秀博士学位论文奖、2018年百度奖学金获得者。主要研究方向为细粒度图像分类、多模态内容理解等,发表IEEE Trans和CCF A类论文10余篇。连续三年参加由美国国家标准技术局举办的国际评测TRECVID视频样例搜索比赛,均获第一名。担任IEEE TIP、TNNLS、TMM、TCSVT等期刊审稿人,人工智能领域国际会议IJCAI 2021高级程序委员。

  

 

报告摘要:

与一般的视觉分类不同,细粒度视觉分类旨在对粗粒度的大类(如鸟、车等)进行细粒度的子类划分(如大冠蝇霸鹟、阿卡迪亚霸鹟、蓝鹀等鸟类子类别;奥迪 A6、A8等车类子类别),其挑战在于外形、颜色等相似导致的不同类别差异小,姿态、视角等不同导致的相同类别差异大。如何借鉴人脑的认知机理,模拟视觉注意力机制学习多粒度的辨识性特征,突破细粒度视觉分类难题,对于提高计算机的感知和认知能力至关重要。本报告将介绍我们在细粒度视觉分类上的相关研究进展,包括对象-部件注意力学习、堆叠式深度强化学习等方法,以及我们在细粒度跨媒体检索上的探索,实现了由图像、视频到跨媒体的扩展,由分类到检索的扩展。

 

讲座时间

2021年5月17日 周一 20:00

腾讯会议ID: 144 709 036

 

 


“计算有约”是信息科学技术学院计算机科学技术系团总支主办的品牌学术分享活动。活动邀请计算机系在学术科研、生涯发展等方面取得了突出成就的在读研究生、博士后、青年教师以及校友们给大家分享自己的成长故事。在这里,同学们能与优秀的嘉宾面对面交流,拓宽科研工作视野,提升自身发展素养。欢迎大家参加!