个人主页 - 中国科学技术大学


		访问量：166

肖俊斌

单位：信息科学技术学院
地址：中国科学技术大学高新校区1号学科楼A438室
邮编：230094
电话：
个人主页： http://dslx.ustc.edu.cn/?menu=expert_paper&expertid=6573197

个人简历

Personal resume

肖俊斌（谷歌学术主页: https://scholar.google.com/citations?user=3pxbyHYAAAAJ&hl=zh-CN），于2026年3月加入中国科学技术大学信息科学技术学院，担任特任教授，博士生导师，国家优秀青年科学基金项目（海外）获得者。2023年博士毕业于新加坡国立大学计算机科学系，并留校从事博士后研究工作至2026年2月。博士师从人工智能与多媒体领域著名学者Chua Tat-Seng教授，并与Angela Yao教授紧密合作。此前，分别于中国科学院计算技术研究所（保送）及四川大学完成研究生和本科阶段学习，并相应取得硕士和学士学位。其研究聚焦于视频理解与多模态问答系统，近年来在相关领域会议及期刊（如CVPR、ICCV、 ECCV、 NeurIPS、 IEEE TPAMI、 IJCV等）发表不少具有国际影响力的学术论文，多次获得顶会Oral (AAAI)、 Spotlight (ECCV)、 Highlight (CVPR)，获得CVPR’22 最佳论文候选等。研究成果被国际顶级学术机构（如Standford、UC Berkeley、MIT、CMU、Oxford）与企业机构（Google、DeepMind、Microsoft、Meta AI）引用并采纳。目前受邀担任著名学术会议CVPR 2026领域主席，并长期担任人工智能相关领域国际会议及期刊审稿人。

研究方向

Research direction

目前重点布局三个方向：视频-语言理解、具身交互智能、可信多模态智能。致力于开发能够理解物理世界，并与人类进行交互、沟通、和协作，从而提供个性化辅助（千人千面）的AI技术。

具体而言，研究聚焦于“视频问答”这一多模态智能核心任务，既以视频问答为任务形式研究跨模态视频理解（包含时序与空间智能等）、可信多模态智能技术，又以视频问答为任务本身研究面向实际具身辅助的第一视角视觉感知、用户意图推理、个性化捕捉、流式视觉环境下回答的适时性、高效性、可信赖性、可行性等。致力于在多模态大模型框架下实现将视频问答从“离线快照式”视觉理解推向“在线伴随式具身辅助”。注：鼓励有想法、有能力的同学主动探索相关新方向。

招生信息

Enrollment information

通常每年有3个硕士生+1个博士生指标（具体视学院分配情况而定）、欢迎提前联系。（请发送简历+成绩单+申请陈述 至 junbinxiao at ustc.edu.cn。邮件标题示例：申请2026春季学期【实习/硕士/硕博(校内)】-张三-中国科学技术大学(目前所在学校)。

我将提供：
o    Hands-on的科研指导（带学生打磨Idea、设计方法与实验、修改论文。首篇论文我会尽量给idea并全程参与指导。老师拥有独立指导本科生/硕士生/博士生发表第一篇顶会论文的丰富经验。实习生如自生idea支持发表一作论文。）
o    完善的科研支持，包括充足的计算资源（高性能GPU A800/A100集群等）
o    多样的国际合作机会（与NUS, Meta等学术or企业机构保持紧密合作）
o    推荐的互联网大厂（如腾讯/阿里/字节/上海AI Lab等）及顶尖AI实验室的实习机会

期待你：有想法、有能力、有态度、对研究有追求、有品位，Thinking beyond papers
基本要求：知行合一、德/智/体兼修

论文专著

The monograph

1) Can I Trust Your Answer? Visually Grounded Video Question Answering - CVPR - 2024
2) Video Graph Transformer for Video Question Answering - ECCV - 2022
3) Contrastive Video Question Answering via Video Graph Transformer - TPAMI - 2023
4) EgoBlind: Towards Egocentric Visual Assistance for the Blind - NeurIPS - 2025
5) Videoqa in the era of llms: An empirical study - IJCV - 2025
6) NExT-QA: Next Phase of Question-Answering to Explaining Temporal Actions - CVPR - 2021
7) Video as Conditional Graph Hierarchy for Multi-Granular Question Answering - AAAI - 2022
8) Egotextvqa: Towards egocentric scene-text aware video question answering - CVPR - 2025
9) On the consistency of video large language models in temporal comprehension - CVPR - 2025
10) Visual intention grounding for egocentric assistants - ICCV - 2025