|
目前重点布局三个方向:视频-语言理解、具身交互智能、可信多模态智能。致力于开发能够理解物理世界,并与人类进行交互、沟通、和协作,从而提供个性化辅助(千人千面)的AI技术。
具体而言,研究聚焦于“视频问答”这一多模态智能核心任务,既以视频问答为任务形式研究跨模态视频理解(包含时序与空间智能等)、可信多模态智能技术,又以视频问答为任务本身研究面向实际具身辅助的第一视角视觉感知、用户意图推理、个性化捕捉、流式视觉环境下回答的适时性、高效性、可信赖性、可行性等。致力于在多模态大模型框架下实现将视频问答从“离线快照式”视觉理解推向“在线伴随式具身辅助”。注:鼓励有想法、有能力的同学主动探索相关新方向。
|