多模态的一些研究方向

不积跬步无以至千里 / 2023-05-08 / 原文

  • 以下是当今多模态研究的方向
    视觉

    • VG:视觉生成
    • VQA:视觉问答
    • VC:视觉字幕
    • VCR:视觉常识性推理

    分类

    • MAC:多模态情感计算
    • NLVC:视频推理的自然语言

    检索任务

    • VR:视觉检索(CLIP就属于视觉检索)

    其他

    • VLN:视觉语言导航
    • MMT:多模态机器翻译