研究成果

图文问答顶会挑战赛

发布时间:2025-11-10发布者:张力浏览次数:17

介绍:在实际应用场景中,人工智能需要面对多模态的参考信息,而传统的视觉问答任务在背景信息上只提供了图像,这导致问题的答案通常只来自于图像,从而使得模型难以学习到文本域特有的关系以及图文之间的局部对齐规则。本团队针对图文实体关系以及图文信息平衡问题,自主设计实现了一套带审核的标注系统并构建了一个包含10124个图文对和23781个相关问题的图文问答数据集。该数据集每张图像配备一个完全基于人类创造的文本和若干问题,问题的答案可能来自于图像也可能来自于文本,且文本中含有干扰项,使得其问题必须通过同时关联图像和文本才能回答。

基于该数据集,本团队于ACM Multimedia 2023 Grand Challenge提交提案并举办了Visual Text Question AnswerVTQA)挑战赛,收到了来自中国、印度、美国等各国各高校、企业、研究中心的46个参赛团队的共148次有效提交,并推荐前三名的方法入选ACM Multimedia 2023主会,促进了学界对多模态实体对齐和复杂环境下推理能力的关注和探索。

VTQA挑战赛