Command Palette
Search for a command to run...
Aishwarya Agrawal; Jiasen Lu; Stanislaw Antol; Margaret Mitchell; C. Lawrence Zitnick; Dhruv Batra; Devi Parikh

摘要
我们提出了一项自由形式且开放式的视觉问答(VQA)任务。给定一张图像及其相关的自然语言问题,该任务的目标是提供一个准确的自然语言答案。这一任务反映了现实世界中的场景,例如帮助视障人士,因此问题和答案都是开放性的。视觉问题有选择性地针对图像的不同区域,包括背景细节和潜在上下文。因此,一个在VQA任务中表现良好的系统通常需要对图像有更详细的理解并进行复杂的推理,而不仅仅是生成通用的图像描述。此外,由于许多开放式答案仅包含几个单词或一组封闭的答案,可以以多项选择的形式提供,因此VQA适合自动评估。我们提供了一个数据集,其中包含约25万张图像、约76万个问题和约1000万个答案(www.visualqa.org),并讨论了该数据集提供的信息。我们提供了多种基线方法和VQA技术,并将其与人类的表现进行了比较。我们的VQA演示可在CloudCV网站上访问(http://cloudcv.org/vqa)。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-question-answering-on-coco-visual | DLAIT | Percentage correct: 68.07 |
| visual-question-answering-on-coco-visual | HDU-USYD-UNCC | Percentage correct: 68.16 |
| visual-question-answering-on-coco-visual-1 | LSTM Q+I | Percentage correct: 63.1 |
| visual-question-answering-on-coco-visual-2 | LSTM + global features | Percentage correct: 65.02 |
| visual-question-answering-on-coco-visual-2 | Dualnet ensemble | Percentage correct: 69.73 |
| visual-question-answering-on-coco-visual-2 | LSTM blind | Percentage correct: 57.19 |
| visual-question-answering-on-coco-visual-3 | Dualnet ensemble | Percentage correct: 71.18 |
| visual-question-answering-on-coco-visual-3 | LSTM + global features | Percentage correct: 69.21 |
| visual-question-answering-on-coco-visual-3 | LSTM blind | Percentage correct: 61.41 |
| visual-question-answering-on-coco-visual-4 | LSTM Q+I | Percentage correct: 58.2 |