5 个月前

VQA：视觉问题回答

Aishwarya Agrawal; Jiasen Lu; Stanislaw Antol; Margaret Mitchell; C. Lawrence Zitnick; Dhruv Batra; Devi Parikh

摘要

我们提出了一项自由形式且开放式的视觉问答（VQA）任务。给定一张图像及其相关的自然语言问题，该任务的目标是提供一个准确的自然语言答案。这一任务反映了现实世界中的场景，例如帮助视障人士，因此问题和答案都是开放性的。视觉问题有选择性地针对图像的不同区域，包括背景细节和潜在上下文。因此，一个在VQA任务中表现良好的系统通常需要对图像有更详细的理解并进行复杂的推理，而不仅仅是生成通用的图像描述。此外，由于许多开放式答案仅包含几个单词或一组封闭的答案，可以以多项选择的形式提供，因此VQA适合自动评估。我们提供了一个数据集，其中包含约25万张图像、约76万个问题和约1000万个答案（www.visualqa.org），并讨论了该数据集提供的信息。我们提供了多种基线方法和VQA技术，并将其与人类的表现进行了比较。我们的VQA演示可在CloudCV网站上访问（http://cloudcv.org/vqa）。

代码仓库

abhijit-buet/VizWiz-Visual-Question-Answering-2021

pytorch

GitHub 中提及

chirag26495/DAN_VQA

pytorch

GitHub 中提及

mokhalid-dev/Attention-based-VQA-model

pytorch

GitHub 中提及

ramprs/grad-cam

pytorch

GitHub 中提及

mkhalil1998/EC601_Group_Project

pytorch

GitHub 中提及

vipulgupta1011/swapmix

pytorch

GitHub 中提及

yanxinyan1/yxy

pytorch

GitHub 中提及

moh833/VQA

GitHub 中提及

SatyamGaba/vqa

pytorch

GitHub 中提及

SatyamGaba/visual_question_answering

pytorch

GitHub 中提及

tbmoon/basic_vqa

pytorch

GitHub 中提及

SuchismitaSahu1993/VQA-System

GitHub 中提及

Shivanshu-Gupta/Visual-Question-Answering

pytorch

GitHub 中提及

ntusteeian/VQA_CNN-LSTM

pytorch

GitHub 中提及

abhijit-buet/VizWiz-Visua-Question-Answering-2021

pytorch

GitHub 中提及

luomancs/alternative_answer_set

GitHub 中提及

mishajw/vocab_pie

GitHub 中提及

ruxuan666/VQA_program

pytorch

GitHub 中提及

SDaydreamer/VisualQA_Project

pytorch

GitHub 中提及

Shivmohith/Visual-Assistance-for-the-Blind

GitHub 中提及

abhshkdz/neural-vqa-attention

pytorch

GitHub 中提及

基准测试

基准	方法	指标
visual-question-answering-on-coco-visual	DLAIT	Percentage correct: 68.07
visual-question-answering-on-coco-visual	HDU-USYD-UNCC	Percentage correct: 68.16
visual-question-answering-on-coco-visual-1	LSTM Q+I	Percentage correct: 63.1
visual-question-answering-on-coco-visual-2	LSTM + global features	Percentage correct: 65.02
visual-question-answering-on-coco-visual-2	Dualnet ensemble	Percentage correct: 69.73
visual-question-answering-on-coco-visual-2	LSTM blind	Percentage correct: 57.19
visual-question-answering-on-coco-visual-3	Dualnet ensemble	Percentage correct: 71.18
visual-question-answering-on-coco-visual-3	LSTM + global features	Percentage correct: 69.21
visual-question-answering-on-coco-visual-3	LSTM blind	Percentage correct: 61.41
visual-question-answering-on-coco-visual-4	LSTM Q+I	Percentage correct: 58.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI超神经

算力平台

5 个月前

VQA：视觉问题回答

查看论文详情

Aishwarya Agrawal; Jiasen Lu; Stanislaw Antol; Margaret Mitchell; C. Lawrence Zitnick; Dhruv Batra; Devi Parikh

摘要

代码仓库

abhijit-buet/VizWiz-Visual-Question-Answering-2021

pytorch

GitHub 中提及

chirag26495/DAN_VQA

pytorch

GitHub 中提及

mokhalid-dev/Attention-based-VQA-model

pytorch

GitHub 中提及

ramprs/grad-cam

pytorch

GitHub 中提及

mkhalil1998/EC601_Group_Project

pytorch

GitHub 中提及

vipulgupta1011/swapmix

pytorch

GitHub 中提及

yanxinyan1/yxy

pytorch

GitHub 中提及

moh833/VQA

GitHub 中提及

SatyamGaba/vqa

pytorch

GitHub 中提及

SatyamGaba/visual_question_answering

pytorch

GitHub 中提及

tbmoon/basic_vqa

pytorch

GitHub 中提及

SuchismitaSahu1993/VQA-System

GitHub 中提及

Shivanshu-Gupta/Visual-Question-Answering

pytorch

GitHub 中提及

ntusteeian/VQA_CNN-LSTM

pytorch

GitHub 中提及

abhijit-buet/VizWiz-Visua-Question-Answering-2021

pytorch

GitHub 中提及

luomancs/alternative_answer_set

GitHub 中提及

mishajw/vocab_pie

GitHub 中提及

ruxuan666/VQA_program

pytorch

GitHub 中提及

SDaydreamer/VisualQA_Project

pytorch

GitHub 中提及

Shivmohith/Visual-Assistance-for-the-Blind

GitHub 中提及

abhshkdz/neural-vqa-attention

pytorch

GitHub 中提及

基准测试

基准	方法	指标
visual-question-answering-on-coco-visual	DLAIT	Percentage correct: 68.07
visual-question-answering-on-coco-visual	HDU-USYD-UNCC	Percentage correct: 68.16
visual-question-answering-on-coco-visual-1	LSTM Q+I	Percentage correct: 63.1
visual-question-answering-on-coco-visual-2	LSTM + global features	Percentage correct: 65.02
visual-question-answering-on-coco-visual-2	Dualnet ensemble	Percentage correct: 69.73
visual-question-answering-on-coco-visual-2	LSTM blind	Percentage correct: 57.19
visual-question-answering-on-coco-visual-3	Dualnet ensemble	Percentage correct: 71.18
visual-question-answering-on-coco-visual-3	LSTM + global features	Percentage correct: 69.21
visual-question-answering-on-coco-visual-3	LSTM blind	Percentage correct: 61.41
visual-question-answering-on-coco-visual-4	LSTM Q+I	Percentage correct: 58.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

VQA：视觉问题回答

Aishwarya Agrawal; Jiasen Lu; Stanislaw Antol; Margaret Mitchell; C. Lawrence Zitnick; Dhruv Batra; Devi Parikh

摘要

代码仓库

基准测试

用 AI 构建 AI

Hyper Newsletters

Command Palette

VQA：视觉问题回答

Aishwarya Agrawal; Jiasen Lu; Stanislaw Antol; Margaret Mitchell; C. Lawrence Zitnick; Dhruv Batra; Devi Parikh

摘要

代码仓库

基准测试

用 AI 构建 AI

Hyper Newsletters