- 已选 件
- 已售件
-
服务
- √7天无理由退货(拆封后不支持)
- √假一赔三
- √消费者保障服务
商品详情
-
ISBN编号
9787121475313
-
书名
视觉问答:理论与实践
-
作者
吴琦,王鹏,王鑫,何晓冬,朱文武 著
-
出版社名称
电子工业出版社
-
定价
118.00
-
开本
16开
-
出版时间
2024-07-01
-
纸张
胶版纸
-
包装
平装
- 查看全部
编辑推荐
适读人群 :本书既可以作为视觉问答领域关键模型的综述,也可作为计算机视觉和自然语言处理领域的研究人员,尤其是专注于视觉问答的研究人员和学生的教材。
华为云人工智能领域首席科学家、国际欧亚科学院院士、IEEE Fellow田奇,加拿大工程院外籍院士、智象未来创始人兼CEO梅涛 倾情作序!
涵盖视觉问答领域的基础理论、模型、数据集及未来方向。
系统介绍计算机视觉和自然语言处理的概念和方法。
通过多样化的应用程序和任务探索使用不同的模型解决现实世界的视觉问答问题。
囊括视觉问答的高级任务,包括具身视觉问答、医学视觉问答、基于文本的视觉问答、视觉问题生成、视觉对话和指代表达理解等。
内容简介
视觉问答任务要求机器根据指定的视觉图像内容, 对单轮或多轮的自然语言问题进行作答。其本质上是一个多学科的研究问题,涉及计算机视觉、自然语言处理、知识表示与推理等。本书共5 部分,第1 部分介绍在计算机视觉和自然语言处理领域广泛使用的基本方法和技术,包括卷积神经网络、序列建模和注意力机制等。本书将视觉问答分为图像和视频方法。第2 部分将图像视觉问答进一步分为五类,即联合嵌入、注意力机制、记忆网络、组合推理和图神经网络。此外,概述基于图像的其他视觉问答任务,例如基于知识的视觉问答、视觉问答的视觉和语言预训练。第3 部分讨论基于视频的视觉问答及其相关模型。第4 部分讨论与视觉问答相关的高级任务,包括具身视觉问答、医学视觉问答、基于文本的视觉问答、视觉问题生成、视觉对话和指代表达理解,它们是视觉问答任务的扩展。第5 部分对该领域进行总结和展望,讨论视觉问答领域的未来研究方向。
《视觉问答:理论与实践》既可以作为视觉问答领域关键模型的综述,也可作为计算机视觉和自然语言处理领域的研究人员,尤其是专注于视觉问答的研究人员和学生的教材。
作者简介
吴琦
阿德莱德大学副教授,澳大利亚机器学习研究中心视觉和语言实验室主任,2019-2021年获得ARC Discovery DECRA Fellowship。2019年被澳大利亚科学院授予罗素奖。2015年获得英国巴斯大学计算机科学博士学位,2011年获得硕士学位。他的研究兴趣主要是计算机视觉、自然语言处理和机器学习。目前,他正在研究视觉语言问题,主要是图像描述、视觉问答 (VQA) 以及视觉语言导航方面。在TPAMI、CVPR、ICCV、ECCV等著名会议和期刊上发表论文100余篇。他还是CVPR、ICCV和NeurIPS会议的领域主席。
王鹏
西北工业大学教授、博士生导师,教育部长江学者。2000-2011年在北京航空航天大学自动化科学与电气工程学院学习并获得学士和博士学位。博士毕业后在阿德莱德大学计算机学院从事科研工作,主要从事计算机视觉、自然语言处理和机器学习相关领域的研究。
王鑫
清华大学计算机系副研究员,国家优秀青年科学基金获得者。在浙江大学计算机科学与技术学院获得学士、博士学位,在加拿大西蒙弗雷泽大学获得计算科学博士学位。作为项目或课题负责人承担国家自然科学基金、科技部重点研发计划等项目,获ACM中国新星奖、IEEE TCMC新星奖、达摩院青橙奖、国家自然科学二等奖和教育部自然科学一等奖。主要研究方向为多媒体智能、媒体大数据和机器学习等,在IEEE TPAMI、ICML、NeurIPS、ACM Multimedia等相关领域国际期刊或会议上发表论文180余篇,三次获ACM Multimedia Asia等论文奖。
何晓冬IEEE/CAAI Fellow,京东集团副总裁、京东探索研究院院长、京东科技人工智能业务负责人,从事自然语言处理和语言与视觉多模态智能的研究二十余年,是该领域的世界级科学家,吴文俊人工智能杰出贡献奖获得者。他发表了200余篇论文,被引用5万余次,其代表作如HAN、BUTD等多篇论文均获5000次以上的引用,并多次获得ACL杰出论文奖、IEEE SPS论文奖等奖项。在京东,他领导团队聚焦人工智能技术的前沿突破及产品创新,打造了京东“言犀”AI平台及言犀大模型,在电商行业推出了言犀数字人多模态视频生成和AI直播等颠覆性创新应用,并在零售、金融、文旅、健康等产业进行了大规模技术赋能。他还在华盛顿大学(西雅图)等学校担任兼职教授。
朱文武
清华大学计算机系教授,博士生导师,现任清华大学北京信息科学与技术国家研究中心副主任,清华大学人工智能研究院大数据智能中心主任,大数据算法工程实验室副主任。国家973项目首席科学家,国家基金委重大项目负责人。主要从事多媒体智能、多媒体大数据等研究工作,曾10次获ACM及IEEE等国际论文奖,发表高水平国际论文400余篇,发明专利80余项。现担任IEEE Transactions on Circuits and Systems for Video Technology主编,曾任IEEE Transactions on Multimedia指导委员会主席、主编,IEEE Transactions on Mobile Computing、IEEE Transactions on Multimedia指导委员会成员,ACM Multimedia 2018和ACM CIKM 2019大会共同主席。欧洲科学院院士、ACM/IEEE/AAAS/SPIEFellow。荣获2012、2018、2023年度国家自然科学二等奖(排名第二、第一、第一),五次获省部级一等奖。
精彩书评
推荐序一
视觉问答如同璀璨的繁星,照亮了人工智能领域的广阔天空。正如约瑟夫·穆勒所说,“视觉是最具震撼力的语言”。图像和视频以其直观、生动的特性,跨越语言障碍,使不同文化、不同背景的人们,甚至非生命体之间能够相互理解与交流。在当今信息爆炸的时代,我们如何更好地解读这些图像和视频,并从中获取有价值的信息和启示呢?
在此背景下,视觉问答(Visual Question Answering,VQA)技术应运而生,其重要性与应用日益凸显。首先,视觉问答为信息检索提供了全新的范式。传统的信息检索主要依赖于文本搜索,而视觉内容的信息比文字更加丰富和直观。视觉问答技术允许用户直接针对图像或视频中的内容提出问题,并获得精确的答案,从而显著地提高了信息检索的效率和准确率。其次,视觉问答技术有助于推动人工智能技术的进一步发展——它融合了计算机视觉和自然语言处理两大领域的技术,要求系统能够同时理解图像、视频和文字信息,并进行逻辑推理与生成答案。
在本书中,作者全面且深入地剖析了视觉问答的理论基础、关键技术、经典数据集,以及它们在实际场景中的应用方法。在基础理论部分,本书解释了视觉问答任务中涉及的深度学习与自然语言处理等基础知识,并介绍了相关的基础模型和算法。在模型构建方面,本书详细介绍了多种视觉特征表示模型的架构和原理,并探讨了基于知识的视觉问答、基于文本的视觉问答和视觉问题生成等前沿技术。此外,本书还重点关注数据集构建这一重要环节,介绍了多个经典数据集的内容、特点和使用场景,供读者进行实践和研究。最后,本书展望了视觉问答领域的未来发展方向,探讨了可能的技术创新和应用场景,为读者提供了对未来发展的思考和启示。无论是初学者还是资深研究者,都能从中获益匪浅。
随着视觉问答技术的不断发展,我相信这部著作将发挥越来越重要的作用。同时,我也期待更多的学者加入这个领域,共同为视觉问答研究的发展贡献智慧和力量。
田奇
华为云人工智能领域首席科学家
国际欧亚科学院院士
IEEE Fellow
推荐序二
在浩瀚无垠的宇宙中,信息以各种形式交织成一张错综复杂的网。人类,作为这张网中最为璀璨的节点,渴望探索并理解宇宙背后的规律与奥秘。人工智能,则如同一位睿智的先知,引领我们拨开迷雾,洞察真相。
视觉问答便是人工智能领域中一颗璀璨的明珠。视觉问答将计算机视觉与自然语言处理两大领域巧妙融合,赋予机器以“看”与“说”的能力,使其能够理解图像、视频的丰富内涵,并通过自然语言精准地回答问题。
正如宇宙中星辰的排列组合蕴含着无尽的奥秘,视觉问答领域也同样充满了挑战与机遇。如何让机器准确理解图像和视频中的信息?如何将视觉内容与自然语言进行有效的结合?如何构建强大的视觉问答模型?都是摆在研究者面前的重要课题。
本书以清晰的逻辑结构,丰富的内容,系统地介绍了视觉问答的基础理论、模型构建、数据集构建及未来发展方向。从深度学习和自然语言处理的基础知识,到卷积神经网络、序列建模和注意力机制等关键技术,本书为读者提供了坚实的理论基础和技术支撑。
本书的核心内容包括视觉问答模型的分类和构建。作者将视觉问答任务分为图像和视频两大类,进而细分为联合嵌入、注意力机制、记忆网络、组合推理和图神经网络等五类,对每类模型都进行了详细的介绍和分析。此外,作者还探讨了基于知识的视觉问答、基于视频的视觉问答等新兴视觉问答任务,拓宽了读者的视野。
展望未来,视觉问答领域仍有无限可能。新兴方向,如具身视觉问答、医学视觉问答和视觉对话等,将为视觉问答技术带来新的突破和更广泛的应用场景。无论是视觉问答领域的研究人员,还是对计算机视觉、自然语言处理以及人工智能感兴趣的读者,都能从这部兼具理论深度和实践指导的优秀著作中获益。
梅涛
加拿大工程院外籍院士
智象未来创始人兼CEO
目录
第1 章简介1
1.1 视觉问答的动机1
1.2 人工智能任务中的视觉问答4
1.3 视觉问答类别5
1.3.1 数据分类驱动6
1.3.2 任务分类驱动7
1.3.3 其他7
参考文献8
第1 部分基础理论
第2 章深度学习基础15
2.1 神经网络15
2.2 卷积神经网络17
2.3 循环神经网络及变体 8
2.4 编码器-解码器结构20
2.5 注意力机制20
2.6 记忆网络21
2.7 Transformer网络和BERT22
2.8 图神经网络24
参考文献25
第3 章问答基础知识27
3.1 基于规则的方法27
3.2 基于信息检索的方法28
3.3 问答的神经语义解析29
3.4 问答知识库29
参考文献30
第2 部分图像视觉问答
第4 章经典视觉问答35
4.1 简介35
4.2 数据集36
4.3 生成与分类:两种回答策略40
4.4 联合嵌入40
4.4.1 序列到序列编码器-解码器模型40
4.4.2 双线性编码模型43
4.5 注意力机制45
4.5.1 堆叠注意力网络45
4.5.2 分层问题-图像协同注意力47
4.5.3 自底向上和自顶向下的注意力49
4.6 记忆网络51
4.6.1 改进的动态记忆网络51
4.6.2 记忆增强网络52
4.7 组合推理54
4.7.1 神经模块网络55
4.7.2 动态神经模块网络56
4.8 图神经网络58
4.8.1 图卷积网络58
4.8.2 图注意力网络60
4.8.3 视觉问答图卷积网络62
4.8.4 视觉问答图注意力网络63
参考文献66
第5 章基于知识的视觉问答71
5.1 简介71
5.2 数据集72
5.3 知识库74
5.3.1 数据库百科74
5.3.2 ConceptNet74
5.4 知识嵌入75
5.4.1 文字对矢量表示法75
5.4.2 基于BERT的表征78
5.5 问题-查询转换79
5.5.1 基于查询映射的方法79
5.5.2 基于学习的方法81
5.6 查询知识库的方法82
5.6.1 RDF82
5.6.2 记忆网查询83
参考文献84
第6 章视觉问答的视觉和语言预训练88
6.1 简介88
6.2 常规预训练模型89
6.2.1 ELMo89
6.2.2 GPT89
6.2.3 MLM90
6.3 视觉和语言预训练的常用方法93
6.3.1 单流方法94
6.3.2 双流方法96
6.4 视觉问答及其下游任务微调98
参考文献101
第3 部分视频视觉问答
第7 章视频表征学习105
7.1 人工标注的局部视频描述符105
7.2 数据驱动的深度学习的视频特征表示107
7.3 视频表征的自监督学习109
参考文献110
第8 章视频问答112
8.1 简介112
8.2 数据集112
8.2.1 多步推理数据集113
8.2.2 单步推理数据集116
8.3 使用编码器-解码器结构的传统视频时空推理118
参考文献123
第9 章视频问答的高级模型126
9.1 时空特征注意力126
9.2 记忆网络129
9.3 时空图神经网络130
参考文献132
第4 部分视觉问答高级任务
第10 章具身视觉问答137
10.1 简介137
10.2 模拟器、数据集和评估标准138
10.2.1 模拟器138
10.2.2 数据集140
10.2.3 评估指标141
10.3 语言引导的视觉导航142
10.3.1 视觉和语言导航142
10.3.2 远程对象定位147
10.4 具身问答148
10.5 交互式问答150
参考文献151
第11 章医学视觉问答153
11.1 简介153
11.2 数据集154
11.3 医学视觉问答的经典方法156
11.4 医学视觉问答的元学习方法159
11.5 基于BERT的医学视觉问答方法160
参考文献162
第12 章基于文本的视觉问答165
12.1 简介165
12.2 数据集166
12.2.1 TextVQA166
12.2.2 ST-VQA167
12.2.3 OCR-VQA168
12.3 OCR 标记表示168
12.4 简单融合模型169
12.5 基于Transformer的模型170
12.6 图模型172
参考文献173
第13 章视觉问题生成176
13.1 简介176
13.2 数据融合中的视觉问题生成176
13.2.1 从答案生成问题177
13.2.2 从图像生成问题178
13.2.3 对抗学习179
13.3 作为视觉理解问题的视觉问题生成180
参考文献182
第14 章视觉对话185
14.1 简介185
14.2 数据集186
14.3 注意力机制187
14.3.1 具有注意力的分层循环编码器和记忆网络187
14.3.2 历史条件图像注意力编码器188
14.3.3 序列协同注意力生成模型190
14.3.4 协同网络192
14.4 视觉指代表达理解194
14.5 基于图的方法195
14.5.1 视觉表示的场景图196
14.5.2 用于视觉和对话表示的图卷积网络197
14.6 预训练模型199
14.6.1 VD-BERT200
14.6.2 Visual-Dialog BERT201
参考文献202
第15 章指代表达理解204
15.1 简介 204
15.2 数据集 205
15.3 二阶段模型206
15.3.1 联合嵌入206
15.3.2 协同注意力模型208
15.3.3 图模型209
15.4 一阶段模型211
15.5 推理过程理解212
参考文献213
第5 部分总结与展望
第16 章总结与展望219
16.1 总结219
16.2 展望219
16.2.1 视觉问答的可解释性219
16.2.2 消除偏见220
16.2.3 附加设置及应用221
参考文献221
前言/序言
视觉问答(Visual Question Answering,VQA)是结合了计算机视觉(Computer Vision,CV)和自然语言处理(Natural Language Processing,NLP)的一项基本任务。视觉问答受到计算机视觉、自然语言处理和其他各种人工智能社区的广泛关注,作为计算机视觉和自然语言处理的桥梁,其任务目标是根据图像的视觉信息推理问题的正确答案。在最常见的视觉问答形式中,计算机接收图像和关于图像的文本问题,随后需确定正确答案,并以几个单词或短语的形式呈现。视觉问答还具备多种变体,包括二进制(是或否)、多项选择题设置和开放式问答等。
视觉问答与计算机视觉中其他任务的一个关键区别是,其要回答的问题直到运行时才能确定。在传统的分割或目标检测等任务中,一个算法要回答的问题是预先确定的,只有输入图像是变化的。相比之下,在视觉问答任务中,问题的形式和回答它所需的操作集是未知的。这项任务与图像理解的挑战相关联。特别是视觉问答与语篇问答任务相关,其中答案必须在特定的语篇叙事(阅读理解)或大型知识库(信息检索)中寻求。文本问答已经被自然语言处理界研究了很长时间,视觉问答代表了它对额外的视觉支持信息的扩展。值得注意的是,这种扩展伴随着一个重大的挑战,因为图像比纯文本具有更多的维度和更多的噪声。此外,图像缺乏语言的结构和语法规则,没有直接等价于句法解析器和正则表达式的自然语言处理工具。此外,图像更多地捕捉了现实世界的丰富性,而自然语言代表了更高层次的抽象。例如,“一顶红帽子”短语和它可以被描绘出来的众多表示形式,在这些表征中,许多风格是短句无法描述的。随着计算机视觉和自然语言处理技术的成熟,以及相关大规模数据集的出现,人们对视觉问答越来越感兴趣。因此,近五年出现了大量关于视觉问答的文献和开创性模型。本书的写作目的是提供一个对新兴领域的全面概述,涵盖基础理论、模型、数据集及未来方向。
本书既可以作为视觉问答领域关键模型的综述,也可以作为计算机视觉和自然语言处理领域的研究人员,尤其是专注于视觉问答的研究人员和学生的教材。希望读者通过阅读本书获得关于计算机视觉和自然语言处理领域中不同流行理论和模型的认知。此外,本书可以帮助学生(尤其是研究生)系统地理解计算机视觉和自然语言处理的概念和方法。通过一组多样化的应用程序和任务,探索使用不同的模型解决现实世界的视觉问答问题。读者只需要掌握基本的机器学习和深度学习知识即可理解这些主题。
本书共5 部分。第1 部分介绍在计算机视觉和自然语言处理领域广泛使用的基本方法和技术,包括卷积神经网络、序列建模和注意力机制等。本书将视觉问答分为图像和视频方法。第2 部分将图像视觉问答进一步分为五类,即联合嵌入、注意力机制、记忆网络、组合推理和图神经网络。此外,概述基于图像的其他视觉问答任务,例如基于知识的视觉问答、视觉问答的视觉和语言预训练。第3 部分讨论基于视频的视觉问答及其相关模型。第4 部分讨论与视觉问答相关的高级任务,包括具身视觉问答、医学视觉问答、基于文本的视觉问答、视觉问题生成、视觉对话和指代表达理解,它们是视觉问答任务的扩展。第5 部分对该领域进行总结和展望,讨论视觉问答领域的未来研究方向。
吴琦
澳大利亚阿德莱德大学