MIT和Google的最新研究:让AI获得多元感官统合能力!
2020-06-08 点赞988
根据 MIT 和 Google 研究人员最近发表的论文,他们正在训练 AI 将图像、声音和文字等多方面资讯统合起来。
在语音识别、图像识别以及下围棋等单项能力方面,AI 已经足够出色,甚至超越了人类。但是如果 AI 一次只能使用一种感知能力,无法将看到和听到的内容进行统合的话,就无法彻底理解周围的世界。这正是 MIT 和 Google 的研究人员进行这项研究原因。
研究人员并没有教给算法任何新东西,只是建立了一种方式让算法能够将多种感官获得的知识进行连接和协调。这一点非常重要。
论文的联合作者之一,MIT 的 AI 研究员 Yusuf Aytar 以无人车为例:比如无人车的声音感应器先听到了救护车的声音,然后雷达才看到救护车的样子。有关救护车的鸣叫声、样子以及职能的知识,可以让无人车放慢速度,切换车道,为救护车让路。
他说:「你是先看到汽车还是先听见引擎声并没有关係,你马上能识别出这是同一个概念。因为你大脑中的资讯已经自然地把它们协调统一起来了。」
为了训练这套系统,MIT 的研究小组首先向神经网路展示了与声音相关的影片。在神经网路发现影片中的对象并且识别出特别的声音之后,AI 就会尝试预测哪一个对象跟声音关联。比方说,招手会不会发出声音呢?
接下来,研究人员又以相同的形式为算法提供了带标题的图片,让它将文字和图片进行配对。网路首先需要单独识别出图中所有的对象以及相关问题,然后才能进行配对。
由于 AI 独立识别声音、图像、文字的能力已经十分出色,这种网路乍看之下并没有什幺了不起。但研究人员表示,当他们对 AI 进行声音/图像、图像/文字的配对训练时,系统就能在未经训练指导哪个单词与不同声音配对的情况下将声音与文字关联起来。这表明神经网路对于所看到的、听到的或者读到的东西已经形成了更加客观的看法,而且这种看法的形成,并不完全只依赖于它用来了解单一讯息的媒介。
统筹对象的观感、听觉以及文字后,算法就能自动将听到的东西转化为视觉图像,从而强化对于世界的理解。
据了解,Google 也进行了类似的研究,不过 Google 更加强调一点:新算法还能将文字转化成其他的媒体形式,虽然从準确率上来说,它暂时还比不上单一用途的演算法。
热门文章
精彩文章
-
漫画评论》慢板进行,却有诸多量身打造的叙事武器:评阮光民《用
-
- 《用九柑仔店》内页(©阮光民);本文图片由远流出版提供继《东 详细>>
-
-
漫画评论》数位资讯加值应用,从巴黎圣母院到台湾老照片,从「历
-
- 位于台南市的「大东门」(照片:东贩出版提供/图片合成:陈宥任 详细>>
-
-
漫画评论》极简脸部线条、衰弱个人与疯狂的网路群众:评图像小说
-
- 去(2018)年7月曼布克奖公布入围长名单,《萨宾娜之死》( 详细>>
-
-
漫画评论》漫画交叉点,评:《北斋漫画》与狂人画家的一生
-
- 葛饰北斋除了是浮世绘大师之外,也是绘画指南《北斋漫画》(共计 详细>>
-
-
漫画评论》美食漫画的台湾,与台湾的美食漫画
-
- (照片素材由台北市漫画工会提供,图像合成:陈宥任)去(201 详细>>
-
-
漫画达人冯庆强 接手书店 拉阔阅读视野
-
- 漫画达人冯庆强(曾宪宗摄)书店门口的营业告示由冯庆强所画。( 详细>>
-