MIT联合IBM推新型识别数据集：素材“脑洞”清奇难倒了ImageNet

Evelyn Zhang2019-12-13 17:10

麻省理工学院（MIT）和IBM共同打造的ObjectNet表明，人工智能（AI）在现实世界中的对象检测方面仍然颇为吃力。

该团队最近共同创建了一个与众不同的图像识别数据集ObjectNet（拥有50,000张照片），旨在说明机器学习算法与人类之间的性能差距。这个数据集甚至难倒了世界上最好的计算机视觉模型——ImageNet。

与许多现有数据集（比如拥有1400万张图像的ImageNet，一般用的是Flickr和其他社交媒体网站上拍摄的照片）不同，ObjectNet的数据样本是由有偿自由职业者捕获的。它所描绘的物体（例如桔子、香蕉和衣服）也是从不同常规的背景和角度进行拍摄的，并显示在杂乱无章的房间中，可以说拍摄脑洞有点“清奇”——即使是最先进的算法也难以应对。不信你看看下面这些选择的素材图：

（图源：ObjectNet官网）

实际上，在ImageNet测试中实现准确率高达97%的计算机视觉模型，在ObjectNet数据集上检测的准确率却下降到了50%-55%！

（图源：ObjectNet官网）

该研究的其他作者是来自麻省理工学院的Julian Alvero、William Luo、Chris Wang和Joshua Tenenbaum。这项研究是由美国国家科学基金会，麻省理工学院的大脑、思维和机器中心，麻省理工学院的IBM Watson AI实验室，丰田研究院和SystemsThatLearn @ CSAIL计划资助的。

它基于今年早些时候由Facebook AI研究人员发布的一项研究：该研究发现，用于识别家庭对象的计算机视觉通常对于高收入家庭的人们更有效。结果表明，六个最流行的识别系统对最富有的家庭的平均效果要比对最贫穷的家庭好10％-20％，并且他们更容易识别北美和欧洲家庭中的物品。

这背后还有一大原因在于：目前几乎所有的视觉模型，在类似于物体旋转、背景变换、视角切换等复杂情境下，识别过程都缺乏稳定性。

MIT计算机科学与人工智能实验室以及脑、智与机器中心（CBMM）的研究科学家鲍里斯·卡茨（Boris Katz）说：“我们创建这个数据集是为了告诉人们，物体识别问题仍然是个难题。” “我们需要更好、更智能的算法。”

根据Katz和团队的说法，他们花了三年的时间来构思ObjectNet并设计出一个可标准化数据收集过程的应用程序。研究人员通过Amazon Mechanical Turk雇用了摄影师，后者在上述应用程序上收到带有动画说明的照片分配，并告诉他们如何定向分配的对象，从哪个角度拍摄以及是否需要将对象摆放在厨房、浴室、卧室或客厅。

收集实际数据又花了一年的时间，最后，由于未达到研究人员的要求，所有自由职业者提交的所有照片都不得不丢弃一半，科学家们针对完整的ObjectNet测试了一系列计算机视觉模型。他们用上了上述模型训练一半的数据，然后再对其余的一半进行测试，这种做法往往会提高性能。但是检测人员经常难以理解物体样本是三维的并且可以旋转并移动到新的环境中，这表明这些模型尚未完全理解物体在现实世界中的存在方式。

Katz补充说：“人们为这些检测器提供了大量数据，但是收益却在减少。” “您不能在任何角度和背景下从任何角度查看对象。我们希望，这个新的数据集将带来强大的计算机视觉，而不会在现实世界中造成令人惊讶的故障。”

该团队计划本周在温哥华的AI国际顶级会议NeurIPS 2019上展示他们的成果。

在过去的十年中，对象识别模型得到了长足的进步，甚至有时表现得比人类还要好。但是在精度方面，显然它还有很长的路要走。这是因为，计算机视觉模型真正进入到生活中时，性能通常会比原本呈现出来的“炫技效果”逊色很多，真正用在自动驾驶等使用机器视觉的实际场景中的时候，分分钟会变成大型“翻车”现场，而且可能带来不可忽视的安全隐患。

而且在实际生活中，物体的状态和角度不同，就极其不容易被正确地识别。试想一下，如果物品本身的拍摄角度和背景跟标准化摆得整整齐齐的样子不同，当然就容易被误认为是其他东西，比如：倒在地上的椅子、挂在树枝上的T恤，倒映在车玻璃上的云朵，单靠一个不够成熟的视觉机器模型，你觉得精准识别有可能吗？

深度学习是推动AI最新发展的技术，它使用人工“神经元”层在大量原始数据中查找模式。在训练了数百至数千个示例之后，它才“学会”在照片中挑选椅子。但是，即使具有数百万个图像的数据集，也无法以每个可能的方向和设置显示每个对象，这样模型在现实生活中遇到这些对象时就会造成问题。

自2012年以来，计算机视觉模型已逐步改善，当时名为AlexNet的物体检测器在年度ImageNet竞赛中击败了比赛。随着数据集变得越来越大，性能也得到了提高。

但是研究人员警告说，设计更大版本的ObjectNet并增加视角和方向并不一定会带来更好的结果。ObjectNet的目的是激励研究人员提出下一波革命性技术，就像ImageNet挑战最初的启动一样。

MIT联合IBM推新型识别数据集：素材“脑洞”清奇难倒了ImageNet

相关深度报告

相关阅读

精彩推荐

MIT联合IBM推新型识别数据集：素材“脑洞”清奇 难倒了ImageNet

相关深度报告

相关阅读

精彩推荐

MIT联合IBM推新型识别数据集：素材“脑洞”清奇难倒了ImageNet