近日,麻省理工学院研究团队发表论文,指责著名数据集ImageNet 存在系统性错误。该论文还被国际机器学习会议ICML2020接收。
同时,这篇论文编号为《From ImageNet to Image Classification: Contextualizing Progress on Benchmarks》,也发表在预印本存储库arXiv上。
MIT研究团队之所以在ICML会议上介绍这项研究,是因为最近的“Tiny Images”争议。
就在本月早些时候,麻省理工学院(MIT) 宣布永久删除包含8000 万张图像的Tiny Images 数据集,并公开道歉。原因是相关研究人员发表论文,指控Tiny ImageNet数据集包含多个危险标签,包括种族歧视、性别歧视、色情内容等,而且指控有理有据。
论文显示,ImageNet 在语义结构分析中使用了WordNet 名词,其中包含种族歧视等危险内容。同时,由于图像太小,数据量太大,没有对图像标签进行人工一一检查,导致出现问题。
众所周知,著名的数据集ImageNet也使用WordNet进行语义结构分析。那么,ImageNet数据集是否也存在同样的问题呢?对此,麻省理工学院的研究团队给出了答案。
ImageNet 基准测试与实际情况不符。大规模ImageNet数据集的出现可以说意味着机器学习深度革命的新起点。 2009年,李飞飞领导的研究团队在计算机视觉与模式识别大会(CVPR)上首次推出了ImageNet。 ImageNet 数据集包含10,000 个类别和超过100 万张图像。数据量是前所未有的。
正是由于数据量大、质量高,ImageNet数据集被广泛用于预训练和基准测试。然而,麻省理工学院的研究团队在最近的一项研究中指出:
ImageNet存在明显的“系统标注问题”,导致其作为基准数据集时与实际情况不符。
他们发现ImageNet 数据集中大约20% 的图像包含两个或更多对象。
在分析多个物体识别模型后,数据显示,包含多个物体的照片导致整体基线的准确度下降10%。
举个简单的例子:如果这张图片是ImageNet数据集中的一张高清图像,我们可以看到这张图片包含了多个物体,包括一个女孩、一把吉他和一个唱歌的麦克风,而该图片的主要目标是图片应该是个女孩。
然而,ImageNet的数据标签可能不是女孩,也可能是唱歌的麦克风或吉他。重要的是ImageNet只会标注一个标签,这可能会导致ImageNet在目标识别中出现错误。
研究人员在论文中指出
“总的来说,单个ImageNet 标签可能并不总是捕获ImageNet 图像的主要对象。然而,当我们训练和评估时,我们将标签视为图像的底层真相,因此这可能会导致测试和现实世界的物体识别任务之间出现不一致,无论是在模型执行还是评估性能方面。”
看到这里,你可能会想,为什么图像不能被准确标注呢?其实问题的关键在于ImageNet使用的标记工具WorldNet。
WordNet 名词标记是关键WordNet 由George Armitage Miller 在20 世纪80 年代创立,广泛应用于数据集收集和标记过程。简单理解,ImageNet会根据WorldNet提供的名词及其语义层次结构作为数据集的初始来源,在搜索引擎或Flickr等网站中进行图像搜索。
当WordNet提供名词时,根据其设定的语音层次结构,ImageNet需要扩展该名词的父节点的同义词,并将其作为搜索关键字。例如,搜索“whippet”类别名词(父节点为:“狗”)也会包含“whippet 狗”。
这类似于我们经常看到的“相关搜索”。为了进一步扩大图像库,数据集创建者还进行了多种语言的搜索。
但这里重要的一点是,对于每个检索到的图像,已经确定了一个标签,如果该标签包含在数据集中,它将被分配给该图像。也就是说,标签仅由用于相应搜索查询的WordNet 节点给出。
在这个过程中,WordNet的语义结构会将非主要目标的图像纳入到数据集中,从而导致前面提到的标签偏差。正如论文中的数据所示,不同的对象目标出现在同一分类标签中。 (如图所示)
既然如此,为什么在数据集创建过程中广泛使用WordNet名词呢?
一方面,这是因为WorldNet可以完成大量数据的自动标注。我们知道,所有的数据集在使用之前都必须完成标注任务,而优秀的数据集的规模是非常大的。如果全部都是手工标注的话会非常困难,但是WorldNet可以很好的解决这个问题。
另一方面,对于ImageNet、WordNet来说,仅获得初始数据标签,其准确性还需要通过相关模型再次验证。一般来说,ImageNet数据集的创建过程分为两个阶段:自动图像采集(automated data collection)和众包过滤(crowd-sourcedfiltering),众包过滤就是所谓的评审阶段,分为以下5个阶段步骤:
潜在标签(Candidate Labels):通过将现有的ImageNet图像标签与模型预测的前5个标签相结合,获得每张图像的潜在标签。
选择频率:通过Mechanical Turk(MTurk)平台,将潜在标签与注释内容进行比较。经过反复的过滤循环,最好的标签就是出现频率最高的标签(一般小于5)。
CLASSIFY任务:针对获得的少数多个标签,重新定义一组新的标注内容,根据标注信息为不同的对象分配标签,确定主要对象的标签。这个过程称为分类。
物体标注:总结以上训练后,得到更细粒度的图像标注;
与原始ImageNet标签相比,众包过滤后生成的注释可以更细粒度地表征图像的内容。然而研究人员发现,这些注释内容可能达不到预期的效果。如下图所示,CONTAINS 任务会选择Multiple labels are valid for images,并且对于70% 的图像,选择的注释的标签频率至少是ImageNet 原始标签的一半。
下图显示,尽管他们只感知单个物体,但他们经常选择多达10 个类别标签。因此,对于单目标图像,ImageNet验证过程无法获得准确的标签。
因此,可以说图像标注在很大程度上仍然依赖于自动检索(WorldNet)过程,而众包过滤的评审过程仍然有很大的改进空间。
关于未来如何优化创建数据集的任务,研究人员在论文中表示,我们相信开发注释过程,特别是审查阶段,以更好地捕获地面事实,同时保持可扩展性,是未来研究的重要途径。 ”
涉嫌种族歧视,大规模数据集作为人工智能技术的基础持续存在争议。数据集在许多研究领域有着广泛的使用场景,尤其是在计算机视觉领域。近年来,因数据集的使用而引发的隐私泄露、种族歧视等问题接连出现,让人工智能技术的发展备受争议。
除了近期麻省理工学院因涉嫌种族歧视删除包含8000张图像的Tiny Image数据外,此前,一种图像修复算法PULSE也曾在学术圈引起轩然大波。有网友发现,PULSE修复马赛克图像时,将奥巴马的脸部图像变成了高分辨率的白人。这件事引起了黑人网友的不满。
对此,图灵奖之父Lecun在推特上表示,训练结果存在种族偏见,因为数据集本身就存在偏见,工程师在使用时应该注意这一点。
今年因数据集引发的种族歧视事件多起,而解决这些数据集争议的无非是在数据收集和标注阶段进行改进。研究人员表示,对于大型数据集,理想的方法是收集世界各地指定目标的图像,并让专家按准确的类别手动过滤和标记它们。这里需要注意的是,非专家的手动标记也可能会出现错误。
但从目前来看,这个方法是非常不现实的。事实上,ImageNet等数据集都是从互联网搜索引擎爬取的图像,质量参差不齐,图像审核不够严谨。同时,专家对大量数据的手工标注也很难实现。然而,正如这项研究声称的那样,技术可以进一步改进自动图像审查的过程,以提高数据集的质量。
此外,学术界越来越关注与数据集相关的缺陷,计算机语言协会(ACL)本月早些时候重点关注了这个问题。
参考链接:雷锋网雷锋网雷锋网
https://arxiv.org/abs/2005.11295
https://arxiv.org/pdf/2005.11295.pdf
https://venturebeat.com/2020/07/15/mit-researchers-find-systematic-shortcomings-in-imagenet-data-set/
https://venturebeat.com/2020/07/01/mit-takes-down-8000万个微小图像数据集由于种族主义和攻击性内容/