近日一张令人震惊的图片说明了人工智能研究的“根深蒂固的”偏见。将美国历史上第一位黑人总统-奥巴马的低分辨率照片输入一个旨在生成去像素化人脸的算法后,输出的是一张白人照片。
此外,用同样的算法从低分辨率的输入中生成女演员刘玉玲(Lucy Liu)或国会议员Alexandria Ocasio-Cortez的高分辨率图像,所得到的脸看起来明显是白人。正如一条引用奥巴马例子的热门推文所说。“这张图片充分说明了人工智能中偏见的危险性。”
但是,是什么原因导致了这些输出,它们究竟告诉了我们关于AI偏见的什么?
生成这些图像的程序是一种叫做PULSE的算法,它使用一种被称为upscaling的技术来处理视觉数据。缩放就像你在电视和电影中看到的 "放大和增强 "的典故,但是,与好莱坞不同的是,真正的软件不能凭空生成新的数据。为了将低分辨率的图像变成高分辨率的图像,软件必须使用机器学习来填补空白。
在PULSE的例子中,做这项工作的算法是StyleGAN,它是由NVIDIA的研究人员创建的。虽然你以前可能没有听说过StyleGAN,但你可能对它的工作很熟悉。它是负责制作那些令人毛骨悚然的逼真人脸的算法,你可以在ThisPersonDoesNotExist.com等网站上看到这些逼真的人脸,这些人脸经常被用来生成虚假的社交媒体资料。
PULSE所做的是使用StyleGAN来“想象 ”像素化输入的高分辨率版本。它不是通过“增强”原始的低分辨率图像,而是通过生成一个全新的高分辨率面孔,当像素化后,看起来与用户输入的面孔相同。
这意味着每张去像素化的图像都可以以各种方式进行放大,就像一套食材可以做出不同的菜肴一样。并不是像 "放大和增强 "的套路那样,算法是在图像中 “发现 ”新的细节,而是在发明新的面孔,还原输入数据。这种工作在理论上已经有几年的时间了,但是,就像人工智能世界经常发生的那样,当本周末在网上分享了一个易于运行的代码版本时,它引起了更多人的关注。这时,种族差异开始跃然纸上。
PULSE的创造者说,这个趋势很明显:当使用该算法来缩放像素化的图像时,该算法更多的是生成具有白人特征的面孔。
“看起来,PULSE产生白人面孔的频率确实比有色人种的面孔高得多,”该算法的创造者在Github上写道。“这种偏见可能是继承自StyleGAN被训练的数据集[......],尽管可能还有其他我们不知道的因素。”换句话说,由于StyleGAN是在数据上训练的,当它试图得出一个看起来像像素化输入图像的人脸时,它默认为白人特征。
这个问题在机器学习中极为常见,这也是面部识别算法在非白人和女性面部上表现较差的原因之一。用于训练人工智能的数据通常偏向于单一的人口统计学,即白人男性,当程序看到不属于该人口统计学的数据时,它的表现就会很差。不巧的是,在AI研究中占主导地位的是白人男性。
但奥巴马的例子究竟揭示了什么偏见,以及它所代表的问题可能如何解决,这些都是复杂的问题。事实上,它们是如此复杂,以至于这张单一的图片在人工智能学者、工程师和研究人员之间引发了激烈的分歧。
在技术层面上,一些专家并不确定这甚至是一个数据集偏差的例子。AI艺术家Mario Klingemann提出,PULSE选择算法本身,而不是数据,才是罪魁祸首。Klingemann指出,他能够使用StyleGAN从相同像素的奥巴马图像中生成更多的非白人照片输出,如下图所示。
这些面孔是使用 "相同的概念和相同的StyleGAN模型 "生成的,但与Pulse的搜索方法不同,Klingemann说,我们不能真正从几个样本来判断一个算法。“可能有数百万个可能的面孔,都会还原成相同的像素模式,而且所有的面孔都是同样的'正确',”他告诉The Verge。
这也是为什么这样的工具不太可能用于监控目的的原因。这些过程所创建的面孔都是虚构的。但不管是什么原因,算法的输出似乎都有偏向性--这是研究人员在该工具广泛使用之前没有注意到的。这说明了一种不同的、更普遍的偏见:一种在社会层面运作的偏见。
AI责任制研究者Deborah Raji告诉The Verge,这种偏见在AI世界里太典型了。“鉴于有色人种的基本存在,不对这种情况进行测试的疏忽是令人震惊的,很可能反映了我们在谁能建立这种系统方面继续看到缺乏多样性,”Raji说。“有色人种并不是离群索居。我们不是'边缘案例',作者可以随便忘记。”
一些研究人员似乎只热衷于解决数据方面的偏见问题,这正是引发奥巴马形象的更大争论的原因。Facebook首席人工智能科学家Yann LeCun在推特上对该图片进行了回应,称 “当数据出现偏差时,ML系统就会出现偏差”,并补充说,这种偏差是一个“在部署的产品中比在学术论文中 严重得多的问题。”因此,他成为了这些对话的热点。
许多研究人员,其中包括Raji,对LeCun的框架提出了异议,指出人工智能中的偏见受到更广泛的社会不公正和偏见的影响,仅仅使用 "正确 "的数据并不能处理更大的不公正。还有人指出,即使从纯技术修复的角度来看,“公平”的数据集往往也不是什么好东西。例如,一个准确反映英国人口结构的人脸数据集将以白人为主,因为英国以白人为主。在这个数据上训练的算法,在白人面孔上的表现会比非白人面孔更好。换句话说,“公平”的数据集仍然可以创建有偏见的系统。在后来Twitter上的一个帖子中,LeCun承认AI偏见有多种原因。
Raji告诉The Verge,她也对LeCun提出的研究人员应该比生产商业系统的工程师更少担心偏见的建议感到惊讶,这反映了该行业最高层缺乏意识。“Yann LeCun领导着一个以研究许多应用研究问题而闻名的行业实验室,他们经常寻求产品化,”Raji说。“我真的无法理解,处于该位置的人如何不承认研究在制定工程部署规范方面的作用。” The Verge联系了LeCun征求意见,但暂未收到回复。
The Verge认为,许多商业化的人工智能系统都是直接从研究数据和算法中建立起来的,没有对种族或性别差异进行任何调整。如果不能在研究阶段就解决偏见问题,只会让现有的问题长期存在。那么,从这个意义上说,奥巴马图像的价值并不在于它暴露了单一算法的单一缺陷,而是它在直观的层面上传达了人工智能偏见的普遍性。然而,它所隐藏的是,偏见的问题远比任何数据集或算法更深。这是一个普遍存在的问题,需要的不仅仅是技术上的修复。
正如一位研究人员Vidushi Marda在Twitter上对算法产生的白人面孔图像做出的回应。“如果需要明确指出的话, 这不是呼吁数据集的多样性, 或是提高性能的准确性。这是呼吁机构和个人从根本上重新考虑设计、开发、部署这项技术。”