我们倾向于认为机器,尤其是智能机器,都有那么点高冷且保持中立。我们相信,无人驾驶汽车在生死决定之间不会偏向于行人或者司机任何一方。同时我们信任执行信用评估的智能系统将忽略真正有影响力的指标之外的所有事情,例如收入或FICO分数。而且我们的理解是,学习系统会永远忠于真相,因为驱动它们的算法是中立无偏见的。
对于我们中的某些人来说,这是一个bug:在刚性观点之外,机器不应该存有任何恻隐之心。对于其他的人来说,这是一个特征:机器应该摆脱人类的偏见。但是在这两者之间还有一种看法,机器将学会客观。
当然了真相远不是这样的,事实的情况是智能系统不仅少有公正无偏见的,且偏见的来源还是多种多样的。这些偏见来源包括我们用于训练系统的数据,我们同机器在“野生环境”下的交互,突发偏见,相似偏见以及冲突性目标的偏见。这些来源中的大多数通常被忽视,但是随着我们对于智能系统的构建和部署,了解机器的偏见来源显得愈发重要,因为我们可以有意识地设计系统且有望避免潜在的问题。
数据驱动偏见
对于任何学习系统来说,输出的讯息取决于它接受的数据。这并不是一个多么新颖的观点,只是当我们看到那些被数百万例子驱动的系统时,这一点通常被遗忘了。庞大的例子会压倒任何人的偏见,但是如果训练集本身就是倾斜的,那么最终的结果也会带有偏见。
最近这种类型的偏见已经出现在一些经过深度学习的图像识别系统之中,尼康面部识别软件中出现的对于亚洲人面孔识别以及HP皮肤色度的混淆问题似乎就是这种倾斜的实例集学习的产物。虽然这两者都是固定的且无意识的,但是他们证明了如果我们不考虑数据中存在的偏差的话,最终还是会出现问题的。
除了面部识别,还有其他一些令人不安的情况会对现实世界产生影响。用于构建预测假释犯的累犯率、犯罪模式或潜在雇员的学习系统或多或少都会有一些潜在的负面影响。当它们受训于有倾向性的数据、有的时候甚至是平衡数据,但系统还是会在决策时出现偏见,同时这种偏见还是永久性的。
交互偏见
尽管有一些系统通过查看大量的示例组来学习,但其他类型的系统大多通过交互来学习,于是偏见随着驱动交互的用户所带的偏见而产生了。这种类型的偏见有一个很鲜明的例子,即微软的Tay,一个基于Twitter的聊天机器人,旨在通过与用户的交互中进行学习。然而不幸的是,Tay受到了一个用户社区的影响,在与这个社区的交互中Tay变成了一个种族主义者。从本质上说,这个社区反复地在同Tay的聊天中表达了一些攻击性的言论,通过学习系统Tay最后学会了这些语句并用作日后交互中的回复。
Tay前前后后只存活了24小时,在成为一个极具攻击性的种族主义者之后就被微软强行关闭了。尽管Tay的种族主义嘲讽仅仅局限在Twitter上,但是这一事件表明了它潜在的对于现实世界的影响。正是因为我们构建的智能系统是从人类那里学习如何交流沟通以及做决策,那么类似的因为训练而产生的问题以后会越来越多。
那么如果人类同智能系统合作,随着时间的推移,最终拿下控制权的会是谁呢?想一想吧,对于机器人作出的决定,诸如谁会获得贷款或者谁被拒绝,我们在多大程度上会选择信任呢?Tay事件教会我们的是,这样的系统终将在与人交流的过程中学会人类以及环境中的偏见,无论是好的还是坏的,都会反映出训练它们的人类的意见与观点。
突发性偏见
有的时候,个性化系统作出的决策最终会在我们周围产生偏见“泡沫”,只要看一看Facebook目前的情况就能发现这一偏见确实存在。在最高层面上,Facebook的用户可以看到他们朋友发的帖子,并且可以与之共享信息。
不幸的是,任何使用数据馈送分析然后呈现内容的算法都将提供与用户已经看到的想法集相匹配的内容。这种效果随着用户的点阅、喜欢和共享内容而被逐渐放大,最终的结果是导致流向用户的信息流都是基于现存的观点和看法的。
尽管这的确是个性化的,且往往都是无害的,但是这再也不是我们所说的新闻讯息了。这是一个信息泡沫,是一个算法版本的“确认偏见”。用户再也不必屏蔽与他们意见相左的信息了,因为系统会自动帮助他们屏蔽这些信息。
这些信息偏差对新闻世界的影响是令人不安的,但是当我们把社交媒体模型视作支持企业做决策的一种方式时,那么导致信息泡沫出现的系统似乎就有了扭曲人类思维的潜能。知识分子永远只会从与其相似的人那里获得信息,而永远不会去注意那些与之对立的观点,于是他们就忽视了不一样的想法。
相似性偏见
有的时候偏见仅仅只是系统按部就班照着设计跑流程时的产物。以谷歌新闻为例,它会向用户推荐同其搜索内容相匹配的新闻,这显然是产品设计的目的之一,并且的确做的不错。当然了,这种设计的结果是用户会得到了一组类似的新闻,这些新闻之间相互佐证。这也就是说,他们催生了一个信息泡沫,这个泡沫同Facebook设计的个性化泡沫从本质上换汤不换药。
当然有很多问题都与这一模式所强调的新闻角色及传播紧密相关,这其中最明显的一个就是如何做到信息平衡的问题。“编辑把关”的缺失在目前是大范围普存的,虽然相似性在信息世界是一个有力的判断标准,但绝不是唯一的。不同的观点会为决策提供强有力的支持,只提供“类似”的查询结果会建构一个信息泡沫。
在企业中,冲突、对立、反对的观点会带来创新和变革,相似性偏见往往却是一个很容易被接受的偏见。
冲突性目标偏见
有的时候那些专为特定的商业目的而设计的系统最终也会产生偏见,这些偏见是真实但也是完全无法预测的。
举个例子,试想一个旨在为求职者提供职位描述的系统,当用户点击职位描述的时候就会给出相应的薪酬收入,那么很自然的这个算法的目标就是希望通过提供职位描述信息来获得更多的点击次数。
事实证明,人们倾向于点击符合他们个人观点的工作。例如,女性首先倾向于为工作贴上“护理”的标签而不是“医疗技术员”。这不是因为这个工作对于他们来说是最好的,而是因为他们被刻板印象反复提醒,然后将自己的观点与这种印象保持一致。
刻板印象对于行为的威胁是这样运作的,通过呈现与人们刻板印象相符合的工作信息(例如性别、种族以及民族)来获得更高的点击率。基于此,任何带有学习功能的网站都会基于点击行为来向用户提供内容强化的刻板印象。
机器偏见的本质就是人的偏见
在一个理想的状态里,智能系统及其算法都应当是客观的。然而不幸的是,这些系统都是由人类建立,于是所有的系统最终都将反映出人类的偏见。通过了解偏见的本身以及问题的来源,我们可以积极地通过设计系统来避免偏见。
也许我们永远都不可能设计出完全客观公正的系统及工具,但是至少我们能够相对于人类来说他们是更为客观的。这样的话,选举不再会误导我们,流通货币不会再崩溃,然后我们可以打破信息泡沫、个性化新闻泡沫,同那些与我们不一样的人交流沟通。