转载

艰难抉择：机器学习的伦理问题

本文最初由 Igor Perisic 发表在他的博客上，经作者授权，InfoQ翻译并分享。

编者按：我们刚刚开始意识到，机器学习的算法微妙地影响了我们生活的方方面面，从提供工作建议到无人驾驶汽车。这些算法的使用，给那些参与创建这些系统的人们带来了困难的伦理问题：开发人员如何知晓他们的系统符合道德标准，不会加强社会已存的偏见，或者引入新的偏见？企业如何创造一个鼓励探索这些伦理问题的环境？软件工程师从其他专业人士借鉴了什么样的经验教训，以了解他们自己对这些问题的理解？

在这篇文章中，LinkedIn工程副总裁Igor Perisic概述了一些初步步骤，可以用来在机器学习研究者中灌输一种伦理行为文化，并讨论一些将来需要解决的难题。

在硅谷，许多公司的理想是渴望成为一个道德公司。你可以在公司中看到像“不作恶”之类的座右铭，或者从同行科技公司努力承担的社会责任能看到这一点。在更深的层次上，像Google、Facebook、LinkedIn等公司，它们为了运营业务而建造了机器学习系统，其行为却越来越多地受到了这些系统的支配。这些公司开始扪心自问，他们如何做出明智的决定，如何遵循道德来操作机器学习系统，而非仅仅由收入或者一些抽象的成功指标来支配。

但是，作为开发商，我们也脱不了干系。是我们的代码导致了这一切的发生，在这样的情况下，我们需要考虑所建设和运行的伦理。如果你想相信这些讨论对作为开发者的你和我们的社会都很重要，那么你应该注意到不久前发生的Apple与FBI关于iPhone加密的争论。

伦理，像软件一样“吞噬世界”

（InfoQ注：美国知名风投Marc Andreessen有著名的论断：“软件正在吞噬世界”。）

从搜索引擎到自动驾驶汽车，人工智能和机器学习（引申开来，如机器人、自治代理等等）将以某种方式影响你身边的社会。然而，当你查看机器学习或计算机科学主修科目的任何课程时，就会发现伦理学和哲学课程显然缺席了。回到大学，你看有多少计算机科学课程提议或者必修这些科目？再回忆你更早的教育，有多少高中事实上有或者要求你参加这些科目的课程？

我认为，通过对比可以发现伦理学是其他领域在本科生或者研究生这一层次对话的重要组成部分。例如在生物学或者医学中，伦理课程是强制的。这是有意义的——“第一，不伤害他人”，自公元前5世纪以来医生们就已经在使用这个说法了。社会广泛接受了这个观点：做药物测试的医生，需要理解他做所的工作并不仅仅是寻找治疗方案，也要敬畏人类（或动物）的尊严。

在伦理基础上，记者、律师和许多其他专业都有相类似的基础。在许多国家中，律师协会有权为律师规定职业道德准则和行为规范，也有权取消违反行为准则的律师的资格。新闻伦理视国家和新闻机构而异，但是某些惯例，如保护消息来源，被广泛接受为事实标准，在某些情况下，受国际法的保护。值得注意的是，这些伦理标准会随这些领域中专业人士的社会期望共同演进。然而在计算机科学实践中，对伦理的期望才刚刚显现。许多开发商自己不做道德判断，而一味将责任推到他们的雇主身上。

伦理问题并不容易回答，会让我们感到棘手。为了解决这些问题，我们不能隐藏在标准和广泛接受的惯例后面。我个人读过哈佛的新生儿体外膜氧合（ECMO，extracorporeal membrane oxygenation）临床试验的相关文献，这些文献围绕“暂缓救治措施（withholding lifesaving treatment）”展开了争论，我从中学到了艰难的一课。

在我们的职业中，现在有这么一种趋势，许多人创造了能改变社会的系统，而他们自己未必知晓他的行为是如何改变世界和他人的。当一种算法可以推荐给数百万人给定的工作时，它还只是一个算法吗……或许不是？直到最近，甚至实践哲学家也不会同意，软件的使用创建了独一无二的伦理困境，这一点与武器或医药形成了鲜明的对照，它们的伦理话题已经被讨论过数千年了。但随着领导决策系统、筛选和其他相关模型的普及，今天的软件对人们日常生活中可以有类似的影响。此外，这些系统可能利用的数据集，往往能反映在现实世界中的社会趋势和偏见。

我在这里不是要倡导某种特定的伦理体系比其它好，我是想提出在这个领域中需要具备思辨能力要求。虽然一、二次的伦理教育确实不足以确保工程师们建立伦理体系，但能为他们能够理解这些伦理相关问题提供了一个基础。

使算法负责

在LinkedIn，我们有机会在逾4.6亿会员的职业决定产生积极的影响。在LinkedIn的机器学习的许多用途中，根据我们的数据集中他们的职业、职称、兴趣和许多其他特点，为专业人士提供可能感兴趣的工作的优化列表。对我们来说，一个算法的作用应该向一类人群推荐给定的工作，而不是另一个为了算法去偏误已经导致许多讨论并自我反省的那些人群。实际上，我们已经努力不去追踪信息（例如性别或者政治取向），因为我们觉得可能会给向会员推荐工作的决策模型带来某种程度的偏见。

但是，提出“blind”算法并非意味着它已经没有偏见。最近，在LinkedIn公司，发生了很不幸的论战，是我们的搜索条件中，当使用典型的女名检索时，却给出了男名的拼写建议（这个错误令人遗憾，将很快被纠正）。我从第一手资料获知，LinkedIn公司的搜索工程团队负责人，开发了这些算法，是一位很有原则的科学家。我可以证明他的基本信念是：“第一，不伤害他人”原则是运行这类系统伦理的一个重要部分。不管如何，这个算法是仅仅基于词汇搜索频率来提供建议，没有考虑到性别，导致结果出现了偏差。现在回想起来，很明显的是从考虑范围中去掉了性别的选择，算法实际上是盲目的。由于我们事先没有跟踪该信息，就不能用它来验证算法的实际输出无偏见了。

另外一个问题就是，没有办法单独检查机器学习的算法，并确定它是否会提供存在偏差的结果。计算机代码必定是一个抽象。偏见本身只存于更广泛的文化背景之下，必须使用同样的眼光来看待。那么我们该如何创建一个更加道德的系统呢？现在还没有完整的答案，但我们正在寻找解决方案。

争论的一个关键领域仍然是：如果用来建造模型（例如性别、性取向、年龄等），希望能够不追踪那些容易引起偏见的信息。这源于一旦你追踪或者从这些信号获取特征时，就打开了潜在的潘多拉魔盒。简单地说，当它们用于训练模型时，要跟踪它们以及这些模型中数据类型的影响非常困难。然而难题是，为了验证机器学习模型的输出事实上没有偏见，可能又得需要这些数据了。

例如，我们假设深度学习系统最终提取年龄作为可用于预测未来的CEO的有价值的特征。毕竟，新的大学毕业生获得CEO职位的可能性要低于拥有多年经验的个人。结果是，当涉及到两个同样资格的“有经验”的候选人时，因为基于年龄进行区分，系统可能倾向推荐两者中较年长的一位。这显然不合适。然而，除非研究人员追溯并测试针对包括候选人年龄信息的数据集系统的结果，否则，这种偏见不太可能被识别出来。

这一切并没有现成的答案，很显然，光有良好的愿望是不够的。如果我们再次审视其他行业的历史（医生、律师、记者），就会发现，他们的伦理基础，是建立在一个融入更广泛的社会的领域漫长的、间或混乱的斗争上。至少，现在是时候该让计算机科学家和机器学习者开始问自己其他行业已经解决的同样困难的问题了。

感谢冬雨对本文的审校。

给InfoQ中文站投稿或者参与内容翻译工作，请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博（@InfoQ，@丁晓昀），微信（微信号： InfoQChina ）关注我们。

原文 http://www.infoq.com/cn/articles/ethical-issues-in-machine-learning

正文到此结束