1. 人工智能是哲学问题
现在,人工智能异常火爆。打开电视,翻开报纸,接入微信,点进网站,随处可以看到人工智能的字眼。人们对人工智能产生出了异常的关注,强烈的期待,甚至严重的恐惧。
在我们看来,这是一个很自然的事情,因为“我们是否能在计算机上完整地实现人类智能”,这个命题是一个哲学问题。康德认为哲学需要回答三个问题:我能知道什么?我应该做什么?我可以期待什么?分别对应着认识、道德、信仰。而是否能够实现人工智能这个问题,关系到智能,同样引人关注,发人深思。
以往都是哲学家提出哲学问题,并通过自己的思辨给出答案,形成哲学理论。但人工智能的以上命题却有些不同,“我们是否能完整地实现人工智能”,它的真伪只有通过人工智能研究人员长期的实践才能得以验证。而且,这个命题也许不能证伪,只能证真。
其实,“智能”没有一个严格的定义。当我们谈到人工智能时,有时指普通人的感知、认知能力,有时指专家的职业技能,有时指群体的智慧。这里,“完整的人类智能”的概念也很重要,也被称为“强人工智能”。如果仅是让计算机在某些方面显得比较智能,其实不难,已有许多成功的案例,困难的是,让计算机在整体意义上与人有同等甚至更高的智能。衡量人工智能是否实现的标准也没有确立,著名的图灵测试是否能够成为人工智能实现的标准也充满争议。
罗素曾说“科学是我们知道的东西,哲学是我们不知道的东西”。 罗素是分析哲学的代表人物之一,从分析哲学的角度来看,只有三种东西是有意义的:逻辑(数学)、客观事实、以及两者的组合,或者说只有科学的东西才是有意义的。所以,以上的人工智能命题是一个“哲学问题”。它的真伪不能,至少现在不能,从逻辑(数学)、客观事实、以及两者的组合中证明出来。
当前人工智能很热,甚至成为巷议街谈,茶余酒后的话题。人们发表出各种各样的言论,在我们看来,这其中有许多都不是“科学”的(不是基于逻辑、客观事实、以及两者的组合得到的结论)。对这些言论,我们应该采取的态度,用另一位分析哲学的代表人物,也是罗素的学生,维特根斯坦的话来说,就是“对于不可言说的,我们必须保持沉默”。因为针对任何不是科学的言论,对其进行探讨、辩论都是没有意义的。
我们认为,正确的态度应该是面对实际问题,用科学的方法去解决问题,不断推动计算机的智能化。这与胡适所说的“多研究些问题,少谈些主义”有异曲同工之处。当然我们并不反对对未来科技的发展进行幻想,进行发散式的思考与交流,但这时应该明确自己是在做什么。
综上,我们说人工智能是哲学问题,有两层意思,它关系到人的本质,它是不明确的。
2. 为什么实现人工智能是极具挑战的
可以说,人工智能的历史与计算机科学的历史一样长久,近年人工智能的研究取得了惊人的成果,可以预见,这个趋势还将会持续,计算机将会变得越来越加智能。另一方面,完整地实现人工智能,即强人工智能,仍是极其困难的。这是为什么?
我们还不知道如何用数学模型表现并刻画人的智能,包括认知能力、语言能力等,而我们在计算机上实现任何东西都必须基于数学模型。这就是困难所在。
维特根斯坦是二十世纪具有代表性的哲学家,前后发表了(看似)相互矛盾,但又有一定联系的两个哲学理论,即他的前期哲学和后期哲学。作为维氏前期哲学和后期哲学的推论,我们就可以导出“人工智能极具挑战”这一结论。我们看看他的主要观点。
维氏前期哲学和后期哲学分别发表在《逻辑哲学论》 [1] 与《哲学研究》 [2] 两部著作里。
《逻辑哲学论》主要从逻辑的角度讨论哲学。其主要观点包括:世界由事实组成。事实可以由逻辑命题表示。思想由命题组成。有意义的思想包含逻辑、事实、及其组合,其他的思想,如形而上学,都是没有意义的。这部书的结束语就是他的名言“对于不可言说的,我们必须保持沉默”。 维氏前期哲学的核心主张是只有科学(逻辑、事实、及其组合)的思想才是有意义的。
《哲学研究》主要从语言的角度讨论哲学。其主要观点有:语言是一种活动,生活的一部分,语言的使用赋之以语义,这种活动如同我们日常进行的游戏,称之为“语言游戏”( language game )。而一个单词的语义由其所有的使用方法决定。还有,概念不是传统的内涵与外延所能定义的,比如,我们通常所说的“游戏”这个概念,其实包括各种性质的活动,如象棋、纸牌、集体舞,它们之间并不存在大家共同拥有的属性,有的只是成员之间的相似性,称之为“家族相似性”( family resemblance )。人的语言与概念不遵循规则,如果定义一条规则,那么一定存在例外。
维氏哲学给我们的启示是,虽然他本人并没有直接这样说,人的智能分为两部分,一部分是数学与科学的能力,一部分是认知、语言等能力。科学可以用数学来精确地描述,而认知、语言是否能用数学来精确地描述还不是很清楚。几十年来的人工智能的研究印证了这一点。我们能够成功实现载人航天,因为这个过程的每个环节,虽然复杂,但可以用数学模型精确地计算出来,相反,我们还不能构建一个真正的“对话机器人”,是因为我们还不知如何基于数学模型这样做,也不知道这是否可能。
3. 自然语言处理是极具挑战的
人工智能的目标之一就是让计算机能够像人一样听说读写,也就是拥有使用语言的能力,这也是其子领域自然语言处理的研究对象。自然语言处理被认为是人工智能完全问题( AI Complete ),也就是说,如果自然语言处理实现了,人工智能也就实现了。
自然语言处理同人工智能一样是极其困难的任务。受维特根斯坦后期哲学的影响,被称为认知语言学( Cognitive Linguistics )的一派形成 [3,4] ,该学派试图从语言的使用,特别是语汇的使用入手研究语言,建立解释语言现象的理论。但是该领域还停留在对语言现象的解释上,远远没有达到建立模型,特别是数学模型的阶段。从认知语言学的研究结果中,也可看出实现自然语言的困难。
下面把认知语言学的主要结论做一总结。语言是人的认知的一部分。语义( semantics )在语言中起着重要的作用,应该通过语义来解释语言现象。语言的概念可以由“原型”( prototype )来说明(源自维特根斯坦的家族相似性概念)。语言的使用是基于“语义相似度”计算产生的,与暗喻( metaphor )、借喻( metonymy )的使用是相通的,同时,语言的使用也是依赖于惯例的。
在中文中,我们说“上厕所”,“下厨房”。这里的“上”和“下”的使用,应该源于不同语义相似度计算产生的比喻,久而久之成为习惯性词语搭配,在语言中被广泛使用。这是语汇级别的例子,这种现象在语法等更高层次也依然可以观察到 [3,4] 。
语言的使用并不存在严格的逻辑关系,如果定义一条规则,那么一定会发现反例。如果认知语言学所主张的是正确的话,即语言使用是基于“语义相似度”计算产生,那么如何模型化这种复杂的计算过程也就变成了极具挑战的问题,因为我们还不知道其基本原理与机制。让计算机同人一样自如地处理自然语言,即使可能,也需要走过漫长而遥远的历程。
5 .实现人工智能的路径
总结起来,实现人工智能可能有三条路径:我们称之为外观、内省、模拟。
所谓外观,指的是观察人的大脑工作状况,探求其原理,解明其机制,从而在计算机上“实现”人类大脑的功能。比如,计算神经学( computational neuroscience )这个学科旨在基于生物和心理学实验,通过计算机建模的方式,解明大脑信息处理的内容、原理、及原因 [5] 。计算神经学研究的进展也许可以帮助人工智能的实现,但从现在的研究成果看还有漫长的路要走。
内省就是反思自己的智能行为,将自己意识到的推理、知识等记录到计算机上,从而“再现”人的智能,比如专家系统( expert system )就属于这一类。内省在一定程度上很有帮助,比如能让我们很快地构建智能系统需要的知识,包括概念、规则。但是,内省的最大问题是人的智能原理可能不能从自己的意识中发现。我们知道,下意识在整个大脑的思维过程中起着重要的作用,最近的研究表明,下意识其实在很大程度上控制着意识,我们理解的自由意志( free will ),即自己的意识可以掌控自己的行为,可能并不成立 [6] 。
模拟就是将人的智能行为的输入与输出记录下来,用模型来模仿,使模型给出与人相似的反应,特别是利用统计机器学习( statistical machine learning )。模拟的最大优点是它避免对人的智能进行直接地建模,转而通过数据驱动的方式解决具体问题。特别是统计学习拥有一套完整的理论体系,作为实现智能的方法具有很强的鲁棒性和可扩展性,无数事实证明统计学习是实现人工智能的一个非常强大的工具。模拟的最大缺点是它依赖于观测,数据中隐含的规律一定程度上可以挖掘出来,但从实现人工智能的角度看往往还不够充分,可能不能触及问题的本质,特别是高级的智能。
无论是外观、还是内省、模拟,我们还不清楚哪种方式有可能引领我们最终登上人工智能的顶峰。
5 .现实的策略
面对这样具有挑战的问题,我们应该采用怎样的策略,一步一步地推动人工智能的研究,使计算机不断地智能化?这里提出两个策略:任务驱动与混合模式。它们主要是面对自然语言处理的,但对人工智能一般也应该适用。
认知语言学与自然语言处理的研究告诉我们,语言的语义具有很强的灵活性,多样性,很难精准刻画,但是当具体的任务、具体的场景确定以后,问题往往就变得容易很多。例如,要判断两个词的语义是否相似,往往不好确定,因为站在不同的角度看可能有不同的结论。但是,一旦看问题的角度确定了,这个判断也就变得容易了。正如哲学家波普尔所说“对象( object )只有在这种情况下可以对它们进行分类,或者作相似性判断,那就是把它们联系到具体的兴趣或需求上。”所以,任务驱动是我们应该采用的第一个策略。
自然语言处理的研究成果表明,以统计学习为框架,以人的知识为内容,以人脑为启发,这种混合模式,或许是最有效的。传统上,自然语言处理的许多方法基于“统计加规则”,比如用概率上下文句法( probabilistic context free grammar )进行句法分析,就等价于使用人定义的语法知识加上自动学习到的概率统计知识来完成这个任务。所以,在统计学习的框架里加入人的知识是非常自然的想法。最近的深度学习的研究进展告诉我们,我们可以进一步将传统的简单的统计学习模型扩展到复杂的统计学习(深度学习)模型,大幅度提高人工智能处理的性能。深度学习本质上还是统计学习,但它在很多地方借鉴了人脑的工作原理,能够帮助我们很快构建复杂的模型,找到适合解决问题的方法,减少不必要的尝试。所以,借鉴人脑的统计学习也是一个非常有效的手段。综上,混合模式是我们应该采用的第二个策略。
诺亚方舟实验室在从事基于深度学习的自然语言处理的研究,以自然语言对话、机器翻译为主要应用。以上策略正是指导我们研究的基本思想。
6 .结束语
完整地实现人工智能是极具挑战的。但是有一点我们深信不疑,人工智能技术将会不断发展,计算机将会变得越来越加智能。
人工智能技术未来会发展成什么样子?我们谁也不能很好地预测,即使是十年以后的情况。举个例子,得益于大数据和深度学习技术,最近语音识别有了突飞猛进的发现,识别准确率现在达到 95% 左右。十年以前可能谁也没有预想到这点,你猜到了,别人也不相信,因为当时的识别准确率只有 85% 左右。现在预测十年以后的人工智能技术,我们也会陷入同样的困境。
人工智能的顶峰有可能是我们永远无法到达的,正像我们人生中追求的理想一样。重要的是在向上前进的过程中我们不断努力,不断进步。这就是人生,这就是人工智能。
参考文献
1. 维特根斯坦,逻辑哲学论,贺绍甲(译),商务印书馆, 1996 。
2. 维特根斯坦,哲学研究,李步楼(译),商务印书馆, 2004 。
3. George Lakoff, Women, Fire, and Dangerous Things, What Categories Reveal about Mind. University of Chicago Press, 1990.
4. John Taylor, Linguistic Categorization, Prototypes in Linguistic Theory. 3 rd edition, Oxford Univ. Press, 2004.
5. Peter Dayan & L. F. Abbott, Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems. MIT Press, 2001.
6. Patrick Haggard, Human Volition: Towards a Neuroscience of Will. Nature Reviews Neuroscience 9, no. 12: 934-946, 2008.