当前人工智能之所以能够引起大家的兴奋和广泛关注,在很大程度上是源于深度学习的研究进展。这项机器学习技术为计算机视觉、语音识别和自然语言处理带来了巨大的、激动人心的进步,也相应的带来了具体应用的产品。科技巨头们——谷歌、Facebook、亚马逊和百度纷纷涉足这个领域:四处挖掘人才、建立研究实验室、高价收购创业公司、发布研究成果并将成果应用于产品,等等。
深度学习是机器学习领域中一系列试图使用多重非线性变换对数据进行多层抽象的算法,相较于在一大堆数据中自我生成任务的机器学习来说,这是一个巨大的进步。之前的机器学习可以称之为「肤浅的学习系统」,会受系统能计算的函数的复杂度的限制,例如,当使用线性分类器来识别图像时,将需要从图像中提取出足够多的参数特征来提供给它,但手动设计一个特征提取器非常困难,而且很耗时。或者使用一个更加灵活的分类器,比如说支持向量机或者两层神经网络,直接将图片的像素提供给它们,但这也不会提高物体识别的准确性。但深度学习的出现使这种情况发生了改观,互相关联的多层级为深度学习提供了「深度」,通过这样一种自下而上的工作,算法学着去识别特征、概念和类别,这就是人类非常擅长但一直很难用代码去实现的任务。
人工智能近几年的发展一方面取决于深度学习算法的成熟,另一方面取决于数据量的海量增长。百度的人工智能专家吴恩达把人工智能比作火箭,而深度学习是火箭的发动机,大数据是火箭的燃料,这两部分必须同时做好,才能顺利发射到太空中。
移动互联网和多种智能设备的普及使我们进入大数据时代,为人工智能的发动机——深度学习提供了足够多的燃料,早期的神经网络只拥有有限的数据处理能力。超过这个临界点时,为它们输入更多信息并不会带来更好的表现。而现在的神经网络系统所依赖的开发者的指导和调整要少得多。同时,不管你能输入多少数据,系统都能够对其进行充分利用。谷歌、Facebook和百度等互联网巨头坐拥海量信息,大量的搜索历史、社交信息和图片等。因此,他们才会积极布局深度学习,让机器不再惧怕信息过载的问题,反而是更好的从这些海量信息中挖掘中更多价值。
从另一方面来说,神经网络要发挥作用必须先接受训练。比如说,一台机器要教会自己识别人脸,必须先被展示一个「训练集」,其中包含成千上万的照片。也就是说,数据量的增长反过来也会提升神经网络的表现。也就是说,对于深度学习和人工智能,需要越来越多的数据。虽然谷歌、Facebook和百度这类科技巨头坐拥海量数据,但依然需要更加开放的互联网中的数据输入。例如,Facebook人工智能实验室负责人Yann LeCun在接受IEEE采访时表示,Facebook的人脸识别算法DeepFace在数据库中的测试结果是97.25%,但如果图片库里有数亿张脸,那精确性就远不及97.25%。所以,这些科技巨头需要将深度学习和人工智能的研究更加开放,因为只有将他们已有的成果从一个相对封闭的环境中换到整个互联网中时,才能使深度学习模型更加完善,使人工智能得到更加广泛的应用。
在人工智能领域,有许多开放式案例,有的是科技巨头开放计算平台,有的是深度学习开源算法,但这都表明了科技巨头在人工智能开放化道路上的必然趋势。IBM在几年前就开始将人工智能系统沃森开放给金融、医疗、互联网(和Twitter合作)等行业使用,2014年投入10亿美元进行沃森开放平台的建设,当年年底沃森智能分析平台向公众开放,功能包括语音转文字、文字转语音、视觉识别、概念解读多维分析。支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架Apache Hadoop,是根据Google公司发表的MapReduce和Google档案系统的论文自行实作而成。此外,还有分布式机器学习框架Spark。国内互联网巨头百度也在近期表明,将发起建立一个名为「深盟」的分布式机器学习开源平台,由旗下深度学习研究院牵头,联合来自卡耐基·梅陇大学、华盛顿大学、纽约大学、香港科技大学的多位系统开发者,共同推出旨在大幅降低机器深度学习门槛的“虫洞项目”。目前,已经参与合作的公司包括今日头条、汽车之家及微软亚洲研究院。深盟已有组件已成功覆盖三类最常用的机器学习算法,未来还则将致力于实现和测试更多常用的机器学习算法。作为中国国内第一个达到工业界应用水平的开源机器学习平台。
分布式机器学习开源平台对于人工智能领域有着重要意义,它解决了数据持续增长和机器学习模型逐渐复杂化与计算能力受限的矛盾,大幅降低机构和个人进入分布式机器学习应用的门槛。而随着产业界和学术界越来越多的研究人员使用该平台,这一方面会贡献更多的数据,才促进深度学习算法的完善。另一方面,人工智能的发展除了算法和数据之外,也离不开应用场景,现在,众多开发人员可以使用该平台进行自身领域的应用开发,比起科技巨头将深度学习仅用于自身业务有了更好的开放性,能够更加有利于深度学习技术更加广泛的商业化应用。
因此,不管是Apache Hadoop和Spark等开源平台,还是IBM的沃森开放平台和百度刚刚发布的「深盟」开放平台,都会借助这种开放式、分布式的合作机制充分调动群体协作和智慧,以更好的促进机器学习实现更加广泛的应用,更快的实现人工智能的产业化。