虽然已被关于神经网络、人工智能和机器学习的热烈讨论所包围,但很多人都知道,这些方法根本没有什么新颖的东西。让人疑惑的是,这些算法和方法早在几十年前就已经存在了算法和方法,那么为何现在才是它们如日中天的时候呢?
为了回答这个问题,我们先围绕数据和工具来看看在过去的五年里究竟发生了什么。我们可以看到, 可扩展的计算能力 在急剧上升,或者更确切地说,是每瓦特和每比特的性能。这两个因素合并到一起,增加了发展的气焰,而且日益发展的数据分析已经远远地超越了存在数十年的标准数据库和计算方法。问题是,我们正处于“数据炒作”的风口浪尖——急于开发一系列的工具和框架(正如Hadoop这个示例)来支持更大更复杂的数据集,然后再努力去增强新框架的数据分析性能。
因此,对于那些已经登上数据表现顶峰的公司和用户,机器学习会成为他们下一个方向么?事实上,对大规模、复杂分析以及支撑它们的这些系统和框架的关注,促使了一些发展。但最终,可以得到这样一个结论,无论是学术界还是工业界,这些进步都已达到了自己的巅峰。这些从肥沃的“大数据”土壤里成长的新方法和研究,也都得到了充分的训练和测试。然而,对于一系列受限(但在增长)的工作负载而言,还有另一种解决复杂问题的思考方法。
这并不是说,那些能够利用可扩展硬件的新机器学习方法没有前进的研究和发展。但这有一个更大的故事,Patrick Hall解释道,他在统计软件巨头SAS中拥有高级机器学习科学家(senior machine learning scientists)的独特地位。他的头衔值得注意,因为他正在寻找不能很好适用于经典统计建模方法(他所在公司的主要研究领域)问题的解决方法,目的是将这些方法集成到现有的企业产品中——至少能在某个点用到。
Hall声称,虽然上述的所有趋势正在推动机器学习走向最前沿,但这有一个例外,也就是数据最终的体量特别大,使得统计分析方法已经难以发挥自身的优势。再加上机器学习算法的新发展,这意味着机器学习的黄金时代终于来临了。
“‘宽度大于长度’的数据集随处可见——这些数据集列数大于行数,而且有更多的变量和观测值。所有的这些都不利于传统的统计方法,而且现在,有着相关变量的数据(例如,和图像数据有关的像素)越来越多,甚至存在于文本挖掘中。”Hall公正地说道。此外,大量的新数据来源于数据缺失的数据集或是稀疏数据集,这些数据集中有用的数据不到整个集合的1%。
对于那些想要去投资分析传统统计方法无法适用的数据的企业,这有很多的机会——其中一个就是赞助初创公司和来自分析公司的新动机,这些公司似乎得到一个信息,把产品称作是“机器学习”成果是一种流行的趋势,即使只是对分析做了轻微的提升。这造成了定义上的问题,没有命名,而且一些糟糕的分析实例和BI(商业智能)公司也采用一样过时的软件,然后打上机器学习的标签,仅仅是因为它听起来比数据分析更具有鲁棒性或者更复杂。这对于任何一个新技术领域都是持续的疼痛,尤其是一种技术正在快速发展的时候。Hall指出,用户需要理解他们的数据和问题,一旦掌握了它们,那么无论是标准统计还是数据库解决方案,都能处理一些更灵活(可能有点复杂)的问题。
这并不是说所有传统的统计公司和数据库公司都在改变它的产品消息,而不是提升机器学习技术。SAS在20世纪90年代末期引入了它的第一款数据挖掘产品(企业版数据挖掘),而且在当时,许多的机器学习模型也得到了大量的炒作(有神经网络、决策树、K均值聚类等)。Hall说,在当时,出现了一些使用企业数据仓库的数据去拟合缺乏任何参数假设的模型的事迹。因此,这并不是什么新鲜事——但这种问题的范围和数目正在不断增加,即使是没什么预期结果。
在企业领域中,成熟的机器学习行业是银行业,保险业和信用卡产业。有趣的是,这三个行业都是管制市场的实例,对不同的问题都有着对应的 黑盒方法 ,这对监管者来说可能有些难以理解。“幸运的是,机器学习总有一个折衷的方法。你可以把希望的结果理解成更加准确,这对于调控行业来说可能很困难,但最后他们把它看成是一个机会,而且这个权衡的结果使他们感觉越来越舒服。”
Hall和他所在的公司强烈的意识到他们必须在语言和产品水平上保持创新,以赶上一个又一个机器学习初创公司潮流的步伐。“目前,这的确是一个备受关注的竞争,”他很赞成的说。“我们正在尝试将我们的技术和 机器学习的并发性和可扩展性 应用到这些问题中,但这毕竟是SAS,这意味着我们要受到语言语法的限制,老实说,好像过时了。”他说,即使这种技术比以往技术的鲁棒性都要好,但SAS仍然进退两难,因为改变核心语法意味着美国运通(American Express)和美国银行(Bank of America)的数据业务系统将会瘫痪。“我们能做的就是改变语法背后的运行,而且这也是我们现在正在做的。”
大型企业会如何去思考他们仓库里不能适用于标准回归模型的所有账单数据,这很难说。但为了公正起见,使用熟悉的框架和方法做更复杂的事情仍有其价值,特别是在寻找使用机器学习方法加强他们分析能力的监管行业,因为熟悉的框架和方法至少意味着会有一个正式的、熟悉的基础。这也正是SAS希望其成功进军机器学习大企业的地方——而对于一些新兴的初创公司,则会有一个艰难的时刻,主要体现在以过去的消费者为核心的图像和人脸识别、语音识别、或其它领域。
说已经看到机器学习黄金时代的黎明可能还为时过早,但远处的地平线已经开始绽放光芒。鉴于对机器学习投入的资金量和关注,作为大数据工具和方法的下一个重大合作伙伴,这似乎并不像是一个扩展。
原文链接: Why The Golden Age Of Machine Learning is Just Beginning (译者/刘帝伟 审校/赵屹华 责编/周建丁)
译者简介: 刘帝伟,中南大学软件学院在读研究生,关注机器学习、数据挖掘及生物信息领域。
【在线视频分享预告】10月29日20:30-21:30 ,CSDN人工智能用户群安排技术专家深度分享“ Hulu的机器学习实践 ”。