转载

一篇文章告诉你机器学习的发展史

摘要:最近,我们听到了关于机器学习的很多新闻,这部分是由不断增长的需求和缺少数据科学家们所激发的。但像许多创新一样,机器学习并不是简单出现的 ,它至少发展了二十年。在这篇文章中,我们简要地回顾一下这段历史。

在成功地推出Unica系列营销自动化软件之前,这家公司的主要业务是通过特别关注神经网络进而进行预测分析。1995年,Unica介绍了Pattern Recognition Workbench (简称PRW,一种数据挖掘工具),一个使用自动网格搜索优化模型的神经网络优化软件包。三年后,Unica与Group 1 Software(现在由Pitney Bowes公司拥有)在市场上推出Model 1,这是一个自动选取超过4种不同预测模型的工具。更名几次之后,原始的Pattern Recognition Workbench (PRW)仍然作为IBM 的预测工具,作为IBM企业营销管理套件的一部分出售。

其他两个商业尝试自动预测模型是从上世纪90年代末开始的。

MarketSwitch,提供市场营销优化的解决方案,其中包括嵌入式的“自动化”的预测建模能力。在销售推介会上,MarketSwitch关于他如何优化工作的信息提供得很少。然而,他们宣扬这是“前苏联火箭科学家”背后的技术,并承诺客户,有了这个他们可以“解雇他们的SAS程序员”了。益百利(一家信息技术有限公司)在2004年收购了Market Switch,通过他的自身的服务外包分析,重新定位了产品作为决策工具和自动建模能力。

KXEN,1998年在法国成立的一家公司,围绕着自动建模技术建立了自己的分析工具,还宣称结构风险最小化(具体请点 http://www.svms.org/srm/ )。原来的产品有一个基本的用户界面,依靠于合作伙伴应用程序的生产出相反的API。最近,KXEN把自己定位为易于使用又能提供市场营销分析解决方案,并试图直接销售给公司高管。 在这方面的努力是非常成功的,SAP(卫星自动控制系统)在2013年大概卖出了4000万美元。

Market Switch和KXEN在反对传统预测分析上取得了一些小进展。首先,通过定义它的狭小去“解决”问题,限制优化的范围到几个算法,把建设工程的质量和坚固性的花费减少到最小。其次,通过定位他们的工具就可以不需要专家来进行分析,他们疏远了在客户组织中非常了解他们的产品甚至于可以成为他们冠军的人。

在过去的几年中,领先的分析软件供应商(SAS和SPSS)在他们的高端产品中增加了自动建模功能。2010年,SAS介绍 SAS Rapid Modeler (SAS快速建模功能),附加到了SAS的Enterprise Miner。快速建模是一套宏实施启发式处理任务,如离群点识别、缺失值处理、变量选择和模型选择。用户指定了一个数据集和响应措施;快速建模确定回应是连续的还是分类的,并利用这些信息与其他的诊断一起去测试测试一系列建模技术。用户可以通过选择初级、中级或高级方法来控制技术的范围。(SAS最近将这个产品作为SAS Factory Miner)。

IBM SPSS Modeler包括一套自动准备数据功能以及自动分类、自动聚类、自动数字节点功能。自动准备数据功能执行这样的任务作为缺失值处理,异常处理,日期和时间的准备,基本价值筛选、分级和可变的重铸。三个建模节点可以实现用户指定的技术可以被运用于包括测试计划在内的,指定的模型选择规则和在模型训练集中设置限制等功能。

至今为止所有讨论的软件产品都是商业许可的,反映了机器学习社区的方向是为了开源软件。在社区项目中的机器自动化学习取得最具创新性的发展并不让人觉得稀奇,三个项目值得特别提及:Caret, Auto-WEKA和AutoML。

在开放资源的R语言的插入包中插入一套包括旨在加速模型规范和广泛的技术调整生产力工具。该包包括预处理工具,可以支持虚拟编码,零方差预测,识别相关的预测因子等诸如此类的任务,还可以支持模型训练和调整。在当前插入的训练功能可以支持192种不同的建模技术,它可以通过选定的技术来达到参数最优化,但不优化跨技术。用多个建模技术实现测试计划,用户必须编写一个R语言的脚本来运行所需的训练任务并捕获结果。

注释:

caret:插入包(简称分类和回归训练)是一套旨在简化创建预测模型中的功能。该软件包中包含的工具:数据分割,预处理,特征选择,基于重采样的模型调整,变量重要性估计以及其他功能。

Auto-WEKA是另一个开放资源的机器自动化学习的项目。2013首次发布,Auto-WEKA是一个合作的项目,由英属哥伦比亚大学和弗莱堡大学的四位研究人员驱动。在目前的版本中,Auto-WEKA只支持自动分类问题。该软件从39个可用的算法中选择一个学习算法,包括2种集成方法、10个元方法和27个基分类器。由于每个分类有许多可能的参数设置,搜索空间是非常大的,开发人员用贝叶斯优化来解决这个问题。

CHALEARN是一个由美国国家科学基金会和商业赞助支持的免税组织。CHALEARN举办一年一度的automl挑战,旨在开发自动化机器的回归和分类学习的软件。最近的一次会议是2015年7月在法国的里尔举行的,会议演示了机器自动化学习的最新发展,还举办了一个活动。

想要看最新进展,请点击这里: https://indico.lal.in2p3.fr/event/2914/

随着机器自动化学习的成熟,我们描述的能力也有了转变。早期的商业产品如MarketSwitch和KXEN声称可以消除专家,但我们现在认为机器自动化学习系统的作为一种生产力工具,能让专家更有效。例如,机器人手术,并不排除对心脏病专家的需要;它使心脏病学家集中更多的精力在诊断和病人护理上。类似的,自动机器学习并没有消除专家分析,它还可以使专家专注于理解业务问题,并解释结果,真正的价值驱动高级分析的实现。

原文链接:https://www.datarobot.com/blog/automated-machine-learning-short-history/

来源:数据客  翻译:蔡玲

原文  http://www.afenxi.com/post/12170
正文到此结束
Loading...