随着Google开源机器学习框架Tensorflow,从 大数据 处理Hadoop和Spark流行,机器学习将会替代SQL产生数据领域革命。
今天的大量数据都是保存在自1980年代以来由Oracle、Teradata,IBM主导的关系数据库中, SQL迅速成为使用这些数据库的事实标准,不同关系数据库产品都遵循相同的模式,允许业务分析师在没有程序开发背景的情况下能够从关系数据库的数据挖掘出有用信息。
SQL解决了关系数据库的可访问性,在SQL出现之前,如果没有程序语言背景的业务分析人员是无法直接使用数据库中的数据,当时的业务分析人员依赖于数据库管理员,类似于今天业务人员依赖于数据科学家一样,这就会导致一种数据的交通堵塞,如果没有可以直接访问数据的数据科学家们的帮助,业务分析人员将无法处理他们需要的数据。
SQL允许业务分析人员能快速梳理 大数据 集合并通过查询获得答案,然而,答案是否精确匹配查询取决于你的查询语句和数据是否组织得很好。机器学习也是梳理 大数据 集合,并从中获得不同建议,这两者原理是相同的,都是从 大数据 集中获得答案,但是SQL更侧重于:我知道我寻找的是什么以及如何找到它们,而机器学习更多是:让我看看这堆数据中有什么让人感兴趣的东西,由我决定什么是最重要的。换句话说,SQL业务分析人员需要确切知道他们寻找的是什么,目标是清晰确定的,而机器学习则不是这样,通过机器学习,分析人员会发现数据的共同点,然后预测将会采取什么行动。
实际上,SQL将会过时,SQL对于业务分析员如同已经被人们抛弃的打字机一样,而机器学习将取代它。
今天业务分析人员和开发人员将会基于数据构建和使用应用程序来强化驱动他们的机器学习能力,机器学习算法导入普通应用程序已经是一个无缝过程,特别是开源机器学习框架Tensorflow,它有两个革命特点:
1. TensorFlow的深度学习部分能够在一个模型中堆积了许多不同的模型和转换,你能够在一个模型中方便地处理文本 图片和规则分类以及连续变量,同时实现多目标和多损失工作;
2. TensorFlow的管道部分能够将数据处理和机器学习放在一个框架中,TensorFlow指引了机器学习今后的方向。
更多参考:
Tensorflow简单教程
Machine learning is the new SQL - Data Matters