技术的实际应用前景才是推动技术进步的根本,特别是今年的一些主流技术。Ovum分析师Tony Baer深知这一点,当他在2017年的Ovum report预测大数据发展趋势时,主要依据就是今年的技术应用情况。
Baer得出了如下结论,机器学习项目,物联网(IoT)和实时流媒体分析,这些技术在2016获得了广泛关注,在未来一年,他们依然将引领技术趋势。在一次采访中,他深入讨论了这些话题,他认为,基于云技术的Hadoop系统的发展,特别是在流分析领域,用例和技术可能是会形成一个完美的集合,引领“技术风暴”,他说。
Tony Baer:它的应用范围很广。许多情况下,企业和消费者已经开始使用内嵌机器学习的服务了,他们只是没有意识到而已。但是,数据科学家能够自主编写并使用机器学习算法,能够进行内部开发的企业数量是有限的,所以机器学习在企业中的发展依然是受限的。现在已经可有用于机器学习的算法库,所以你不必再从头编写算法。
最近出现了新兴的协作工具,旨在建立数据科学家和数据工程师或者业务人员之间的联系。你可能看到使用工具的企业数量日渐增多,但这些也仅限于在那些拥有大量资源的企业,这类企业一般都是使用Hadoop的先锋。
Baer:对的。几年前,数据科学是热门话题。每个人都希望被称为“数据科学家”,并希望把这个职位印在他们的名片上。现在,新兴的东西是机器学习,所有数据科学家都想和它搭上关系。
他们可能忘记了重要一步:你必须首先学习数据科学。这不是机器学习的同义词。它是科学的同义词,因为你需要不断地测试假设。它需要用科学方法分析阻碍并解决问题。它需要很大的耐心和毅力。
机器学习的频谱范围涉及很广,从单终端异常检测集群到集群深层的深度学习和认知(计算)都有机器学习的应用。但是,在继续使用机器学习之前,你需要掌握数据科学,包括高级模式识别和许多不同方法.。
短期内,机器学习主要通过打包到应用程序来产生影响,如供应链优化,智能电网,威胁和欺诈检测软件等。它将嵌入这些应用程序。机器学习的主要影响力依然是通过包含它的应用产生的。
Baer: 我所谓的Hadoop是一个多元的操作系统。这是关于混合和匹配的问题,这使得它很难被解释,并可能对市场造成一定程度的混淆。现在在云中,它甚至更难解释。因为当你进入Amazon云,你可能不会使用到Hadoop分布式文件系统,而会使用S3(即Amazon Simple Storage Service)。
Hadoop不是为云而生的,但它与云的结合将是不可避免的趋势。大约一年前,15%到20%的新工作负载将流向云端。现在,这个比例已经变成三分之一。我预计,未来12到18个月内,这个数字将达到50%。
Baer:复杂的事件处理是问题的一个解决方案。除了一些专门的案例,比如金融服务,其中的边缘处理是他们工作一部分,也是他们竞争的一部分。但是现在,我们有了较为完美的解决方案。
这是因为基础设施变得更加方便和廉价,特别是随着云的出现。在有CEP的情况下,当你需要处理的事件不是很多时,意义并不大。但是,当你可以像我们现在这样扩大基础设施的规模时,它就称为了一个可行的解决方案。物联网正在这么做。
使用物联网并取得实际的价值,这种用例确实存在。物联网正在增加实时流分析的必要性。例如包括任何事物的物理运动,无论是供应链,网络优化或智能城市等。或者例如,在工作领域的资产管理和车队管理。所有这些用例是有形的,实际上都具有明确的商业价值。
我们有更多的智能设备,这些设备在产生真正的信息。就是这些信息在驱动着流分析,这是开源技术和专有技术的混合体。CEP的处理十分昂贵,有一些工具是专有的,需要非常专业的技能。有了开源技术,学习和实验的障碍就减少了。当所有这些事情正在发生时,那将是一场完美的“技术风暴”。