杨威:金融行业大数据平台的技术研发,其最终目的还是为了满足大数据应用的业务需求。在明略的大数据案例中,大部分的大数据上层应用一般都是由分析应用以及实时型应用构成的。对于数据应用来说,同样也是分为两种,一种是比较传统的基于SQL或者Hadoop的数据应用,这种数据应用在传统的数据库上有很多。而另一类数据应用,则是基于机器学习和数据挖掘的新型应用。从我们的实践经验来看,这两种应用实际上都对大数据平台的研发有一定的挑战。
其实对于金融行业来说,建立数据仓库实际上一直都有一套比较标准的流程,其中需要做包括建立镜像层、联系层,还需要做汇总,设置数据主题等等这些工作。实际上,在关键数据库和大数据平台上构建数据仓库,他们所面临的挑战是完全不一样的。
比如,在关键数据库上,目前建立数据仓库面临的主要问题在于性能压力,传统的关系型数据库在面临海量数据的时候大都会面临这样的问题。然而在大数据平台上构建数据仓库的时候,性能并不是主要问题,这是因为它本身是分布式的架构,再加上上面很多基于MPP架构或者内存迭代式的引擎,所以能够帮助用户快速得出各种分析结果。但是在构建数据仓库镜像层的时候仍然会面临另一个问题,从生产数据库中导出的那部分数据是和生产数据库中的数据同步映射的,这样的话,当生产性的数据被修改的时候,如果仍然使用以往传统方法的话,就只能每天重新统计全部数据,将数据重新导出,造成同步成本大幅升高,同时还会对于生产系统造成更大的压力。
针对上述挑战,明略数据提供了从关系型数据库到大数据平台的增量数据统计工具,它的主要原理是去解析前端关系型数据库的增强更新日志,再把增量更新日志放到大数据平台上去执行,利用基于HBase表的映射关系,实现每次仅同步增量更新的数据,而不是全部的数据,大幅度降低更新数据量以及所消耗的性能,同时还能更好的保证数据的实时性。
相对于传统的数据应用来说,新型的数据业务应用同样也面临着许多挑战,比如算法模型建立过程中所遇到的各种困难,以及算法模型机制建立之后,在数据汇集、数据整理、数据清洗、数据格式转换上所耗费的大量开发时间与成本。另外数据模型的输出同样也是问题,这些分析出来的数据,并不给技术人员看的,而是需要应用到前端业务系统中去,这就需要保证数据的实时性、安全性等等。
为了更好的解决这些问题,明略作为大数据平台解决方案供应商来说,也为客户提供了一套以图片化界面为基础的大数据产品,它可以将数据最初的输入、清洗、格式化再到模型的建立与数据输出所有的过程都以图形可视化的方式展现给用户,并帮助用户快速地将机器数据挖掘或者数据应用部署落地。明略不仅仅是为用户提供一个模型,而是要将这个模型最终应用到业务线上,能够让用户最终看见这个模型的价值。
除了上述大数据平台会遇到的问题,其实金融行业还有自己的难点。比如,金融业对于数据安全的要求是非常高的,金融数据的访问权限有着十分严格的管制条件。而明略在这方面已经能够支持企业内全面的数据权限控制,并为用户提供支持引擎级别的数据权限管理工具,这些管理工具会对接到整个平台当中所有的产品引擎,无论在什么地方都会受到权限管理工具的控制。金融行业还有一些比较普遍常见的需求,比如如何将大量数据快速进行关联,或者如何将外部数据快速导入到内部数据平台上来等等。明略也为客户提供了一个一站式的数据作业平台,用户可以在平台上轻松完成外部资源导入、数据入库、设置定时定期数据分析任务等工作。