12月12日,IBM联合CSDN在新云南皇冠假日酒店举办Linux on Power算法马拉松年度总决赛。今年以来,CSDN社区已经举办了多场旨在挖掘PowerLinux平台性能优势的算法大赛,作为本年度系列赛的收官之战,40余名大数据技术和算法高手一路过关斩将,历经重重筛选杀入决赛。IBM资深技术专家孙日波、IBM售前技术专家高辰阳、CSDN首席数据分析师左建平、CSDN数据挖掘技术专家黄崇远等专家在现场为选手们提供技术支持工作。
会前,主办方开放了自由组队时间。活动在早上9点半正式开始。
参赛者们在调试机器和熟悉比赛题目
IBM资深技术专家孙日波做了开场致辞,他表示,IBM Power服务器在全面拥抱开源系统,采取更加积极和开放的理念推动开发者生态系统的发展,并采取各种线上线下的活动支持开源社区开发者的创新。
随后,IBM售前技术专家高辰阳介绍今年大赛的竞赛规则。
总决赛的题目为 《中文文本主题抽取》 。比赛分为两个阶段,分别是训练阶段和测试阶段。其中,在训练阶段,主办方将提供5G左右的原始CSDN博文预料,参赛者们通过一定的数据挖掘算法,训练出主题抽取的模型。在测试阶段,参赛者们通过训练模型,针对于单独的博文集合输入,能够准确的分别提取对应博文的N个关键词。
在具体开发规则方面:本次大赛不限开发语言,不限分词方式,不限算法。但参赛者应注意以下四点:(1)在训练出模型的基础上,输入若干新的博文,能够准确的提取主题;关键词跟文章主题的符合性是评分的主要衡量点;(2))模型训练的时间尽可能的短,体现算法高效;(3)每个提取的主题词必须带有权重,按权重降序排列,并且权重要具有可解释性;(4)提供一个1000字左右的方案设计文档,说明方案和算法模型的使用。
PowerLinux特性利用程度也跟参赛者们的最终成绩紧密相关。如果选手采用了Power8 SMT8等特性提高多线程效率,用IBM的编译开发工具,如C语言使用IBM Advanced Toolchain,Java使用IBM JDK/JVM,关联PowerLinux有IBM的开发工具,都将获得加分项支持。
经过连续12小时的编程作战,到下午四点的时候,部分进度领先的选手们纷纷提交成绩。随后,选手们通过各种方法调优来挑战更快的运行时间和更准的精确度。
选手进入演示和互问阶段
晚上,IBM大中华区硬件系统部服务器解决方案副总裁施东峰来到现场。
施东峰认为,IBM长期以来为开源社区和Linux系统的发展持续贡献力量,包括各种服务器平台都会在Linux上面做支持。尤其是在大数据技术方面,IBM已大力投入到Hadoop、Spark技术研发上。未来,IBM还会加大在技术社区的投入,为开发者交流和技术进步提供更多的交流机会。
经大会评委核定,由张冠星、王瑞、黄平春组成的团队夺得第一名,施东峰现场给获奖者颁发10000元现金支票及合影。
获奖名单:
冠军:张冠星、王瑞、黄平春
第二名:乔立勇、何晓宁
第三名:吕伟斌、黎健成
第四名:郑凌云
第五名:黄江、蔡叶荷
参赛者合影