宋杰 徐澍 郭朝鹏 鲍玉斌 于戈
MapReduce是一种典型的分布式计算模型,一经提出就被迅速应用到大数据处理系统中.文中认为MapReduce系统在能耗方面存在优化空间.对于一个分布式并行计算系统,任务的并行性对任务执行性能影响显著,并行性保证方法在优化性能的前提下还应该考虑系统能耗.在MapReduce系统中,传统的Map任务分发算法采用"小任务多次分发的策略",这种策略虽然保证了并行性,但会浪费节点的处理能力,消耗额外的能量;而Reduce任务分发算法尚不能保证Reduce任务间的并行性.文中提出通过动态地调整Map任务和Reduce任务大小,也即任务处理数据量的规模来保证任务并行性,降低MapReduce系统的整体能耗.文中通过实验证明该方法能够有效地降低典型MapReduce作业的能耗.
一种优化MapReduce系统能耗的任务分发算法