东华大学 张春丽
本文结合传统协同过滤推荐技术的发展历史和分类应用,总结了现有单机模式和分布式协同过滤推荐技术的缺点和不足。然后为了弱化或克服这些缺点,本文结合Hadoop分布式计算思想,提出了基于Hadoop的分布式协同过滤推荐算法,并给出了新算法的计算过程。新算法从两个维度来提高推荐技术的有效性,即除了对协同过滤推荐算法本身的改进外,在算法实现上还采用一种基于Hadoop的分布式实现协同过滤推荐算法,即应用MapReduce计算模型实现协同推荐算法的分布式计算,将昂贵的计算过程分割成许多不同的小型计算过程,每一个都可以在不同的节点上完全并行执行。该算法采用高效的分区策略,以最大限度地提高数据局部性,降低通信成本,控制算法的复杂性来增加计算能力,从而使大规模的数据集也能获得良好的可扩展性。最后,通过在标准MovieLens数据集上的多次实验验证了本文提出的分布式协同过滤算法的有效性。通过与多个传统算法的实验结果做对比,体现新算法的推荐准确性和优越性。此外,本文还对上述提出的分布式协同过滤算法进行了数据源优化,引用Hadoop平台项目组下对稀疏性数据具有良好支持的HBase分布式数据库作为数据源,进一步提升了新算法的性能和实用性。
基于Hadoop的协同过滤算法的研究与实现