转载

[期刊]Spark环境下的并行模糊C均值聚类算法

Spark环境下的并行模糊C均值聚类算法

王桂兰 周国亮  萨初日拉  朱永利

针对聚类算法需要处理数据集的规模越来越大、时效性要求越来越高,对算法的大数据适应能力和性能要求更高的问题,提出一种在Spark分布式内存计算平台下的模糊C均值(FCM)算法Spark-FCM。首先对矩阵通过水平分割实现分布式存储,不同向量存储在不同节点;然后基于FCM算法的计算特点,设计了分布式和缓存敏感的常用矩阵操作,包括乘法、转置和加法等;最后基于矩阵操作和Spark平台特点,设计了Spark-FCM算法,主要数据结构采用分布式矩阵存储,具有节点间数据移动少和每个步骤分布式计算特点。通过在单机和集群环境下测试,算法具有良好的可扩展性,并可以适应大规模数据集,算法性能与数据量成线性关系,集群环境下性能比单机提高2~3倍。

Spark环境下的并行模糊C均值聚类算法

[期刊]Spark环境下的并行模糊C均值聚类算法
原文  http://www.chinacloud.cn/show.aspx?id=23107&cid=28
正文到此结束
Loading...