转载

Mahout中相似度计算方法介绍

标签： mahout 相似计算 | 发表时间：2016-01-05 04:00 | 作者：

出处：http://eric-gcm.iteye.com

（转自： http://www.cnblogs.com/dlts26/archive/2012/06/20/2555772.html）

在现实中广泛使用的推荐系统一般都是基于协同过滤算法的，这类算法通常都需要计算用户与用户或者项目与项目之间的相似度，对于数据量以及数据类型不同的数据源，需要不同的相似度计算方法来提高推荐性能，在mahout提供了大量用于计算相似度的组件，这些组件分别实现了不同的相似度计算方法。下图用于实现相似度计算的组件之间的关系：

Mahout中相似度计算方法介绍

图1、项目相似度计算组件

Mahout中相似度计算方法介绍

图2、用户相似度计算组件

下面就几个重点相似度计算方法做介绍：

皮尔森相关度

类名：PearsonCorrelationSimilarity

原理：用来反映两个变量线性相关程度的统计量

范围：[-1,1]，绝对值越大，说明相关性越强，负相关对于推荐的意义小。

说明：1、不考虑重叠的数量；2、如果只有一项重叠，无法计算相似性（计算过程被除数有n-1）；3、如果重叠的值都相等，也无法计算相似性（标准差为0，做除数）。

该相似度并不是最好的选择，也不是最坏的选择，只是因为其容易理解，在早期研究中经常被提起。使用Pearson线性相关系数必须假设数据是成对地从正态分布中取得的，并且数据至少在逻辑范畴内必须是等间距的数据。Mahout中，为皮尔森相关计算提供了一个扩展，通过增加一个枚举类型（Weighting）的参数来使得重叠数也成为计算相似度的影响因子。

欧式距离相似度

类名：EuclideanDistanceSimilarity

原理：利用欧式距离d定义的相似度s，s=1 / (1+d)。

范围：[0,1]，值越大，说明d越小，也就是距离越近，则相似度越大。

说明：同皮尔森相似度一样，该相似度也没有考虑重叠数对结果的影响，同样地，Mahout通过增加一个枚举类型（Weighting）的参数来使得重叠数也成为计算相似度的影响因子。

余弦相似度

类名：PearsonCorrelationSimilarity和UncenteredCosineSimilarity

原理：多维空间两点与所设定的点形成夹角的余弦值。

范围：[-1,1]，值越大，说明夹角越大，两点相距就越远，相似度就越小。

说明：在数学表达中，如果对两个项的属性进行了 数据中心化 ，计算出来的余弦相似度和皮尔森相似度是一样的，在 mahout中，实现了数据中心化的过程，所以皮尔森相似度值也是数据中心化后的余弦相似度。另外在新版本中，Mahout提供了 UncenteredCosineSimilarity类作为计算非中心化数据的余弦相似度。