转载

利用python进行识别相似图片（一）

文章简介

在网上看到python做图像识别的相关文章后，真心感觉python的功能实在太强大，因此将这些文章总结一下，建立一下自己的知识体系。

当然了，图像识别这个话题作为计算机科学的一个分支，不可能就在本文简单几句就说清，所以 本文只作基本算法的科普向 。

如有错误，请多包涵和多多指教。

python用作图像处理的相关库主要有 openCV (C++编写，提供了python语言的接口)， PIL ,但由于PIL很早就停了，所以不支持python3.x,所以建议使用基于PIL的 pillow ,本文也是在python3.4和pillow的环境下进行实验。

pillow下载地址

PIL的下载地址

openCV的官网

至于opencv，在做人脸识别的时候会用到，但本文不会涉及到，在本专栏的后续中会谈及openCV的人脸识别和基于此的python图片爬虫，有兴趣的朋友可以关注本专栏。

这里先用直方图进行简单讲述。

先借用一下 恋花蝶 的图片，

从肉眼来看，这两张图片大概也有八成是相似的了。

在python中可以依靠 Image 对象的 histogram() 方法获取其直方图数据，但这个方法返回的结果是一个列表，如果想得到下图可视化数据，需要另外使用 matplotlib ，这里因为主要介绍算法思路， matplotlib 的使用这里不做介绍。

利用python进行识别相似图片（一）

是的，我们可以明显的发现，两张图片的直方图是近似重合的。所以利用直方图判断两张图片的是否相似的方法就是，计算其直方图的重合程度即可。

计算方法如下：

/frac{1}{N}/sum_{i=1}^n/left(1-/frac{|g_i-s_i|}{Mac(g_i,s_i)}/right)

其中gi和si是分别指两条曲线的第i个点。

最后计算得出的结果就是就是其相似程度。

不过，这种方法有一个明显的弱点，就是他是按照颜色的全局分布来看的，无法描述颜色的局部分布和色彩所处的位置。

也就是假如一张图片以蓝色为主，内容是一片蓝天，而另外一张图片也是蓝色为主，但是内容却是妹子穿了蓝色裙子，那么这个算法也很可能认为这两张图片的相似的。

缓解这个弱点有一个方法就是利用 Image 的 crop 方法把图片等分，然后再分别计算其相似度，最后综合考虑。

在介绍下面其他判别相似度的方法前，先补充一些概念。第一个就是 图像指纹

图像指纹和人的指纹一样，是身份的象征，而图像指纹简单点来讲，就是将图像按照一定的哈希算法，经过运算后得出的一组二进制数字。

说到这里，就可以顺带引出 汉明距离 的概念了。

假如一组二进制数据为 101 ，另外一组为 111 ，那么显然把第一组的第二位数据 0 改成 1 就可以变成第二组数据 111 ，所以两组数据的汉明距离就为 1

简单点说，汉明距离就是 一组二进制数据变成另一组数据所需的步骤数 ，显然，这个数值可以 衡量两张图片的差异 ，汉明距离越小，则代表相似度越高。汉明距离为0，即代表两张图片完全一样。

如何计算得到汉明距离，情况下面三种哈希算法

此算法是基于比较灰度图每个像素与平均值来实现的

一般步骤