转载

【Python】爬虫+ K-means 聚类分析电影海报主色调

每部电影都有自己的海报，即便是在如今这互联网时代，电影海报仍是一个强大的广告形式。每部电影都会根据自身的主题风格设计海报，精致的电影海报可以吸引人们的注意力。那么问题来了，不同风格的电影海报对颜色有什么样的偏好呢？

利用 `Python` 爬取海报数据

为了回答这个问题，我们需要分析不同风格电影的海报情况。首先，我们需要构建一个电影海报数据的数据集，因此我利用 Bing 图像搜索引擎来获取海报数据。

接下来我利用 Python 从网页中抓取电影海报数据并将其储存到本地电脑中，最终我得到四种电影类型(惊悚片、喜剧、动画片和动作片)的112张海报数据。

from bs4 import BeautifulSoup import requests import re import urllib2 import os import numpy as np  def get_soup(url):     return BeautifulSoup(requests.get(url).text) image_type = "action movies" query = "movie 2014 action movies poster" url = "http://global.bing.com/images/search?q=" + query + "&qft=+filterui:imagesize-large&FORM=R5IR5" soup = get_soup(url) images = [a['src'] for a in soup.find_all("img", {"src": re.compile("mm.bing.net")})] for img in images:     raw_img = urllib2.urlopen(img).read()     cntr = len([i for i in os.listdir("images") if image_type in i]) + 1     f = open("images/" + image_type + "_" + str(cntr), "wb")     f.write(raw_img)     f.close()

其中部分海报数据如下图所示：

图像格式转换

为了提取海报的颜色信息，我们需要将图像转换为 RGB 像素矩阵。比如，对于 200*200 像素的图片，我们需要将其转换成含有 40000 个像素信息的对象。同时为了保持数据集的大小，我将图像的大小统一设定为 200*200。

def get_points(img):     points = []     w, h = img.size     for count, color in img.getcolors(w * h):         points.append(Point(color, 3, count))     return points rtoh = lambda rgb: '#%s' % ''.join(('%02x' % p for p in rgb))

提取颜色信息

接下来我利用 K 均值算法和颜色信息将海报分成许多不同的类别。我尝试了 k=3 , k=5 和 k=10 三种模型，但由于大多数海报通常都具有黑色的字体和边框，所以前两种模型无法获取海报中的主要颜色信息。最终我选择 k=10 的模型，并利用该算法处理 112 张海报，得到了 1120 种颜色信息。

部分结果如下图所示：