转载

(干货)数据分析案例--以上海二手房为例

如果你手上有一批数据，你可能应用统计学、挖掘算法、可视化方法等技术玩转你的数据，但你没有数据的时候，我该怎么玩呢？接下来就带着大家玩玩没有数据情况下的数据分析。

本文从如下几个目录详细讲解数据分析的流程：

1、数据源的获取；

2、数据探索与清洗；

3、模型构建（聚类算法和线性回归）；

4、模型预测；

5、模型评估；

一、数据源的获取

正如本文的题目一样，我要分析的是上海二手房数据，我想看看哪些因素会影响房价？哪些房源可以归为一类？我该如何预测二手房的价格？可我手上没有这样的数据样本，我该如何回答上面的问题呢？

互联网时代，网络信息那么发达，信息量那么庞大，随便找点数据就够喝一壶了。前几期我们已经讲过了如何从互联网中抓取信息，采用Python这个灵活而便捷的工具完成爬虫，例如：

通过Python抓取天猫评论数据

使用Python实现豆瓣阅读书籍信息的获取

使用Python爬取网页图片

当然，上海二手房的数据仍然是通过爬虫获取的，爬取的平台来自于链家，页面是这样的：

(干货)数据分析案例--以上海二手房为例

我所需要抓取下来的数据就是红框中的内容，即上海各个区域下每套二手房的 小区名称、户型、面积、所属区域、楼层、朝向、售价及单价 。先截几张Python爬虫的代码，源代码和数据分析代码写在文后的链接中，如需下载可以到指定的百度云盘链接中下载。

(干货)数据分析案例--以上海二手房为例

上面图中的代码是构造所有需要爬虫的链接。

(干货)数据分析案例--以上海二手房为例上面图中的代码是爬取指定字段的内容。

爬下来的数据是长这样的（总共28000多套二手房）：

(干货)数据分析案例--以上海二手房为例

二、数据探索与清洗（一下均以R语言实现）

当数据抓下来后，按照惯例，需要对数据做一个探索性分析，即了解我的数据都长成什么样子。

1、户型分布

# 户型分布
library(ggplot2)
type_freq <- data.frame(table(house$户型))
# 绘图
type_p <- ggplot(data = type_freq, mapping = aes(x = reorder(Var1, -Freq),y = Freq)) + geom_bar(stat = 'identity', fill = 'steelblue') + theme(axis.text.x  = element_text(angle = 30, vjust = 0.5)) + xlab('户型') + ylab('套数')
type_p

(干货)数据分析案例--以上海二手房为例
我们发现只有少数几种的户型数量比较多，其余的都非常少，明显 属于长尾分布类型（严重偏态） ，所以，考虑将1000套一下的户型统统归为一类。

# 把低于一千套的房型设置为其他
type <- c('2室2厅','2室1厅','3室2厅','1室1厅','3室1厅','4室2厅','1室0厅','2室0厅')
house$type.new <- ifelse(house$户型 %in% type, house$户型,'其他')
type_freq <- data.frame(table(house$type.new))
# 绘图
type_p <- ggplot(data = type_freq, mapping = aes(x = reorder(Var1, -Freq),y = Freq)) + geom_bar(stat = 'identity', fill = 'steelblue') + theme(axis.text.x  = element_text(angle = 30, vjust = 0.5)) + xlab('户型') + ylab('套数')
type_p

(干货)数据分析案例--以上海二手房为例

2、二手房的面积和房价的分布

# 面积的正态性检验
norm.test(house$面积)

(干货)数据分析案例--以上海二手房为例

# 房价的正态性检验
norm.test(house$价格.W.)

(干货)数据分析案例--以上海二手房为例 上面的norm.test函数是我自定义的函数 ，函数代码也在下文的链接中，可自行下载。从上图可知，二手房的面积和价格均不满足正态分布，那么就不能直接对这样的数据进行方差分析或构建线性回归模型，因为这两种统计方法，都要求正态性分布的前提假设，后面我们会将讲解如何处理这样的问题。

3、二手房的楼层分布

原始数据中关于楼层这一变量，总共有151种水平，如地上5层、低区/6层、中区/11层、高区/40层等，我们觉得有必要将这151种水平设置为低区、中区和高区三种水平，这样做有助于后面建模的需要。

# 把楼层分为低区、中区和高区三种
house$floow <- ifelse(substring(house$楼层,1,2) %in% c('低区','中区','高区'), substring(house$楼层,1,2),'低区')
# 各楼层类型百分比分布
percent <- paste(round(prop.table(table(house$floow))*100,2),'%',sep = '')
df <- data.frame(table(house$floow))
df <- cbind(df, percent)
df

(干货)数据分析案例--以上海二手房为例可见，三种楼层的分布大体相当，最多的为高区，占了36.1%。

4、上海各地区二手房的均价

# 上海各区房价均价
avg_price <- aggregate(house$单价.平方米., by = list(house$区域), mean)
#绘图
p <- ggplot(data = avg_price, mapping = aes(x = reorder(Group.1, -x), y = x, group = 1)) + geom_area(fill = 'lightgreen') + geom_line(colour = 'steelblue', size = 2) + geom_point() + xlab('') + ylab('均价')
p

(干货)数据分析案例--以上海二手房为例
很明显，上海二手房价格最高的三个地区为：静安、黄埔和徐汇，均价都在7.5W以上，价格最低的三个地区为：崇明、金山和奉贤。

5、房屋建筑时间缺失严重

(干货)数据分析案例--以上海二手房为例
建筑时间这个变量有6216个 缺失，占了总样本的22% 。虽然缺失严重，但我也不能简单粗暴的把该变量扔掉， 所以考虑到按各个区域分组，实现众数替补法 。这里构建了两个自定义函数：

library(Hmisc)
# 自定义众数函数
stat.mode <- function(x, rm.na = TRUE){
  if (rm.na == TRUE){
    y = x[!is.na(x)]
  }
  res = names(table(y))[which.max(table(y))]
  return(res)
}
# 自定义函数，实现分组替补
my.impute <- function(data, category.col = NULL, 
                      miss.col = NULL, method = stat.mode){
  impute.data = NULL
  for(i in as.character(unique(data[,category.col]))){
    sub.data = subset(data, data[,category.col] == i)
    sub.data[,miss.col] = impute(sub.data[,miss.col], method)
    impute.data = c(impute.data, sub.data[,miss.col])
  }
  data[,miss.col] = impute.data
  return(data)
}

# 将建筑时间中空白字符串转换为缺失值
house$建筑时间[house$建筑时间 == ''] <- NA
#分组替补缺失值，并对数据集进行变量筛选

final_house <- subset(my.impute(house, '区域', '建筑时间'),select = c(type.new,floow,面积,价格.W.,单价.平方米.,建筑时间))
#构建新字段，即建筑时间与当前2016年的时长
final_house <- transform(final_house, builtdate2now = 2016-as.integer(substring(as.character(建筑时间),1,4)))
#删除原始的建筑时间这一字段
final_house <- subset(final_house, select = -建筑时间)

最终完成的干净数据集如下：

(干货)数据分析案例--以上海二手房为例接下来就可以针对这样的干净数据集，作进一步的分析，如聚类、线性回归等。

三、模型构建

这么多的房子，我该如何把它们分分类呢？即应该把哪些房源归为一类？这就要用到聚类算法了， 我们就使用简单而快捷的k-means算法实现聚类的工作 。但聚类前，我需要掂量一下我该聚为几类？根据 聚类原则：组内差距要小，组间差距要大 。我们绘制不同类簇下的组内离差平方和图，聚类过程中，我们选择面积、房价和单价三个数值型变量：

tot.wssplot <- function(data, nc, seed=1234){
  #假设分为一组时的总的离差平方和              
  tot.wss <- (nrow(data)-1)*sum(apply(data,2,var)) 
  for (i in 2:nc){
    #必须指定随机种子数
    set.seed(seed) 
    tot.wss[i] <- kmeans(data, centers=i, iter.max = 100)$tot.withinss
  }
  plot(1:nc, tot.wss, type="b", xlab="Number of Clusters",
       ylab="Within groups sum of squares",col = 'blue',
       lwd = 2, main = 'Choose best Clusters')
}
# 绘制不同聚类数目下的组内离差平方和
standrad <- data.frame(scale(final_house[,c('面积','价格.W.','单价.平方米.')]))
myplot <- tot.wssplot(standrad, nc = 15)

(干货)数据分析案例--以上海二手房为例当把所有样本当作一类时，离差平方和达到最大，随着聚类数量的增加，组内离差平方和会逐渐降低，直到极端情况，每一个样本作为一类，此时组内离差平方和为0。从上图看，聚类数量在5次以上，组内离差平方降低非常缓慢，可以把拐点当作5，即聚为5类。

# 将样本数据聚为5类
set.seed(1234)
clust <- kmeans(x = standrad, centers = 5, iter.max = 100)
table(clust$cluster)

(干货)数据分析案例--以上海二手房为例

# 按照聚类的结果，查看各类中的区域分布
table(final_house$区域,clust$cluster)

(干货)数据分析案例--以上海二手房为例

# 各户型的平均面积
aggregate(final_house$面积, list(final_house$type.new), mean)

(干货)数据分析案例--以上海二手房为例

# 按聚类结果，比较各类中房子的平均面积、平均价格和平均单价
aggregate(final_house[,3:5], list(clust$cluster), mean)

(干货)数据分析案例--以上海二手房为例

从平均水平来看，我大体可以将28000多套房源合成为如下几种说法：

a、大户型（3室2厅、4室2厅），属于第2类。 平均面积都在130平以上，这种大户型的房源主要分布在青浦、黄埔、松江等地（具体可从各类中的区域分布图可知）。

b、地段型（房价高），属于第1类。 典型的区域有黄埔、徐汇、长宁、浦东等地（具体可从各类中的区域分布图可知）。

c、大众蜗居型（面积小、价格适中、房源多），属于第4和5类。典型的区域有宝山、虹口、闵行、浦东、普陀、杨浦等地

d、徘徊型（大户型与地段型之间的房源），属于第3类。 典型的区域有奉贤、嘉定、青浦、松江等地。这些地区也是将来迅速崛起的地方。

# 绘制面积与单价的散点图，并按聚类进行划分
p <- ggplot(data = final_house[,3:5], mapping = aes(x = 面积,y = 单价.平方米., color = factor(clust$cluster)))
p <- p + geom_point(pch = 20, size = 3)
p + scale_colour_manual(values = c("red","blue", "green", "black", "orange"))

(干货)数据分析案例--以上海二手房为例

接下来我想借助于已有的数据（房价、面积、单价、楼层、户型、建筑时长、聚类水平）构建线性回归方程，用于房价因素的判断及预测。由于数据中有离散变量，如户型、楼层等，这些变量入模的话需要对其 进行哑变量处理 。

# 构造楼层和聚类结果的哑变量
# 将几个离散变量转换为因子，目的便于下面一次性处理哑变量
final_house$cluster <- factor(clust$cluster)
final_house$floow <- factor(final_house$floow)
final_house$type.new <- factor(final_house$type.new)
# 筛选出所有因子型变量
factors <- names(final_house)[sapply(final_house, class) == 'factor']
# 将因子型变量转换成公式formula的右半边形式
formula <- f <- as.formula(paste('~', paste(factors, collapse = '+')))
dummy <- dummyVars(formula = formula, data = final_house)
pred <- predict(dummy, newdata = final_house)
head(pred)

(干货)数据分析案例--以上海二手房为例

# 将哑变量规整到final_house数据集中
final_house2 <- cbind(final_house,pred)
# 筛选出需要建模的数据
model.data <- subset(final_house2,select = -c(1,2,3,8,17,18,24))
# 直接对数据进行线性回归建模
fit1 <- lm(价格.W. ~ .,data = model.data)
summary(fit1)

(干货)数据分析案例--以上海二手房为例

从体看上去还行，只有建筑时长和2室0厅的房型参数不显著，其他均在0.01置信水平下显著。 不要赞赞自喜 ，我们说，使用线性回归是有假设前提的，即因变量满足正态或近似于正态分布，前面说过，房价明显在样本中是偏态的，并不服从正态分布，所以这里 使用COX-BOX变换处理 。根据COX-BOX变换的lambda结果，我们针对y变量进行转换，即：

# Cox-Box转换
library(car)
powerTransform(fit1)

(干货)数据分析案例--以上海二手房为例

根据结果显示， 0.23非常接近上表中的0值，故考虑将二手房的价格进行对数变换。

fit2 <- lm(log(价格.W.) ~ .,data = model.data)
summary(fit2)

(干货)数据分析案例--以上海二手房为例 这次的结果就明显比fit1好很多 ，仅有楼层的中区在0.1置信水平下显著，其余变量均在0.01置信水平下显著， 而且调整的R方值也提高到了94.3% ，即这些自变量对房价的解释度达到了94.3%。

最后我们再看一下，关于最终模型的诊断结果：

# 使用plot方法完成模型定性的诊断
opar <- par(no.readonly = TRUE)
par(mfrow = c(2,2))
plot(fit2)
par(opar)

(干货)数据分析案例--以上海二手房为例从上图看，基本上满足了线性回归模型的几个假设，即：残差项服从均值为0（左上），标准差为常数（左下）的正态分布分布（右上）。基于这样的模型，我们就可以有针对性的预测房价啦~

今天的学习过程就到这里，如果有疑问可以给我留言或者加微信（lsx19890717）详聊。本文中的爬虫代码、R语言脚本和数据均可在如下链接中获取：

链接: http://pan.baidu.com/s/1c1BFhXe 密码: 36dm

每天进步一点点 2015

学习与分享，取长补短，关注小号！

(干货)数据分析案例--以上海二手房为例

原文 https://ask.hellobi.com/blog/lsxxx2011/5792

正文到此结束

所属分类：编程技术

本文标签： 互联网时间百度 python 代码 final 删除 id https FIT 参数 http MQ tab IDE list ask IO 目录数据 value 统计图片云 UI Select entity ORM map App src 2015 cat CTO lib 下载
版权声明： 本文为互联网转载文章，出处已在文章中说明(部分除外)。如果侵权，请联系本站长删除，谢谢。
本文海报： 生成海报一生成海报二

其他链接

关于本站

本站定位：个人技术类博客

本站作用：写博客、记日志、闲聊扯淡鼓捣技术。

问题交流

(干货)数据分析案例--以上海二手房为例

一、数据源的获取

二、数据探索与清洗（一下均以R语言实现）

1、户型分布

2、二手房的面积和房价的分布

3、二手房的楼层分布

4、上海各地区二手房的均价

5、房屋建筑时间缺失严重

三、模型构建

学习与分享，取长补短，关注小号！

热门推荐

相关文章

说给你听

本文目录

随机标签

书籍教程

近期评论

网站信息

其他链接

关于本站

问题交流