转载

【Python数据分析】四级成绩分布 -matplotlib,xlrd 应用

最近获得了一些四级成绩数据，大概500多个，于是突发奇想是否能够看看这些成绩数据是否满足所谓的正态分布呢？说干就干，于是有了这篇文章。

文章顺带介绍了xlrd模块的一些用法和matplotlib画自定义数据的条形图和随机的条形图的一些方法，并且提供了一些相关链接，可作为学习matplotlib和numpy的资源，希望对读者也有帮助。

更优美的格式见这里

工具

Python 3.5
xlrd模块
numpy模块及一些依赖模块（安装请自行查询方法，绝大部分pip就可搞定）
matplotlib绘图模块

xlrd基本用法

1、导入模块

import xlrd

2、打开Excel文件读取数据

data = xlrd.open_workbook('excelFile.xls')

3、使用技巧

获取一个工作表

table = data.sheets()[0]             #通过索引顺序获取
table = data.sheet_by_index(0)       #通过索引顺序获取
table = data.sheet_by_name(u'Sheet1')#通过名称获取

获取整行和整列的值（数组）

table.row_values(i)
table.col_values(i)
``` 
* 获取行数和列数
```python
nrows = table.nrows
ncols = table.ncols

循环行列表数据

for i in range(nrows ):
    print table.row_values(i)

单元格

cell_A1 = table.cell(0,0).value
cell_C4 = table.cell(2,3).value

使用行列索引

cell_A1 = table.row(0)[0].value
cell_A2 = table.col(1)[0].value

简单的写入

row = 0
col = 0
 #类型 0 empty,1 string, 2 number, 3 date, 4 boolean, 5 error
ctype = 1 value = '单元格的值'
xf = 0 # 扩展的格式化
table.put_cell(row, col, ctype, value, xf)
table.cell(0,0)  #单元格的值'
table.cell(0,0).value #单元格的值'

画折线图

import xlrd
import numpy as np
import matplotlib.pyplot as plt

data = xlrd.open_workbook('D://Python Workspace//Data//cet4.xls')

table = data.sheets()[0]   #sheet 0

col5 = table.col_values(5)[1:]   #取第5列的成绩，并去掉列属性名称

count = [0 for i in range(0,650)]  #初始化count
x = [i for i in range(0,650)]

for i in col5:
    num = int(i)
    count[num] += 1            #统计每个人数的人数

plt.xlabel('Score')
plt.ylabel('Number of people')
plt.title('Distribution of CET-4 Scores')
plt.ylim(0,8)
plt.plot([i for i in range(250,650) if count[i] != 0],[i for i in count[250:] if i != 0],linewidth=1)  #画出折线图
plt.show()

【Python数据分析】四级成绩分布 -matplotlib,xlrd 应用图1

画直方图并与正态分布直方图对比

import xlrd
import numpy as np
from math import *
import pylab as pl
import matplotlib.pyplot as plt

data = xlrd.open_workbook('D://Python Workspace//Data//cet4.xls')

table = data.sheets()[0]   #sheet 0

col5 = table.col_values(5)[1:]

ha = [int(i) for i in col5]     #成绩数据
mu = np.mean(ha)      #平均值
sigma = np.std(ha)    #标准差
data = np.random.normal(mu,sigma,1000)  #生成正态分布随机数据

x = np.linspace(0,700,1000)
y = (1. / sqrt(2 * np.pi) / sigma)*np.exp( -((x-mu)**2/(2*sigma**2)) )

plt.hist(data,bins=100,facecolor='g',alpha=0.44)
plt.hist(ha,bins=70,facecolor='r',histtype='stepfilled')
plt.plot(x,y,color='b')   #正态分布曲线

plt.xlabel('Score')
plt.ylabel('Number of people')
plt.title('Distribution of CET-4 Scores')
plt.show()

图2

且可求得数据的均值和标准差分别为：476.743785851和104.816562585

由图可见，绿色条形图是$/mu$=476.743785851，$/sigma$=104.816562585的正态分布条形图，而红色是四级成绩数据的分布图，虽然由于数据较少(500多个数据），所以拟合较差，但是可以看出成绩数据还是基本满足正态分布的。

不知道为啥，正态曲线没有画出来，单独画正态曲线是可以画出来的，有待研究。

绘制直方图的一些参数解释

绘图都可以调用matplotlib.pyplot库来进行，其中的hist函数可以直接绘制直方图。

调用方式：

n, bins, patches = plt.hist(arr, bins=10, normed=0, facecolor='black', edgecolor='black',alpha=1，histtype='bar')

hist的参数非常多，但常用的就这六个，只有第一个是必须的，后面四个可选

arr: 需要计算直方图的一维数组

bins: 直方图的柱数，可选项，默认为10

normed: 是否将得到的直方图向量归一化。默认为0

facecolor: 直方图颜色

edgecolor: 直方图边框颜色

alpha: 透明度

histtype: 直方图类型，‘bar’, ‘barstacked’, ‘step’, ‘stepfilled’

返回值：

n: 直方图向量，是否归一化由参数normed设定

bins: 返回各个bin的区间范围

patches: 返回每个bin里面包含的数据，是一个list

摘自这里from denny

一些链接

matplotlib

库的主页

gallary

matplotlib的一些示例及其代码，是很好的学习工具。

用python做科学计算

用Python作科学计算的一些工具

xlrd文档

numpy的一些方法

原文 http://www.cnblogs.com/whatbeg/p/5390464.html

正文到此结束

所属分类：编程技术

本文标签： 代码 lib 数据 dist 文章 UI 参数 python 安装 list ACE value http ip Excel 统计 tab DOM core HTML src
版权声明： 本文为互联网转载文章，出处已在文章中说明(部分除外)。如果侵权，请联系本站长删除，谢谢。
本文海报： 生成海报一生成海报二

其他链接

关于本站

本站定位：个人技术类博客

本站作用：写博客、记日志、闲聊扯淡鼓捣技术。

问题交流

【Python数据分析】四级成绩分布 -matplotlib,xlrd 应用

工具

xlrd基本用法

1、导入模块

2、打开Excel文件读取数据

3、使用技巧

画折线图

画直方图并与正态分布直方图对比

绘制直方图的一些参数解释

一些链接

热门推荐

相关文章

说给你听

本文目录

随机标签

书籍教程

近期评论

网站信息

其他链接

关于本站

问题交流