作者 白宁超
2015年8月4日13:08:28
摘要: 本文针对统计学学习之离散章节,本科针对离散数学以及概率论学习期间,总是一味觉得软件开发与数学有何联系,根本学其无用。然而走进数据分析,大数据处理才发现其重要性。如何计算和利用概率分布,采用概率树不免增加了计算的复杂度,有没有更好的计算方法?本篇我们介绍一些特殊的概率分布,这些概率分布具有固定的形式,我们懂得这些模式善加利用能快速求解概率、期望、方差等问题。本篇文章思路采用单独剖析,整合梳理,公式实现、外加扩展的方式。首先由于实际问题对概念、公式、意义等基本问题进行梳理。然后针对其优缺点和适用环境,循环渐进的分析各种分布的情况。最后对三者分布区别联系进行总结,结果实际案例和当前应用予以结尾。 本文原创,转载标明出处。
小明滑雪:每次(独立事件)试滑成功的概率0.2,不成功的概率0.8.则
成功 | 失败 |
---|---|
0.2 | 0.8 |
1、试滑两次成功的概率?
2、试滑一次或两次猜中的概率?
3、试滑10000次,首次成功的概率?
4、试滑第10000次以上成功的概率?
设X最终试滑成功次数,则:
P(X=1)=P(第1次试滑成功)=0.2 【 注 :试滑一次成功的概率 】
P(X=2)=P(第1次试滑失败AND第2试滑成功)=0.2 * 0.8=0.16 【 注:试滑两次成功的概率 】
P(X<=2)=P(X=1)+P(X=2)=0.36 【
注:试滑一次或两次猜中的概率
】
$$
P(x=10000)=q^{10000-1}p=0.8^{9999}*0.2
$$
$$
P(x>10000)=q^{10000}p=0.8^{10000}
$$
【百度百科】几何分布是离散型概率分布。在n次伯努利试验中,试验k次才得到 第一次成功 的机率。详细的说,是:前k-1次皆失败,第k次成功的概率。
【课本】如果p代表成功概率,则1-p即q代表失败概率使用以下:
公式叫做概率的几何分布。
/** * 在n次伯努利试验中,试验r次才得到第一次成功的机率 P(X=r)=pq^{r-1} * @param p double型保留一位小数,表示成功的概率 * @param q double型保留一位小数,表示失败的概率即1-p * @param r 整型,实验次数 * @return PX double型保留两位小数,第一次成功的机率 */ public static double FirstSuccess(double p,double q,int r) { double PX=0; double k=(double)(r-1); PX= p*(Math.pow(q, k)); return PX; } /** * 在n次伯努利试验中,需要试验r次以上才第一次成功: P(X>r)=q^r * @param q double型保留一位小数,表示失败的概率即1-p * @param r 整型,实验次数 * @return PX double型保留两位小数,需要试验r次以上才第一次成功 */ public static double MoreSuccess(double q,int r) { double PX=0; PX= Math.pow(q, r); return PX; } /** * 在n次伯努利试验中,试验r次或者不到r次才第一次成功:P(X<=r)=1-q^r * @param q double型保留一位小数,表示失败的概率即1-p * @param r 整型,实验次数 * @return MorePX double型保留两位小数,需要试验r次以上才第一次成功 */ public static double LessSuccess(double q,int r) { double MorePX=0; MorePX= Math.pow(q, r); double PX=Double.valueOf(1.0-MorePX); return PX; } /** * 在n次伯努利试验中,几何分布的期望E(X)=1/p * @param p double型保留一位小数,表示成功的概率 * @return EX double型保留两位小数,几何分布的期望 */ public static double Expectation(double p) { double EX=0; EX= 1.0/p; return EX; } /** * 在n次伯努利试验中,几何分布的方差Var(X)=q/p^2 * @param p double型保留一位小数,表示成功的概率 * @param q double型保留一位小数,表示失败的概率即1-p * @return VX double型保留两位小数,几何分布的方差 */ public static double Variance(double p,double q) { double VX=0; VX= q/Math.pow(p, 2); return VX; }
什么是二项分布?
【百度百科】二项分布即重复n次独立的伯努利试验。在每次试验中只有两种可能的结果,而且两种结果发生与否
互相对立 ,并且 相互独立
,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变。
这类问题称之为二项分布。
【统计学定义二项分布】 在概率论和统计学中,二项分布是n个独立的是/非试验中成功的次数的离散概率分布,其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。实际上,当n = 1时,二项分布就是伯努利分布,二项分布是显著性差异的二项试验的基础。
条件 :
1.正在进行一系列独立试验;
2.每次试验都存在失败和成功的可能,每一次试验的成功概率相同;
3.试验次数有限。
表达式(试验次数n,成功概率p):ξ~B(n,p)
优点:在试验次数一定,求成功次数时,几何分布显示不适合的情况下,给予这类问题二项分布能更好的解决。缺点:但是面对试验次数不固定,发生事件概率的情况下,显然几何分布与二项分布都不能解决,这里也体现出泊松分布的优势
/** * 在n次伯努利试验中,在n次独立的伯努利试验发生r次的概率为 * P(X=r)=n-C_r*p^{r}*q^{n-r}且n-C_r=n!/r!*(n-r)! * @param n int,表示总的独立事件 * @param r int,表示发生r次 * @param p double型保留一位小数,表示成功的概率 * @param q double型保留一位小数,表示失败的概率即1-p * @return PX double型保留两位小数,第一次成功的机率 */ public static double RSucess(int n,int r,double p,double q) { double PX=0; double k=(double)(n-r); int kk=n-r; //ncr即n-C_r=n!/r!*(n-r)! double ncr=NumFormat.factorial(n)/(NumFormat.factorial(r)*NumFormat.factorial(kk)); PX=ncr*(Math.pow(p, r))*(Math.pow(q, k)); return PX; } /** * 在n次伯努利试验中,二项分布的期望E(X)=np * @param n int型,表示试验的次数 * @param p double型保留一位小数,表示成功的概率 * @return EX double型保留两位小数,几何分布的期望 */ public static double Expectation(int n,double p) { double EX=0; EX= Double.valueOf(n)*p; return EX; } /** * 在n次伯努利试验中,二项分布的方差Var(X)=npq * @param n int型,表示试验的次数 * @param p double型保留一位小数,表示成功的概率 * @param q double型保留一位小数,表示失败的概率即1-p * @return VX double型保留两位小数,二项分布的方差 */ public static double Variance(int n,double p,double q) { double VX=0; VX= Double.valueOf(n)*p*q; return VX; }
【课本】单独事件在给定区间随机独立发生,已知事件平均发生数且有限次数,通过以下计算: $$ P(X=r) = {e^{-λ}λ^r/over r!} $$这样的一类事件叫做泊松分布。
特点
1、不需要一系列试验,描述事件特定区间发生次数。
2、两个独立的泊松分布相加也符合泊松分布。(即n>50且p<0.1时或np近似等于npq时)
3、特定条件下可以用来近似代替二项分布。
因为在分时间窗口的时候有个假设:每个时间窗口最多只有一个乘客到达。(时间区间乘客问题)
不需要一系列试验,描述事件特定区间发生次数,特别适用。另外一定条件下替换二项分布带来简便的运算。
/** * 泊松分布的概率P(X=r) = {e^{-λ}λ^r/over r!(e常数2.718,平均发生次数为λ,区间内r次事件) * @param e常数2.718 * @param λ 整型,平均发生次数 * @param r 整型,区间内r次事件 * @return PX double型保留两位小数,泊松分布的概率 */ public static double BosongSuccess(int λ,int r) { double PX=0; double e=2.718; PX= Math.pow(e, -Double.valueOf(λ))*Math.pow(λ, r)/NumFormat.factorial(r); return PX; } /** * 泊松分布的期望E(X)=λ * @param λ double型保留两位小数,表示平均发生次数为λ * @return VX double型保留两位小数,泊松分布的期望 */ public static double Expectation(double λ) { double EX=0; EX= λ; return EX; } /** * 泊松分布的方差Var(X)=λ * @param λ double型保留两位小数,表示平均发生次数为λ * @return VX double型保留两位小数,泊松分布的方差 */ public static double Variance(double λ) { double VX=0; VX= λ; return VX; }
应用条件:
进行一系列 独立试验 ,每次试验成功或失败且每次成功概率相同。 目的: 取第一次成功需要进行多少次试验。
表达式(X符合几何分布,其中成功概率p):X ~ Geo (p)
几何分布概率算式成立:
1、第r次试验第一次成功: P(X=r)=pq^{r-1}
2、需要试验r次以上才第一次成功: P(X>r)=q^r
3、试验r次或者不到r次才第一次成功:P(X<=r)=1-q^r
期望方差:
E(X)=1/p 和 Var(X)=q/p^2
应用条件:
进行一系列 次数有限的独立试验 ,每次试验成功或失败且每次成功概率相同。 目的: 第N次试验中成功多少次。
表达式(X符合二项分布,n是试验次数,其中成功概率p):
X ~ B (n,p)
两点分布:
当n=1时,记住 X ~ B (1,p) 即两点分布。
二项分布概率算式成立: 其中期望方差:
E(X)=np 和 Var(X)=npq
应用条件:
单事件在给定区间内随机、独立的发生,已知给定区间事件平均发生次数且有限。 目的: 给定区间内事件发生次数。
表达式(X符合泊松分布,其中成功概率p):
X ~ Po(λ)
泊松分布概率算式成立:
$$ P(X=r) = {e^{-λ}λ^r/over r!} $$ 期望方差:E(X)=λ 和 Var(X)=λ 如果X~Po(λx),Y~Po(λy)且X和Y是独立的,则X+Y~Po(λ_x+λ_y) 如果X~B(n,p)的n很大而p很小时,X可以近似表示X~Po(np)。
总结:小加大减
1、几何分布随机函数
2、matlab生成随机数函数
3、概率论05 离散分布
4、 SPSS中八类常用非参数检验之二:二项分布(Binomial)检验
5、 指数分布与泊松分布的随机值的产生程序原理解析
6、 几种常见的分布
7、深入浅出统计学