上期内容回顾上期介绍了R中常见统计分布的名称,并以指数分布为例介绍了调用相应概率函数的方式,一起回顾一下吧:
1、常用统计分布及其在R语言中名称,见上期表格,这里不再一一列举
2、概率函数,介绍了其中的基本的四种函数应用,并以指数分布为例,举例说明了dexp、pexp、qexp、rexp的使用
3、文章末尾再次提及了R中强大的帮助系统,主要介绍了三种,包括函数介绍的求助方法——?+函数名,运算符的求助方法——?”运算符”以及??+查找名称来求助于名称相关的所有结果。
温馨提示 :如果感到有些陌生,那就赶快翻开公众号历史消息温习一下~温故而知新哦~
本期内容导读这期继续介绍常见分布在R中的应用,由于实际工作学习工程当中,正态分布的应用十分广泛,这里将重点以正态分布为例,对其在R中的应用以举例的方式进行介绍,并在最后介绍正态性检验。
1正态分布概率密度、分布函数图
概率密度
生成图像如下:
分布函数:
生成图像如下:
例2 2000件产品中有40件次品,按放回抽样连取100件,其中次品数X为随机变量,求P{0=<X=<4}。
使用二项分布计算
使用正态分布计算
从中心极限定理可以知道,这个例子可以用正态分布的方法来做。
2正态性检验:图示法和计算法
图示法
会用到分位数图(Q-Q图)这种方法使用到的函数在car包中qqPlot()函数,用户需要install.packages(“car”),下载安装即可
这里鼠标变为十字,可以选择图形上的数据点,点击离群点后,可以看到数据的下标,有利于进一步对数据进行处理。
图像中其他点没有超出红线范围且离直线很近,说明数据正态性较好(当然因为演示需要,这里生成的是正态随机数,结果自然正态性较好)。
备注:R的默认库中也有qqnorm()等函数能够做出Q-Q图,但是直观性不如这里的qqPlot()函数好。
计算法
这里会用到ks.test()函数。
函数调用形式:
ks.test(x,y, alternative)
参数解释:x为数据集,y为命名累计分布函数的数值型向量或字符串。
P值为0.4823,按照α=0.10的标准,不拒绝H0。故不能认为样本不服从正态分布。
延伸拓展
1、前几期提到的基础包中有mtcars数据集,对其mpg变量进行正态性检验,找出离群点并删除。
2、给大家一个题目,练习使用统计函数:设备及其生产螺栓的长度Y服从正态分布N(10.05, 0.06,)规定Y在10.5±0.10(cm)为合格品。求索生产螺栓的次品率。
关注我们——官方网站——
——官方QQ群——
R语言中文论坛-2(1000人群):427060123
R语言中文论坛(2000人群,已满):74076289
Biostatistician(500):186701945
——官方微博——
新浪微博:@R语言中文网官网
——官方微信——
微信名:R语言中文网 微信号:rchinanet