找回密码
 立即注册
查看: 3935|回复: 0

生物统计专题:用R进行描述统计分析

[复制链接]
发表于 2015-1-1 15:57:32 | 显示全部楼层 |阅读模式
本帖最后由 R语言微信号 于 2015-1-1 16:03 编辑

生物统计专题:用R进行描述统计分析

2014-12-30 bgstn R语言中文网

上期内容回顾
上个专题我们介绍了R语言的数据导入,将R语言导入几种常用软件数据的方式介绍了给大家,下面做个基本回顾。
  • 键盘输入数据:创建数据框,调用fix( )函数
  • TXT数据导入:调用read.table( )函数
  • Excel数据导入:转换为csv文件,调用read.csv( )函数
  • SPSS数据导入:调用Hmisc包中的spss.get( )函数
  • SAS数据导入:两种方法:一种针对bdat格式文件,调用sas7bdat包中的read.sas7bdat( )函数;另一种是使用SAS文件将数据导出为csv文件,再使用read.csv( )函数。
  • Stata数据导入:调用foreign包中的read.dta( )函数
  • netCDF数据导入:使用open.ncdf( )get.var.ncdf( )函数

温馨提示:如果你对上述所讲的内容还有些陌生,就先不要急着阅读下文的内容,先打开R动手练习练习再来学习吧~
本期内容导读

导入数据后就可以着手对数据进行分析啦。描述性统计就是对导入后的数据进行一个简单的统计分析,即用数值对每个变量的分布进行描述,从而对数据分布情况进行简单了解。对于这部分内容,我们在这里将会主要介绍四个函数:summary( )describe( )aggregate( )sapply( )

示例数据:

如下图所示,包含四个变量:不同类型的糖尿病患者低、高脂蛋白的胆固醇含量(LDL、HDL)及载脂蛋白B(ApoB)的测量结果(单位:mg/dl)

1summary( )函数

用途:summary( )函数提供了最小值、最大值、上下四分位数和数值型变量的均值,以及因子向量和逻辑型向量的频数统计。示例如下图:


2describe( )函数

用途:describe( )函数对数据描述的更加具体,其可返回变量和观测的数量、缺失值和唯一值的数目、平均值、分位数,以及五个最大的值和五个最小的值。

温馨提示:使用该函数需要提前安装并加载Hmisc包。

3aggregate( )函数

用途:用来对数据进行分类汇总,比如对不同类型病人分别计算其三个观测指标的平均值。

函数调用形式


aggregate(databyFun
参数解释:
参数data 为待分析的数据对象,by 是由一个变量名组成的列表,这些变量的作用是对数据进行分组,而Fun 则是对分组后的数据计算描述性统计量的函数。
注意:在使用aggregate( )函数的时候,by 中的变量必须在一个列表中(即使只有一个变量)。你可以在列表中为各个组取一个自定义的名称,例by=list(type=mydata$type)。指定的函数可为任意的内建或自编函数,这就为这个函数赋予了强大的力量。

4sapply( )函数

到了这里,你可能会想到R中现有的函数对数据的描述性统计方法都是预先设定好的,例如summary( )中的分位数,describe( )中的频数统计等。有些时候,我们会想要自定义统计结果,比如计算每个观测指标的均值和方差,这时候使用以上函数,再将结果提取出不免有些麻烦。此时,sapply( )函数就能够帮到你。


拓展延伸

  • 以本期数据为例,如何同时得到不同类型的糖尿病患者各个诊断变量的均值和方差?
  • 如何用定义函数的方法得到数据的二阶、三阶中心矩?

下期预告
本期的描述性统计分析就先到这里啦,对上述内容还希望大家多多动手练习。本周五会接着介绍R的基本数据管理及数据预处理,欢迎大家围观!!!




微信扫一扫
获得更多内容





回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|R语言中文网

GMT+8, 2024-11-25 18:41 , Processed in 0.020999 second(s), 17 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表