搜索
写经验 领红包

评估数据分析方法(调查评估形成的风险评估报告应当包括哪些主要内容)

导语:暴发调查系列五:分析评估数据准备

对暴发的下一步分析是进行风险分析。让我们先调出上一期所保存的数据。

zap()load("1.Rdata")ls(all=TRUE)search()attach(.data)des()
缺失值的重新编码

在上一期中我们提到,有许多变量需要重新编码。 第一个需要重新编码的变量是"age",此时可以采用Epicale的"recode" 命令:

recode(var=age, old.value=99, new.value=NA)

变量具有相同的编码方案,都采用9作为缺失值。这些变量包括"beefcurry"," slegg"和"water",可以用以下的命令一次完成重新编码:

recode(vars=c(beefcurry, saltegg,water),9,NA)

对变量"eclair", 其缺失值是90,所以应该重新编码。

recode(eclair,90,NA)

现在,重新检查这个数据框架的缺失值。

summ()

除了变量"eclair"还保留编码80,表示"吃过,但不记得吃了多少"外,其他的变量看起来还不错。我们把它作为有序分类变量来分析它和"case"的关系。

在这一阶段,可以用Epicale的"tabpct"变命令完成交叉列表的过程.

tabpct(eclair,case)

Mosaic图中,列的宽度表示该类别的相对频率,频率最高的是2,接着是0和1,。其他数字的频率频率相对较低,特别是第5个记录,即"eclair"(入酪馅)编码为80的记录。

从左到右,红色区域或罹患率有增加的趋势,表明吃的乳酪馅越多,发病的危险性越大。我们将用这个百分比的分布来指导乳酪馆的分组。

第1列为没有吃乳酪馆,其罹患率非常低,因此,应该把它作为单独的一个类别。吃半个乳酪馆的人很少,可以与吃一个的人合并。吃2个乳 酪馅的人因为频率很高,应该保留为一类,其他吃了多于2个乳酪馅的应该集中归为另外一类。最后,应删除编码为80的人,因为这些人不知道吃了多少,并且频率很低。
eclairgr<-cut(eclair,breaks=c(0,0.4,1,2,79),include.lowest=TRUE,labels=c("0","1","2",">2"))

参数"include.lowest= TRUE"表示eclair为0的必须包括在最低类中。

一种好的做法是给新变量加上变量标签以便于描述,并把它放入数据集".data"中。

tabpct(eclairgr,case)

每个暴露组内的罹患率或患病百分比,即在括号内显示为"TRUE"的列,其奉从那些没有吃乳酪馆人群的5.1%增加到吃了大量乳酪馅人群的70.1%。图形显示的结果与前面的类似,只是分组更为简洁。

现在我们有一个连续型变量"eclair" 和一个分类变量"eclairgy",下一步要对"eclair" 建立一个两分类的暴露。

eclair.eat<-eclair>0label.var(eclair.eat,"eating eclair")

这个两分类的暴露变量与其他变量如"beefcurry"," slegg"和"water"类似.

本文内容由快快网络小姬整理编辑!