开展健康教育工作,我们经常会遇到这样的问题:“要开展有关高血压危险因素流行情况的调查,需要调查多少人?”
一般来说,调查多少人,即样本量的大小,决定于两个因素。一个是某个健康问题在本地区人群中的流行情况,也就是患病率、发病率或流行率的高低。一个问题在人群中的流行情况很普遍,那么就不需要调查那么多人;如果一个健康问题在人群中出现的情况很少,那需要调查较多的人才会具有较好的代表性。比如,吸烟情况很普遍,成年男性吸烟率在60%以上,要开展成年男性的吸烟调查,只要抽样设计合理,只需要调查500人就可以了。而成年人的肥胖率只有5%,那就需要调查更多的人。另一个要考虑的因素是允许误差,也就是你希望你的调查结果与人群中的真实情况有多大差距。比如,本来人群中的糖尿病患病率是4.8%,你调查的结果是5.8%,那就说明你有关糖尿病患病率的调查结果与真实情况相差1%。你如果你希望调查结果更接近于真实结果,那你就需要调查更多的人,反之,可以减少样本量。
总之,样本量决定于以上两个因素,而经过统计学家的计算和推断,认为样本量应该用下列公式进行计算:
Ua2*π*(1-π)
N = D *
-----------------------
Б2
其中Ua=1.96;π为总体率,可查阅文献获得;Б为允许误差,决定于你自己对调查结果的期望;D为调查的精度,一般取值1.5。
那么,现在可以计算一下:在糖尿病患病率为4.8%,调查结果允许误差为1%,实际应该调查多少人?代入公式计算,大概需要调查2742人,为了保证调查结果,还要考虑失访率、拒访率、问卷有效率等,所以把调查人数扩大到3000人应该能够取得较满意的结果。
确定样本量是调查设计的第一步,一旦样本量确定下来,就可以选择抽样方法,用什么抽样方法好?留给下次再说吧。
1,确定样本变量在2万两司机中抽样调查问卷,抽取多少最合理啊?置信度在95%,计算公式为:n=P(1-P)/(e2/Z2+ P(1-P)/N)
n:所需样本量Z:置信水平的z统计量,如95%置信水平的Z统计量为1.96;99%的为2.68
p:比例估计的精度,即样本变异程度,一般情况下,我们不知道P的取值, 取其样本变异程度最大时的值为0.5
e:调查结果的精度值百分比N:样本总量n=P (1- P)/( e 2/ Z 2+ P (1-P) /N)
n=0.5*(1-0.5)/((0.05)2/(1.96)2+ 0.5*(1-0.5)/20000)=384.15(人)2,分层抽样样本n除以总体量N,再乘以每层的层容量,就得到了各层所要抽取的样本数了。