一、引言 凡应用统计,收集数据都是不可缺少的重要一环。调查是收集数据的主要方法之一。典型调查和重点调查的方法便于实施,在教育和其它社会科学研究中受到重视,可以说是使用较多的方法。但这些方法受研究者的主观影响大,缺乏概率抽样理论的支持。其中一个缺点是研究者预期有怎样的结果,他就可能找出合适的典型或重点,去得到支持他的数据。这种数据统计的结果外推力、概括力低,即外部效度低,不注意这一点,难免犯以偏概全的错误。普查(即全面调查)似乎没有这个问题,但大范围普查的缺点是花费大、进度慢、不易实施,况且由于工作人员多,可能增加人为的差错。所以除非研究的目标总体不大,或者确实需要每个个体的详尽数据,否则抽样调查比较合适。抽样调查技术和概率抽样理论在最近半个多世纪得到了迅速发展与普及,在生产生活的各个领域发挥着重要作用。过去,由于种种原因,抽样调查的许多方法难以在教育研究中实施。随着交通、通迅条件的改善,尤其是教育情报网络的建立和完善,抽样技术将得越来越多的实用,从而带动教育科研水平的提高。 抽样调查可粗略地分为两类:描述性的调查和分析性的调查。描述性调查的目的是要获得有关大的群体的某些信息。如全省收看某个电视教育节目的总人数,文盲中男子和女子的总数及其占相应人口的比例。分析性调查是对总体内不同的个体进行比较,或对总体的不同指标(即变量)进行比较,以便发现它们之间是否存在差异或联系,并形成或证明产生这些差异或联系的原因的有关假设。如对高考成绩作相关分析或因素分析。简单地说,描述性调查主要是根据样本对总体进行推断,分析性调查主要是用样本代表总体进行推断。前者更多地关注抽样方法及推断的精确度,是本文讨论的主要对象。 目前主要的抽样方法有:简单随机抽样、分层随机抽样、整群抽样、等距抽样、双重抽样、抽子样本、等等。其中,简单随机抽样是抽样理论的基础,其它抽样方法一般都在某个阶段包含有简单随机抽样的做法。在实际工作中,选择抽样方法的原则是:抽取样本要容易,估计方法要简单,估计量要准确,对估计量的方差有一个估计。对于教育现象,整群抽样、分层随机抽样、分层整群抽样、等距抽样比较合适。下面我们着重评述简单随机抽样、分层随机抽样、整群抽样,以及抽样调查的主要步骤。 二、简单随机抽样 简单随机抽样一般是指普通概率统计教科书上都会提到的从含有N个个体的有限总体中不放回地任取n个个体的抽样方法。其中,任何n个确定的个体全部被抽中而成为一个样本的概率为1/C[n][,N]。一般是利用随机数字表抽取样本。
其中均值、总值和比例的估计量及其方差的估计都是无偏的,比率估计量及方差的估计是近似无偏的。当抽样比f<0.1时,对大多数用途来说,上述公式中的有限总体较正系数1—f可以忽略。值得一提的是,因为抽样是不放回的,所以y[,1],…,y[,n]不是与总体有相同分布的独立随机变量,上述有关公式的推导比有放回情形相应公式的推导要繁难一些。并且当抽样比较大时,不放回抽样的精确度明显提高。 上述四个指标中的前三个在实际工作中比较常用,数学上也较好处理。不难看出,由有关均值的公式很容易推出有关总值的公式。而比例则是一种特殊的均值。下面的抽样方法只考虑总体均值和比例的数据分析。 三、分层随机抽样 在许多教育现象中,总体的个体往往很自然地分成了一些类(子总体),如学校、年级、班级;城市学校和乡镇学校、重点学校和一般学校。可将子总体作为层,分层进行抽样。在下列几种情形,考虑将总体分层是合适的。 1)需要总体的某些分类数据。如关于小生课外作业时间的调查,可以要求有各年级的数据。这样,年级就可作为层。 2)总体是由一些大小差别很大的子总体组成时,或者要测量的主要变量与子总体的大小是密切相关的,分层样本较有代表性。如与学生人数有关的调查中学校可作为层。 3)总体中不同的单位之间差异大而单位内部差异小时,分层可提高估计量的精确度。如在儿童辍学情况的调查中,可按市、镇、村分层。 4)为便于抽样而按行政单位或地理区域进行分层。
一般地,各层所含的个体数是不一样的。在总的样本容量n固定时,从理论上说可以适当分配各层的抽样数使得估计量的方差最小。在实用上我们可以采取如下策略:如果一层含量大,或抽样容易(包括省时省钱),或内部差异较大,则这层的抽样数就大些。如按各层的含量大小分层,即n[,h]/n=N[,h]/N,称为按比例分配的分层。这种分层容易定出n[,h],且可简化一些公式,如的方差