调查误差
1.什么是调查误差
调查误差是指在取得样本数据资料过程中产生的误差。这部分误差通常与调查者、回答者、资料搜集方式和问卷等因素有关,它们会形成在调查过程中出现无回答和回答出现偏误等情况,进而形成系统性误差。
2.调查误差的类型[1]
调查误差从其产生的人员来划分主要包括调查人员误差和被调查人员误差两种。
1、调查人员误差的产生是由于调查工作过失和故意舞弊所致,如调查者自身的素质不高,工作粗糙、登陆马虎等所造成的误差都属于调查者的误差。故意舞弊是指调查者是为了自己省事,根本没有按照调查方案的规定进行调查,而是随意编造甚至纂改调查资料。
2、被调查者误差的产生有的是由于被调查者对问题的理解发生差错,或是因为被调查者即以不清回答有苦难而造成的;有的是由于调查的问题涉及到被调查者的利益故意错答所致;有的是由于调查的问题涉及到一些敏感性的问题或是提问方式不当而拒绝回答所致。
其中被调查人员误差按被调查者是否回答,又可分为无回答误差和回答误差两种。前者包括调查单位的无回答和调查项目的无回答。调查单位的无回答是指未能从抽选样本中的一部分单位取得调查资料。调查项目的无回答是指在抽样调查中对调查方案中的个别项目未能得到回答。
无回答误差产生的原因可归纳为以下两种:一是由随机抽样所确定的被调查单位在具体调查时未能接触到,致使被调查单位没有接受调查;二是虽然接触到了被调查者,但他们不合作,要么是调查涉及到个人隐私、商业秘密等敏感性问题而不愿意回答,要么是调查问卷中所列的调查项目超出了被调查者的实际能力和条件或调查项目复杂而无法回答。后者产生的原因主要是由于被调查者所持有的立场、观点不同,文化水平、经济利益等方面存在差异,有意或无意的形成对客观现象的认识存在偏差。如有的被调查者对一些问题没有正确的判断和见解,人云亦云;有的被调查者由于受调查员自身观点的影响而没能真正回答自己的观点;还有的被调查者由于受经济利益的驱动有意歪曲事实等等。
3.调查误差的来源
能引起调查误差的主客观因素称为“调查误差来源 ”。在调查总误差中,某特定误差来源的影响既取决于其固有的导致误差的可能性,又取决于这种可能性在调查实践中被控制的程度。
尽管调查是由人设计和执行的,而人为因素可能会导致计量误差,但这并不等于调查中所有的误差都是由人的弱点和过失造成的。具体来说,调查误差的来源于以下几个方面:
1、调查计划
- 确定工作范围
- 调查设计者可能误解了主办者的目的意图,制定了错误方针,误导研究方向。
- 不同的目标对设计的要求可能不同。
- 目标总体与实际的调查总体不一致。
- 调查可能不是实现目标的最佳途径。
- 没有运用以前类似调查的经验,可能会出现一些本来可以避免的错误。
- 调查设计者可能曲解了主办者的目的,其调查内容可能不符合主办者的愿意。
- 调查设计者事先没有预料到调查中应采取的某些步骤、会出现的问题以及选择的雇员不合格导致计量质量降低。
- 预算的考虑
- 调查组织无法筹集到足够的现金,因而只能缩减调查预算或寻求妥协,结果导致数据质量降低。
- 对调查各环节的资金分配不合理,可能导致经费不足,降低了调查质量。
- 调查组成员间的交流
- 调查组织者没有制定或明确工作人员的操作规则,使工作人员产生迷惑,最终导致调查误差。
- 调查组成员之间没能互通工作中的重要信息。
2、抽样
- 准备工作
- 用于分层的标准可能并不能使抽样误差最小化。
- 抽样框不够完善,会导致某些总体单位被抽中的可能性过高,而某些总体单位却没有机会进入样本,从而产生偏差。
- 样本的设计
- 从各阶段抽选出的样本单位数不能获得估计量的最佳有效估计。
- 增大样本容量可能使非抽样误差增大。
- 总的样本容量可能已满足总体估计量的精确度要求,但是对那些重要的小区域(子总体)的估计量的精确度却不符标准。
- 样本的抽选
- 尽管本意是进行概率抽样,主观判断仍然可能影响样本的抽选。
- 在访问调查中,数据收集工作(即编列所要访问的住宅)提供给访问员的信息不够准确,或是布置任务时提供的信息不足,或是任务分配表上出现抄录错误,都会导致访问员无法正确找到所抽选出的住宅。
3、问卷和表格的设计
- 计量方法的设计
- 问卷中题项的位置可能设置不当。
- 被调查者可能没有真正理解某问题的特别意图。
- 被调查者可能宁愿迫使自己回答问题,也不愿承认自己无知。
- 某些问题的用词可能会诱导受访者。
- 如果问卷太长,可能会使被调查者失去兴趣,致使调查不能圆满完成。
- 设计者构造的问卷不能和被调查者建立和谐的气氛。
- 如果调查人员采用的开放问题所需答案既长又复杂,访问员记录答案与计算机编码都会相当困难。
- 对收集数据的指导
- 训练手册可能没有为数据收集人员提供关于说服被调查者参与调查的有效建议。
- 自填式问卷的指导可能说明不清楚,使问答者产生误解。
- 培训手册没能激励数据收集人员做好工作。
- 调查表和调查步骤的小规模试验
- 对于有关数据收集计划的问题所做决定可能没有根据。
- 没有进行正式的试验,虽然调查表和调查步骤看上去都比较可行,但可能达不到预期效果。
4、数据的收集
- 准备工作
- 所得到的有关担保可能不起作用,无助于回答的提高。
- 雇佣的数据收集人员可能不合适。
- 对数据收集人员的培训不够充分,可能会导致他们对预定步骤的执行有误,或是在不理解自己应该干些什么时自我行事。
- 操作
- 只在总部对收集数据的操作进行监控是不够的。
- 为说服受访者参与调查所做的努力不同,可能导致样本内不同个体参与调查的机会不等。
5、审卷和编码
- 准备工作
- 所进行的审卷和编码可能并不适用。
- 审卷可能并不能检查出所有错误。
- 编码分类可能不是唯一的,就会导致编码问题。
- 招聘的审卷人员/编码人员可能不称职。
- 对于审卷人员/编码人员的培训不适当。
- 操作
- 如果不对问卷进行登记与分组,丢失问卷的可能性就会增加,从而无回答也会增加
- 审卷/编码工作通常都比较繁琐,如果工作环境不好,很容易导致工作质量下降。
- 审卷/编码人员的督导可能不称职。
- 对审卷人员/编码人员的工作质量的检查程序不完善或是根本不存在,错误不被发现的可能性便会加大。
6、数据录入
- 准备工作
- 设计的数据录入程序可能是无效的,不能为分析提供有用的数据。
- 雇佣的数据录入员可能不称职。
- 对数据录入员的培训可能不适当。
- 操作
- 数据录入设备可能会出现故障。
- 数据录入的督导可能不称职。
- 质量控制中的措施不适当或缺乏措施,致使录入出错率高得无法接受。
7、数据处理
- 数据查错
- 计算机程序员可能错误应用了数据查错和编程的说明,给分析人员带来问题。
- 数据查错中可能不能发现原始数据文件所有遗留的错误。
- 为便于分析,某些用于确定总体子群项目的编程分类可能只代表总体太小的一部分
- 数据报告的编程
- 程序文件可能不包括满意地完成一组分析所需的所有变量。
- 程序文件的代码错误。
- 计算机出现故障可能会再次造成数据的丢失或出现错误。
8、数据分析
1)抽样权数的计算
- 对无回答的调整可能较差地反映调查者的回答概率,因而也不大可能达到降低无回答偏差的目的。
- 抽样过程可能并没有经过严密的证明,只能对最初抽样概率进行估计或推测。
- 在计算暂定权数与后面的调整值时,可能会出现计算错误。
2)准备工作
- 不使用抽样权数可能导致调查估计值有偏。
- 忽视了被调查者的结构特性,对估计值的统计精确性的测量可能也不准确。
- 某些调查要花费很长时间才能完成。
- 研究计划可能没有正确回答问题。
- 计算机软件中,可能存在没被发现的程序错误。
- 没有对数据报告的数据项进行加权,对此又没有说明,很难发现数据报告的错误。
3)操作
- 分析人员在执行分析计划时可能出现错误。
- 在探索性研究中,分析人员在专业性判断上的错误可能会误导分析方向,从而错过了可能有重大发现的机会。
- 分析人员在使用分析工具时出现程序错误或句法错误,可能会导致结论错误。
9、最终的研究报告
1)报告的准备工作
- 可能没有计算或是没有给出调查估计值的统计精确度,让人很难了解估计值的好坏程度。
- 对调查结果的解释可能是错误的。
- 最终的报告可能遗漏了调查中出现的一些重要的程序问题,因此很难对总体质量进行评价。
2)外部评论
- 研究人员可能并没有打算对最终报告进行评价,因而也就失去了完善研究以及提高表述质量的一次机会。
- 研究报告人员可能不能胜任研究工作。