政治学研究中的数据:不深刻的理解与困境消解

作 者:

作者简介:
臧雷振,日本东京大学政治学法学研究科国际特任研究员,北京大学政府管理学院博士后。

原文出处:
马克思主义与现实

内容提要:

数据在政治学研究中的应用日渐广泛。本文通过比较当前政治学研究中不同数据采集方式的优劣,并剖析跨国数据采集及其标准化实践的困境,指出政治学研究中数据分析面临的危机;同时,分析了大数据时代所带来的定量研究变革机遇,也对大数据背景中数据分析认知偏差进行客观解读;最后,通过对模型与理论、数据与模型关系的分析,阐述未来政治学学科发展的支撑点。本文目的不是要贬低数据的价值或放弃量化的方法,而是为推动学者未来进行更为可靠、更深思熟虑和更具创造性的政治学分析提出警醒,改善目前对数据或模型的盲目崇拜,消解数据和模型应用中的认知偏差。


期刊代号:D0
分类名称:政治学
复印期号:2017 年 07 期

关 键 词:

字号:

      随着信息技术的不断发展,以及国家与不同组织机构对数据采集的重视,政治学者在数据采集方面享有更多的便利,数据收集能力也逐渐提高。同时,国家和各类组织机构的信息公开范围逐步扩展,数据透明度日渐提升,使研究者可更容易地获取各类数据。信息技术和计算机统计软件的发展使得对海量数据分析更为便利,而大数据时代的来临,让今日政治学研究的数据运用更为流行。然而,喧嚣背后总是隐藏着诸多值得深刻思考的内在病理。比如,对于数据不深刻的理解带来诸多误解,对于纯粹依靠计算机软件的分析带来诸多知识的懈怠,对于理论知识的割裂带来数据分析价值的脆弱性。这类现象使得前美国宾州大学教授,现佩鲁斯分析统计咨询公司资深研究员菲利普·施罗特直言不讳地批评道:“当前政治学定量分析中积累了一系列恶习,使得政治研究变得越来越没有意义,不同的恶习可以归纳为定量分析七宗罪。”①

      国外学者对定量研究中数据使用的诘难,也伴随着国内学者的反思,如学者通过对已发表的以定量分析方法为主的论文进行再验证,来破解其研究中所存在的数据分析问题。这一点在定量分析和数据应用较为频繁的经济学、社会学领域已经屡见不鲜。学者再验证也发现,已有研究中存在各类数据应用的错误并导致不正确的解释统计结果。②

      由于政治学中定量分析和数据应用起步较晚,对这一领域的文献再评估一直匮乏,本文基于笔者研究实践,结合中国政治学发展现状,尝试初步探索政治学研究中数据采集方式及其所存在的问题,指出大数据时代数据运用与研究中存在的机遇以及诸多误解,进而阐述数据与理论、数据与模型的关系。当然,对这些问题的分析并不意味着要贬低数据的价值或放弃量化的方法,而是为学者未来进行更加可靠的、更深思熟虑的和更有创造性思想的研究提供理论警醒,以改善目前对数据的盲目崇拜。

      二、数据采集的困境

      20世纪中后期以来,数据采集工具不断丰富,从传统的调查问卷到信件,从电话到互联网,从人工操作到计算机辅助,社会科学数据收集方式更加多元。除了数据采集工具的多样化以外,数据抽样的精度和准确度也在不断提高。

      尽管如此,对所采集数据的分析结果依然受抽样误差(样本个体体现目标总体的精度)以及覆盖误差(总体中的某一部分包括在样本中的概率)、无回应误差(受访者的回应与研究目的无关或没有回应)、测量误差(通常是出于提问措辞不当,调查方式问题或受访者特性导致得到错误的回答),还有数据整理误差(编码错误和数据录入时产生的错误)等其他误差的影响。③在中国的政治学研究中,数据采集的困境主要体现在如下两方面:一是不同数据采集方式的优劣比较和新技术的适用性;二是跨国数据采集及其标准化。

      回答第一个问题前,首先要回顾一下20世纪以来数据收集方式的发展。在早期,面对面的访谈是最主要的数据收集方式,随着封闭社区数量的增加和人们对面对面访谈的冷淡,再加上成本过高,这种方法存在诸多的困难,因此信件和电话访谈逐步代替了面对面的访谈。当前,伴随计算机的发展,各种计算机辅助的自助或半自助数据采集、电子邮件、网络数据收集也在急速发展,现在也并没有一个被普遍接受且占主导地位的调查方法。已有大量研究也指出,任何单一的数据采集方法均会存在精度、准确度、成本、效度等方面的不足,所以,过度纠结于不同调查方法的优劣选择,并不能改善数据采集结果的质量。越来越多的研究倾向于通过不同数据采集方式的混合来实现效果最大化。研究表明,仅用网络调查手段可能会削弱一些群体的代表性,但如果在信件调查之后,再进行网络调查,则与那些仅通过信件的调查结果应答率相差不多。④将现代信息技术发展带来的新方法与传统数据采集模式混合,将改善网络调查的代表性。

      此外,新技术的逐渐采用,使得人们把注意力主要集中到技术的更新换代上,而对数据采集中新技术带来的问卷设计视觉问题、措辞问题等过于忽略了。如学者谢弗和戴克马指出,“不同调查需求差异与调查技术的发展,使得问卷设计变得更为复杂。现今移动设备的数量不断增长,取代了早先的台式机与笔记本电脑等连接网络的主要方式。然而,这并非切合人口统计学的步伐”⑤。所以,针对中国政治学数据收集,存在两个显而易见的学术懈怠:一是单一格式的问卷在纸质、电话、网络等不同形式数据采集中重复运用;二是不同调研机构或综合调查机构,其问卷设置也大同小异,无法体现出不同调研机构的偏好和调查目的性。所以,未来新的问卷设计方向应当基于不同的被调查群体、被调查设备、方式以及调查目的做出相应改变,才能更好地改善数据采集工作。

      第二个问题则是伴随近年来中国国际地位和影响力的提升,以及国家外交战略需求的背景,部分学者开始协调大型跨国调查或与国际跨国调查机构合作,但“政治学数据跨国采集要比经济数据复杂得多”⑥。首先,将政治活动数据化已绝非易事,而保证这些数据能被其他国家理解就更难了。在市场经济中,货币作为普遍的交换媒介,为“无生命物品”的生产提供了通行的测量标准,国际汇率制度也为各国提供了稳定的价值衡量标准。一些国际经济组织在数据规制和收集过程中扮演核心角色,比如国际货币基金组织和世界银行。它们制定标准化的测量方法,定期收集国家经济和社会相关数据,并按照时间序列整理覆盖全球的多国数据。而政治领域缺乏这样的普遍衡量与换算标准,要想将国家政治事件、结构和输出数据化,就需要在量化方式上投入大量精力。对他国的数据采集,正如鲍曼等人在衡量政治民主时所强调的:外部观察往往依靠的是不完整、不准确乃至互相矛盾的信息。“数据诱发的测量错误”可能影响到跨国测量的质量,毕竟这些测量有赖于对复杂政治现实的抽象判断。⑦所以,当前跨国数据收集中往往难以满足以下条件:可清晰界定观察结果的概念性框架;完整、精确、统一的编码规则;对重复测量行为进行持续监察;有观察能力和遵守规则的编码员。此外还存在若干数据不兼容不协调、重复收集等问题,造成大量宝贵研究资源的浪费。未来,国内学者在开展同类数据采集中,如何建立一个更高水平的监管机构,如何完成数据采集的顶层设计,以促进在跨国数据收集汇总中的协同和协调则是亟需思考的问题。

相关文章: