政治科学视角下的大数据方法与因果推论

作 者:

作者简介:
孟天广,清华大学社会科学学院政治学系,清华大学计算社会科学平台。北京 100084

原文出处:
政治学研究

内容提要:

伴随着科技进步和治理实践的不断演进,日新月异的组织制度环境、学科间融合和新兴方法的广泛应用,持续驱动着政治科学理论和方法创新。大数据既是新兴研究方法,为政治学研究提供丰富数据源,更是政治学研究新议题,日益为政治学的知识生产提供新动力。针对政治科学对因果性知识的严格要求,大数据方法被认为重视相关性分析而非因果性研究。近年来,伴随着大数据方法在方法论层面日趋成熟、方法技术日益丰富、研究议题逐步拓展,且与传统社会科学方法逐步融合,大数据方法推进因果推论的能力逐步完善,革新着数据采集、概念测量、相关性分析、因果性与预测性分析等因果推论的各环节,形成了大数据与统计方法、大数据与小数据分析、大数据与实验研究、大数据模拟方法等多种生产和检验因果性知识的方法路径。


期刊代号:D0
分类名称:政治学
复印期号:2019 年 01 期

字号:

       一、引言

       21世纪以来,人类社会进入科技突破和治理演进的新时代,世界各国在技术革新的驱动下纷纷开展了一系列制度改革,推动着国家和全球治理的发展。这对政治科学及时应用创新方法探讨新议题提出了迫切要求。国内外政治学家认为,政治学发展的前沿正在经历探究政治现象背后之因果关系的变革①,而这一变革的推进源于过去半个世纪以来政治科学理论与方法的长期积累,更源于人类社会对政治学知识生产之内容、质量和价值的重新定义②。简言之,政治学迫切需要生产兼具规范性和经验性、描述性(相关性)与因果性、解释性与预测性的政治学理论和知识,构建知识体系③,为人类社会的治理进步提供更为坚实、可行和有效的知识贡献。政治学(乃至整个社会科学)的发展始终与科技进步紧密联系,科技进步为政治学研究创造着新议程,提供了新方法,更直接介入政治过程,推动着国家或社会治理的理论与实践发展。作为互联网、ICT技术和机器学习技术革新的重要成果,大数据无论是作为新兴研究方法,还是作为新议题,都对政治科学的理论和方法更新产生了重大影响,为大数据时代政治学知识的生产和积累提供了创新途径④,《政治分析》还专门刊出“政治科学中的大数据方法”网络专刊⑤。

       尽管对政治科学研究的使命有着不同理解,金(King,G.)等学者在经典著作《社会科学中的研究设计》中尝试着对“科学研究”提出四项基本要求:其一,以(描述性和因果性)推论为研究目的;其二,采用公开的研究程序;其三,结论是不确定性的;其四,科学研究的要核是关于方法的⑥。此后,大量政治科学家围绕政治科学的知识贡献、研究议题和方法展开了激烈辩论,但几乎所有学者均认为政治科学研究的目标应该是探索有关政治现象的描述性或因果性知识⑦,为人类社会提供政治现象“是什么?为什么?怎么样?”的系统性知识。其中,“因果性(Causality)”更被视为社会科学研究的“圣杯”⑧。探究因果关系并非仅为了满足人们理解社会现象的好奇心,更重要的是通过科学研究促进知识积累,为改善或干预人类社会提供知识库。政治科学对因果性知识的追求使得研究者对政治现象(制度、组织、行为等)开展定性、定量或实验式的“科学化”研究,探求政治现象背后的特定概念、变量或因素间的因果关系,尤为重视中观和微观层面的因果关联及相应的因果机制。

       作为新兴研究方法,大数据方法传统上被认为是数据驱动的知识发现过程⑨。大数据方法是用一系列算法从海量非结构化数据中发现反映社会现象的特定模式、特定关系或特定趋势,其目标是运用机器学习把非结构化的、高维的、海量的数据,转化为结构化的、可被理解的社会知识,因此被视为探索性(相关性)分析而非因果性分析方法。譬如吉姆·加里(Jim Gray)强调大数据方法利用相关关系即可建立预测模型,满足政府、企业等知识消费者预测社会行为的知识需求,精准指导社会或经济干预⑩。因此,有学者认为大数据方法是“数据驱动”而非“理论驱动”,大数据方法在描述性(相关性)研究中具有优势,有助于对社会现象“是什么”做出更为全面、精准、实时的呈现,但在因果性(解释性)研究中却表现乏力(11)。然而,伴随着大数据方法在方法论层面日益成熟(12),方法技术层面日益多元化,大数据方法与传统社会科学研究方法的深度融合,大数据方法推进因果推论的方法功能逐步完善(13),在因果推论的数据采集、数据管理、概念(变量)测量、探索性(相关性)分析、因果性和预测性分析等各个环节均呈现出创新性,形成了大数据与统计方法相结合、大数据与小数据相结合、大数据与实验研究相结合、大数据模拟研究等多种生产和检验因果性理论或知识的方法路径。

       二、因果推论框架下大数据方法的方法论功能

       人类探求因果关系的努力自古有之,东西方哲学家老子、苏格拉底等都曾提出探究原因与结果之联系的命题。进入近代社会,科学研究从神学和哲学体系中独立出来,因果性成为科学知识的终极目标。尽管学者们在不同意义上使用因果、原因、结果等概念,但科学研究普遍相信“凡事必有因”,而因果性(Causality)即是(社会)规律,掌握因果关系就可以预测未来。学术界关于因果关系已经形成多元化理解,布雷迪(Henrry Brody)总结了政治科学构建因果关系的四种逻辑传统:1.依据充分条件来定义因果关系的休谟传统;2.反事实逻辑;3.实验(科学)逻辑;4.因果机制逻辑(14)。对因果关系的上述理解为政治科学研究创造了巨大空间,为采取多元化路径对政治现象的竞争性解释(理论猜想)的检验提供了方法论依据。

       因果性的识别与判定(因果推论)是一项系统工程,要求研究者利用规范程序采集经验资料、定义和测量抽象概念(变量)、探索原因与结果的关联模式、识别因果关系的效应(方向)与机制(过程)。在因果推论视角下,大数据方法具有这些方法论功能:第一,数据采集。帮助研究者获取既有方法无法采集或处理的海量数据,为政治科学研究提供新素材和新问题。第二,数据管理和挖掘。帮助研究者有效地管理海量的非结构化数据,比如利用数据库技术和自然语言过程对非结构化数据进行数据清洗、检索和实体识别等,为数据挖掘和统计建模做好准备。第三,测量方法。大数据方法(数据挖掘)作为概念(变量)测量的工具。数据挖掘可以将高维、复杂和非结构化数据转化为低维的结构化数据,其本质就是测量模型。以文本数据为例,对非结构化文本资料进行挖掘所获得的诸如主题、聚类或情感,就是将文本资料结构化的过程。这与传统因子分析、项目反映理论等测量方法类似。第四,描述性(探索性)推论。大数据方法可以利用分类、聚类等方法分析对政治现象开展描述性分析,为理解政治现象或行为的状态、分布或趋势变化积累描述性知识,作为因果推论的前期准备。第五,相关性推论。基于数据挖掘考察政治现象之间的相关关系。以文本数据为例,譬如利用大数据方法在识别主题和情感倾向之后,通过可视化或者相关系数以理解不同主题之间、主题与情感之间的相关关系,或者比较不同群体之间在主题偏好、情感倾向或行为模式上的差异。第六,因果推论。对基于以上方法所测量的概念(变量)、相关关系,利用大数据方法与传统统计方法、小数据方法、实验方法、定性方法等相结合,构建、检验并解释政治现象间的因果关联(15)。第七,预测性分析。考虑到社会科学日益兴起的预测性取向,通过大数据方法利用回归模型、决策树、神经网络等各类机器学习算法,在复杂社会系统中实时预测政治倾向、政府开支、政府决策等特定现象或趋势(16)。目前政治科学研究越来越多地进行预测研究以响应政府或社会政策干预的需求,而大数据基于多主体、海量数据、时效性(时间序列)数据和多模态数据,可以有效地提升预测研究的效度和效率。与此同时,大数据方法基于可视化方式呈现相关或因果关系,这在促进知识传播方面很具优势。

相关文章: