一、问题的提出 大数据时代的到来,历史学的计量研究再次得到学术界重视,学者们不断搜寻与使用历史时期的数据史料。但是,历史时期留下的数据史料常常令我们无所适从,因为其与网络时代电脑服务器中自然产生的大数据有明显差异,其最典型之处在于,历史文献中的数字记载一般不具有序列性,也不具备时间上的连续性。在使用这些数字时,很难直接用会计学或统计学方法进行处理。为了达到统计分析的目的,史学界对于历史时期大量数字的一般使用方法是:参照相关历史文献,分析、批判这些数字的真伪,进而对其进行评估、挑选和纠正,再做出自己的估算,最后使用新的估算数字做成序列数据,并进行统计分析。珀金斯(Dwight H.Perkins)《中国农业的发展(1368-1968)》就是这种数据处理方式的代表作之一。①这一数据使用方式,本文称之为“辨数据真伪”。它需要建立在作者良好的历史感和逻辑性的基础之上,否则很容易使估算出来的数据脱离历史逻辑。毕竟对数据的估算,本质上就是创造史料。哪怕有统计学的一系列方法可据以利用,一旦对相关问题缺乏良好的历史感,估算出来的数据,即创造出来的史料,就会成为研究者的主观臆想。熊彼特(Joseph A.Schumpeter)曾在讨论经济分析方法时深刻地指出:“如果一个人不掌握历史事实,不具备适当的历史感或所谓历史经验,他就不可能指望理解任何时代(包括当前)的经济现象。”②这一点对数据史料的使用,同样非常适合。葛剑雄、曹树基对杨子慧《中国历代人口统计资料研究》进行严厉批评,所针对的主要问题之一,正是由于作者缺乏历史感,以致“广义逆向预测法”“仿真人口模型”等办法都无法正确复原数据。③李伯重进一步指出,即使不是估算出来的数据,而是史料中记载的数据,如果取证不当,也会制造出不符合历史实际的“虚像”。宋代江南农业亩产量研究中,从有关史料中选取一二种据信是最重要者(或称最典型、最有代表性)的数据以概括全面的“选精法”,以及将与某现象有关的各种史料尽量搜寻出来,加以取舍,从中挑选出若干最重要(或最典型、最有代表性)的,集中到一起,合成一个全面性的证据,然后以此为根据,勾画出这个历史现象全貌的“集粹法”,都是造成历史虚像的重要原因。④陈争平等同样认为史料中的数据很多是作者的估计,并指出:“对社会经济史统计工作而言,所谓‘历史方法’,即是详细考察经济史数据产生的机制,只有在此基础上,才能正确判断历史数据的可靠性和有效性,才能对历史数据进行正确的统计学处理,才能将统计数据与经济理论结合做出科学的推断”,“对数据产生机制的探究是经济史研究的基础”。⑤显然,数据史料使用中的这一风险,早已引起学术界的注意。 何炳棣、梁方仲等前辈学者对中国历史文献中的数据史料保持了充分警惕,他们利用数字史料的重点,不在于通过零星数据来估算并做成序列数据,而是对历史时期留下的数字进行分析,考辨其真实含义,进而总结其作为史料的实际意义。本文将这种数据史料使用方式,称为“求数字意义”。何炳棣对中国历史上人口和土地数字进行研究时,采用的就是这种方法,并最终形成《明初以降人口及其相关问题》⑥《中国古今土地数字的考释和评价》⑦等著作。在明清人口史的研究中,何炳棣通过对大量地方志数据史料的分析,发现以往认为是成年男子的“丁”,明代已演化为纳税单位。“丁”的意义,完全不能理解为人丁数。以丁为基础、1丁合5口的人口估算办法,也就失去了史实和学理基础。这一结论改变了中国人口史研究的一大误区,也对明清户口赋役制度和基层社会的研究产生了深远影响,彰显了数据史料解读中,从“辨数字真伪”到“求数字意义”方法论转变的重大意义。⑧ 梁方仲积数十年之功,编成的《中国历代户口、田赋、田地统计》⑨是求数字意义的另一经典中国经济史研究巨著。这本统计著作收集了从西汉到清末的原始数据,加上少量平均数和升降趋势的计算表,分正编、附编和别编三部分,共编成215个表格。其中的大部分表格都是原始数据表,少部分是经过计算的平均数、对比数和升降趋势统计表,并无任何估算数据。众多表格都附有“编者注”“说明”一类解说和论述性文字,用以说明数据的“可靠性的程度,所反映的历史实际,及其所包含的种种意义……以至历代户口地籍、税册之编制制度等事项”,⑩且设置“别编”来阐释各朝代的政治经济制度。学术界总结其统计方法“力图在通解历代制度演变的基础上去解读数字资料”,并举其对“唐天宝八年(749)各色米粮总数”的数据加总与原书“合计”不符的说明,以及于洪武、弘治两朝田地总数记载接近一半的差异的分析,来证明其研究方法的显著特点。(11)然而,编制200多张统计表本身并非梁先生最终的研究目的,这从书中凡例能够看出一些端倪,如“表示升降趋势、分区比重及各种平均数指标,也可以作为分析当时当地某种特定状况的推论根据:如册报户口减少与农民逃亡,人口密度与经济发展诸关系”,(12)表明梁先生希望通过这些数据探讨各种经济甚至政治、社会关系,立意高远。 受何炳棣、梁方仲两位先生的启发,笔者在清代盐政的研究中,也试图采用统计原始数据的方法展开分析。清代盐政的原始数据众多,但和户口、田赋、田地统计数据一样,数字的实际意义与其表面意义不同之处亦多。那么,利用这些数据展开统计而不是估算当然并非难事,但在统计后进行分析,以及分析的目标是什么,就非常具有挑战性。笔者认为,从梁、何二位先生“求数字意义”的方法出发,盐政数据能反映的数量关系虽然众多,(13)但最根本的还是清代盐政的内在运行机制问题。这是因为,不管是否真实反映了历史时期对应的计量事实,哪怕只是一些因循抄袭的数字,(14)盐政数字仍是当时官府(或其他机构)做相关决策所须参考和不得不面对的数据。这就意味着,我们可以不去判断这批数字的真伪,不去对这些数字进行估算,而是将这些数据当作文本来加以使用,即回归到历史场景中,理解这些数字的意义,并在此基础上,分析这些数据各变量间的结构关系,进而理解当时官方的盐务决策和盐政运行机制。基于此,笔者认为,从性质上看,清代盐政的盐引分配数和盐课额征数,都是盐政制度安排的理想目标,依据这些数据分析的变量间结构关系,就是清王朝盐政制度安排的内在理性(或内在逻辑)。不能否认,这一理性在实际市场运作中发挥了作用。但由于各种复杂原因,依据其安排的数量指标并不一定能完全实现。(15)