[中图分类号]I0-05 [文献标识码]A [文章编号]1003-4145[2019]08-0024-16 一、引论 本文意在从实证层面找出一个日益流行的文学研究分支的一系列技术问题、逻辑谬误和概念缺陷,该分支有各种名称:文化分析学、文学数据挖掘、定量形式主义、文学文本挖掘、计算文本分析、计算批评、算法文学研究、文学研究的社会计算、计算文学研究(computational literary studies,缩略为CLS——译者注),我在文中使用“计算文学研究”这个说法。从现状看,计算文学分析的问题在于有力的方面很明显(实证意义上)、不明显的方面并不有力,考虑到文学数据的本质和统计调查的性质,这一情况不易克服。在统计工具和工具应用的对象之间存在根本性搭配失当。 数字人文这个研究领域包含诸多多样化主题:媒体史和早期计算实践史,为开放获取而做的文本数字化、数字记入和媒介、计算语言学和词汇学、数据挖掘技术论文;它不是我批判的对象。我具体针对的是在大规模(或通常不那么大的规模)语料库上运行电脑程序,产出定量结果,再绘图、制表、测试,得到统计显著性并用来提出关于文学或文学史的主张;或者设计新工具,用来研究形式、风格、内容和语境。CLS的另一个恰当定义是对文本挖掘中发现的模式的统计学表达,适用于现存关于文学、文学史和文本生产的知识,以便缩小安德鲁·派博在其宣言《要有数字》里所说的“证据缺口”②。CLS声称文学批评家不会再仅凭少量文本就提出关于文学史完整时期的未经证实的主张,也不会忽略大批文学生产——CLS(派博说)能向我们展现新事物,让我们诚实,办法是给我们一种用实证证据支持各种主张的方法,或者利用上述证据去挑战和文学史有关的各种传统智慧(比如关于风格、体裁、历史分期等等的主张)。 文学学者不太有办法查验CLS的工作,有时是因为获取有问题。还有些学科环境使得对CLS的批判难以增加,例如网络文学社会学的主流化、把形式和形式主义的意义在语义上简化为可追踪单元,以及对于可追踪事物形成的各种模式的研究。CLS还采取了一种研究批评性贡献的方法,以节制、补充或逐步升级为特征,将挫折重构为一种必要性,以便调整方法论、产生更多检验。因此,尽管派博评论道:“迄今已经写出大量论战文章支持或反对用数据研究文学、文化、媒体和历史,再提出一种基本原理看起来非常不必要了”,他又说,“确定无疑的是需要更多研究——研究到底为何、为何是现在,文化的计算研究是必要的。”③CLS声称要生产探索性工具,就算是错误的工具也是有内在价值的,因为探索就是有内在价值的。错误归类变成关注对象、误差变成理论、异常值变为审美和哲学探索,而这一切都值得付出更多资金出版。这种战略上的逐步升级已经使得有些最直言不讳的评论家让自己的论辩温和起来——毕竟,谁不想显得合理、前瞻、开明? 现在已有对CLS的评论文章——值得注意的有提摩太·布伦南的《数字人文的破产》、丹尼尔·阿灵顿、莎拉·布洛莱特和大卫·格伦比亚的《新自由主义工具(和档案):数字文人的政治史》④,对DH的政治和哲学批判已经对我们理解该分支领域的制度和意识形态基础做出重要贡献,但它们要么相信CLS说到做到、确实做了它号称要做的事,要么就忽视了CLS论点的武断。的确,同它们的贡献和真正需要的计算能力(除了大规模数字研究计划)相比,数据挖掘文本实验室获得了不成比例的制度资源。只需要一台笔记本电脑就能在这儿再现几乎所有的工作,单单一部智能手机就能提供计算能力,这又回到这个问题:我们为什么需要“实验室”,或CLS何以敛到高得离谱的资金?不过,由于CLS处理文本分析的方式,它能用类似的数据挖掘方法支持非常不同的立场,也已给出理由,认为自己可以提供新方式、捕捉不平等,并“阅读”出于获取或审美和价值判断的理由被正典遗留在外的语料库。 本文并不主张“数字是新自由主义的、不道德的,不可避免要主张客观性,目标是从文学研究中清除所有细读,不能表现时间,会导致‘文化权威’的遗失”,也不认为“数字不可避免(摧毁时间/将阅读简化为视觉化/排除主观性/填补空白)”。⑤也不会有任何关于“数据和数据科学霸权”或者数据本身的客观性不稳定性的说法。⑥已经有人周到而雄辩地这么做了。认为人类和文学现象不可简化为数字、文学批评中好的阐释及风格和科学一样客观,这是个人信念,不会进入这一批评。我们能用非意识形态的推理看到,就目前CLS实际操作的情况而言,它还没有获得什么阐释的能力。 我讨论的是CLS的少数几个论点(选择的原因是其显著的布局、有代表性、作者愿意分享数据和脚本或至少其中一部分)。我选择的每一篇论文都有文学、历史或文化批评角度的概念缺陷,但选它们完全是因其自身情况——他们的样本(经常是唯一来自外人的争执点)、检验、代码和真理宣称。我利用基本统计原则讨论这些例证,也会讨论文本挖掘的已知使用和应用,以及在哪些情况中,文本定量分析和信息的简化再配置会有用。我解释真正应用的简单方式对不住它们无边的复杂性(多半是由于我自己的局限),但我相信这些方式仍能捕捉这些应用的正当功能及局限。数字人文领域的批评家已经为他们的方法提供了配套的解释,但一般而言却是为了让入门标准显得很低或为了让受众能跟上,引发更多人进入这个分支。我相信,用直观而有效的方式重新介绍这些方法论,就可以开始理解驱动它们的逻辑并更好地评价CLS的效用,识别对工具和方法的次优使用案例,或使用原因并非预先可见的事例。本文并不试图处理CLS工作中所有的错误和疏忽。执行中的疏忽;缺乏鲁棒性(robustness)、精度和召回率;不够理想的测量在数据挖掘中很常见。因此,虽然我仔细查看了技术议题,但对CLS的反对不会建立在技术细节上,而且一个人也无法承担这么多工作,要搜寻不完整的数据工作,调试损坏的脚本。对CLS实际从事的计算工作的清晰解释足以构成对我们其他人的刺激,让我们理解哪些环境中这种错误可容许、哪些不行。我的批判实质非常简单:我研究的论文分为无结果论文——数据上毫无结果可展示的论文和的确产生了结果但结果错误的论文,讨论的是数据的性质以及导致这些结果的统计工具。