中图分类号:J0-05 文献标志码:A 文章编号:1674-3571(2013)06-0083-09 据信,从时间开端到2003年,人类总共生产了大约5艾字节(exabytes)的数据。如今,人们每天都生产同样数量的数据。我们自觉不自觉地变成了大数据生产机器[1]。在学术领域,艺术研究者正在越来越频繁地以不同方式接触到大数据,不论是作为网络搜索引擎的用户,或是作为文化产业的咨询专家,还是作为艺术大数据的分析师。 一、大数据时代的到来 如果将数据理解为可计算的记录的话,那么,它几乎拥有和人类自身一样长的历史。至于其形态,则是随着历次信息革命而转变的。以语言为标志的信息革命使人们得以对计算的依据加以思考和推敲,形成了可称为“心理数据”的表象和言语;以文字为标志的信息革命为数据符号化铺平了道路,同时加快了数据积累的速度;以印刷术为标志的信息革命推进了数据标准化,有利于大规模复制和共享;以电磁波为标志的信息革命促成了数据电子化,使其加工和传播超出了人类感官的限制;以计算机为标志的信息革命实现了数据网络化,不仅通过传感技术、在线交流等途径生成总量迅速膨胀的各类数据,而且以更快的速度提高了保存、处理数据的能力。例如,人们在2011年用不到600美元的价格就能买到足以保存全世界所有音乐的硬盘[2]。大数据时代就是这样到来的。 1.大数据的特点 顾名思义,“大数据”首先是指数据量大。信息的基本计量单位是比特,1字节等于8比特(即8个二进制数),相当于1个英文字母(或0.5个汉字)的信息量。数据是按照进率1024(2[10])来计算的,1KB等于2[10]字节,相当于一千字左右英文作品的内容;1MB等于10[20]字节,相当于一百万字左右英文作品的内容。若论数据量,音频、视频要比纯文字大得多。一首MP3歌曲大约是4兆字节(4MB),一部电影大约是1吉字节(1GB,等于10[30])。作为文艺研究者,我们对于大数据的感受通常是和个人计算机联系在一起的。大致而言,以所配置的硬盘为参照系,20世纪90年代是兆字节时代,本世纪初是吉字节时代,如今是太字节时代(terabyte,1TB等于10[40])。早在2005年,亚马逊书店所拥有的3个Linux数据库的容量已经分别达到7.8TB、18.5TB、24.7TB,当时是世界同类数据库之冠[3]。如今,这类数据库的容量已经超过了皮字节(Petabyte,缩写为PB,拍字节。1PB等于10[50])、艾字节(Exabyte,缩写为EB。1EB等于10[60])的水平。美国国家安全局正在建设的犹他数据中心可望处理该局从互联网上所搜集的全部数据,其容量预计超过泽字节(Zettabyte,缩写为ZB。1ZB等于10[70])、尧字节(Yottabyte,缩写为YB。1YB等于10[80])。再往下,人们已经定义了更大容量的数据:1DB等于10[90],1NB等于10[100]……因此,所谓“大数据时代的到来”首先是指数据处理量由太字节、皮字节、艾字节、泽字节向约字节以至更高水平的发展。 循名责实,“大数据”不只是数据量大。业界从3V(Volume,Velocity,Variety)的角度概括其特点,除大容量之外尚有高速率和多类型[4]。对此,可从以下角度认识:一是数据存储量和计算量都很大。这些数据价值密度可能不高(例如,连续监控所获得的有用数据仅一两秒),但总量可能大到匪夷所思。二是数据更新、增长的速度快,处理速度也大为提高,通常要求在瞬间完成(所谓“1秒定律”)。为此,不能局限于单机处理,而是诉诸集群计算,让数十甚至数百个服务器一起工作。三是数据类型趋于多样化,不仅有结构化的数据表,还有半结构化、非结构化的文本,乃至图片、音频、视频、地理位置等信息。例如,电子商务平台eBay所定义的数据类型超过500种。除3V 之外,还有人加上其他特点:价值(Value),指数据运营的应用的重要性;可验证性(Verification),就数据的质量而言;可变性(Variability),就数据格式而言;真实性(Veracity),指数据的可信度;邻近性(Vicinity),指就近获取资源[5]。大数据不仅被理解为新型信息资产,还被理解为新的解决方案、商业模式,甚至是国家战略。 2.大数据技术的由来 “计算和记录一起促成了数据的诞生,它们是数据化最早的根基。”[6]105利用机器来处理数据,随着计算器、计算机的发明而成为可能。数据技术所经历的发展大致可以分为三个阶段。 一是数据库和联机分析阶段。20世纪60年代,用户可以直接访问磁盘、磁鼓等存储器,出现了有别于以往基于磁带的批处理的共享性交互应用,数据库由此诞生。在艺术实践中,数据库和联机分析都是创作者、传播者和鉴赏者可资利用的技术。早在1964年,IBM公司就组织了文学数据处理会议。1970年,IBM公司研究员考特(Edgar Codd)发明关系型数据库,可通过报表将数据转化为信息和知识。人们开始对多种相联数据库进行多维度的“联机分析”,这些维度可以自己定义,如产地、产品类别、生产类别等。同一维度可以下钻(drill down),如时间可以分到季、月、日;可以上卷(roll up),如各地销量可累积为全国销量。最早的联机分析(1970)通过建立中介性的数据综合引擎将分布在不同系统的数据库人为联结起来。开发人员预先为用户在后台构建多维数据立方体,此后用户可以在前端各个维度之间自由切换,从不同维度、不同粒度进行数据分析[7]。这类分析可供为提高日常工作效率而设计的运营信息系统之用。就艺术应用而言,值得一提的是:1974年英国学者法灵顿(Michael G.Farringdon)出版了《计算机定量文学分析与文学数据处理研究:菲尔丁及其若干同时代作家散文风格定量分析》[8]。20世纪80年代之后,各种供研究用的艺术数据库可谓层出不穷。至于将数据库技术用于创作,到20世纪90年代才比较流行。