在大数据时代背景下,数据无所不在,许多过去难以量化的信息都将转化为数据进行存储和处理。通过大数据时代的数据储备和技术理念,以前所未有的方式洞见事物的发展趋势,进而影响人们的价值体系、知识体系和生活方式。在大数据时代开启伊始的今天,能否激发和利用隐藏于数据内部尚未被发掘的价值,实现在教育、经济、交通、医疗等领域的革新,取决于人们对于大数据及其潜在价值功能的认识和态度。也就是说,形成与之相适应的思维方式是驾驭大数据和实现其价值的关键。大数据时代的思维方式离不开大数据的支撑,大数据是大数据时代思维方式出现的源头和赖以生存的基础。从根本上说,大数据时代思维方式是产生于大数据时代、立足于大数据平台之上的新观念体系。 一、大数据及其特性和价值 大数据(Big Data)概念源于最早经历信息爆炸的学科,用于描述目标数据量的规模远远超出了一般电脑处理能力的情形。在众多领域都面对着爆发式数据增长的今天,数据处理技术和工具随之蓬勃发展,大数据则不仅用于描述需要进行批量处理或分析的大量数据集,同时还涵盖了处理数据的速度。美国互联网数据中心将大数据定义为:通过高速捕捉、发现/分析,从大容量数据中获取价值的一种新的技术架构。[1]可以概括为四个英文字母V,即更大的容量(Volume)、更高的多样性(Variety)、更快的生成速度(Velocity)以及由前面三个"V"的组合推动的第四个因素——价值(Value)。 1.大数据的特性 (1)大数据的海量特性。大数据使得许多过去不可获取、计量、存储和分析的信息都有了数据化的可能。在互联网、电信和卫星通信技术的支持下,迅速普及的PC、平板电脑、智能手机以及不断涌现的诸多工具设备正在以数据的形式追踪人们的日常生活,并将这些数据存储在相应的数据库中:通过基于位置的服务(Location Based Service,LBS),移动通信运营商掌握着个人的行踪,同时实时通信信息也在加上时间标记后进行备份;信用卡提供商和在线支付平台记录个人的购物、旅行习惯以及支付能力;社会性网络服务(Social Networking Services,SNS)采集和存储着与用户的社会关系和个人爱好相关的全部言行记录;安装在各大公共机构的摄像头捕捉人们的外形特征、衣着以及出现的时间。大数据的技术手段和理念赋予了人们在更多领域、更多层次获取以往前所未有的信息的机会。 (2)大数据的潜在特性。“大数据”中所谓的“数据”与“数字”具有不同的涵义,[2]一个数字背后的背景数据、评论数据等全方位地定位了该数据的意义。例如,如果一个学生的考试成绩是80分,那么“80”就是一个“数字”的概念,只有将这个得分与其背后蕴含的一系列元数据结合,比如学习能力、学习态度、智力水平、学校质量、家庭环境、社交关系等,才能解读“数据”的真正涵义。在这个大规模生产数据的时代,数据的真实价值就像飘浮在海洋中的冰山,第一眼只能看到冰山的一角,绝大部分冰山都隐藏在海面之下。从前在完成单一目的后,数据就被认为再无用处而遭到搁置或丢弃,如今的数据不再被刻上局限和陈旧的标签:飞机航班的一条条周边信息成就了预测票价的Farecast网站;谷歌翻译的一个个检索指令促成了最大规模的语料库。数据能否被赋予新的价值、实现从数字支撑到数据支撑的顺利转化,理解海量数据的潜在特性是至关重要的。 2.大数据的价值 (1)大数据的预测价值。预测是大数据的核心价值,指的是将数学算法运用到海量的数据上,从而达到对事物发生的可能性进行预估的目的。预测系统之所以受到重视,关键在于它们是建立在海量数据基础之上的,接收和处理的数据量越庞大,系统纠错和自我改善的功能则越发达。日食、洪灾、旱灾等许多过去被认为无法解释的现象,现在都能够被人类理解、描绘、量化和预测。全球天气预报系统在过去五年里对未来3天的天气预测的准确度已经达到了95%,而这一系统采用的预测方法和上世纪初几乎一致。问题不在于方法,而在于科学技术支持下人们所能掌控的数据。当今气象系统依靠的是精密的雷达和卫星地图,地面和高空的温度也会在世界各地的气象站即时更新,不需要到处收集参差不齐的大气情况数据。在大数据时代日趋精密的数字技术条件下,人们的活动、决定、社会关系都能够被记录,对这些电子踪迹的分析为洞悉人类的行为开拓了思路。人类的行为不再被视为互不相关、随意偶然的独立事件,而是相互依存、相互串联的网络集合中的一部分。 (2)大数据的科研价值。在信息获取和信息流通受限的时代,研究人员需要处理数据以解释未知世界的规律,却缺乏用于收集和分析数据的技术工具,当时是使用随机采样的研究方法,目的是用最少的数据获得最多的信息,其本身存在许多固有的缺陷。在云计算等互联网技术高速发展的今天,感应器、手机导航、网站点击产生的大量数据可以被轻易获取,而且计算机也具有高速甚至实时处理这些数据的能力,那些属于工业时代的一系列问题已不再难以解决。大数据时代的技术甚至可能实现所有特定目标数据的收集和处理,即实现“样本”与“总体”的等同。与局限在小范围的数据相比,将大数据应用于研究不仅意味着更高的准确性,也有助于揭示以前无法发现的细节。不论是社会学、心理学、经济学还是教育学,过去都曾非常依赖通过问卷调查法进行样本分析,甚至在无法获得实证数据时纯粹依赖假设、经验去尝试解释未知领域的规律。大数据时代的来临,使得社会科学研究者能够在更多的领域和更深的层次中获得和使用全面而完整的数据,从而改变由演绎到归纳这一思维路径。