(续前篇 · 之四:《大数据的三重属性与学科分工》)
大数据的三重属性决定了基于大数据的社会研究需要信息技术、统计分析和社会思想3种力量,从而需要计算机、统计学和社会学3个学科的紧密合作。然而,当前大数据社会研究的主要障碍,正在于这3个学科之间的合作比较困难。事实上,在以前的小数据时代,这3个学科曾经有过很好的合作。但大数据迥异于小数据的特征,使得原来的合作方式难以为继,而新的合作方式又一时难以建立。造成这种局面的原因,可以概括为两个方面:一是技术或曰生产力方面的,即每个学科在大数据时代都面临新的困境,难以充分满足彼此的要求;二是体制或曰生产关系方面的,即正是在这种情况下,不同学科之间的关系需要加紧调整和磨合,但由于学科属性、学科建制和市场选择等原因,调整和磨合的过程很艰难。
■ 小数据时代的三学科合作
在历史上,计算机、统计学和社会学这3个学科一直有合作。相对来说,社会学与统计学的合作更紧密,社会学借助新的统计技术和模型得以迅速发展,而社会学问题的挑战也是推动统计学不断发展的重要动力。两个学科的紧密结合,使社会统计学成为一门独立的课程和研究领域。而计算机技术也为社会统计学的形成和发展贡献良多,社会统计的软件化和SPSS、SAS、STATA等著名统计软件的推出,更是使社会统计作为一种理论和方法前所未有的繁荣。然而,大数据的出现对每个学科及其相互关系都提出了挑战。
■ 大数据对三学科合作的挑战
首先,对社会学来说,以前虽然也在不断地收集和分析数据,但数据爬梳的任务很少。 即使有,也主要是清除其中的噪音(比如数据中的作伪和逻辑矛盾)。而且由于这些数据都是根据一定研究设计而收集的,量小、集中、形态稳定并且结构化,因此,即使噪音的清除,也可以用标准化、模块化的统计软件进行,社会学家只要在既有的统计软件平台上编程即可实现。而到了大数据时代,数据的基本特征是海量而且价值密度低,更严重的是多源、多变、异构、杂乱,数据爬梳的重点也随之从噪音的清除转向了数据的识别(抽取)和结构化。也就是说,大数据是高度非标准化、非结构化的,标准化、模块化的统计软件显然不能胜任。由于大数据的上述特征,甚至连噪音的清除也难以通过统计软件完成。
统计软件是标准化、模块化的,相对来说易学、易用,社会学家经过努力还能够掌握和运用。而现在大数据的处理,常常要求根据研究对象的特征从头构造或调整算法甚至处理系统,这就超出了一般社会学家的能力。社会学家即使努力为之,也不符合效率原则。总之,大数据使社会学对计算机科学的依赖程度大大加深。
在大数据出现之前,社会学也有通过编码把定性数据转变成可用于统计分析的计量数据的做法。这个工作在基本原理上与大数据爬梳相似,即反复聚类。其工作过程大致如下:初步理论构想è通览原始资料è初步分类并编码è通览分类结果è调整理论构想è再读原始资料è调整分类并编码è……如此循环往复,直到分类和编码达到理论要求为止。这样一个工作过程,现在虽然有Nvivo等软件的帮助而省力很多,但仍然无法应付大数据。除了大数据本身规模巨大、结构复杂等原因之外,更重要的是,以往分类和编码的对象是确定的,而大数据的一个重要特征是频繁变动,这意味着前后两次分类所面对的对象很可能不同(比如试图对网络公知进行分类,前后两天抓取的网络公知在人数和构成上很可能不同),从而使前一次分类对后续的分类调整失去参考意义,通过反复聚类实现合理分类编码的期望随之落空。要适应大数据多变的特征,必须依赖计算机技术。
然而,可能让社会学失望的是,计算机对大数据的处理也不是手到擒来。其挑战主要在3个方面:一是数据本身的复杂性,即数据的类型和模式多样、关联关系繁杂、质量良莠不齐,使得数据的感知、表达、理解和计算等多个环节都面临不少难题;二是计算的复杂性,即大数据多源、异构、量大、多变等特征使传统的机器学习、信息检索、数据挖掘等计算方法不能有效支持大数据的处理、分析和计算;三是系统的复杂性,目前的计算硬件和软件系统在系统架构、计算框架和处理方法上都还难以满足大数据处理的需要。由于这些原因,目前计算机科学在数据爬梳技术的精度、效率、成本和易用性等方面,都难以满足社会研究的需要。当然,除了这些技术限制之外,还有伦理、法律等方面的限制。
其次,在社会学更加依赖计算机的同时,计算机科学也更加依赖社会学。 原因在于,计算机科学虽然在信息处理方面技术非常强悍,但与以往不同的是,大数据是人类社会活动的产物,具有强烈而且不断变动的社会属性。离开对这些社会属性的理解,再好的算法和系统都不知道派什么用场,怎么派用场。如前所述,一些计算机学者凭着对社会的直觉也可能做出不错的大数据研究,但这并非长久之计。就此而言,计算机科学对社会学的依赖也在加深。然而,社会学的思想和理论通常比较晦涩、飘忽,让计算机学者难以在这些思想理论与计算机的工作对象之间建立起映射关系。社会学如何将抽象的思想和理论变成计算机学者可以理解、可以操作的任务,还有很长的路要走。
第三,数据爬梳也需要统计学的介入,但统计学面对大数据同样有自己的难题。 数据爬梳并不是一个纯粹的技术过程,而是一个数据与思想反复碰撞的过程。在此过程中,需要不断对爬梳出来的数据进行统计分析,然后相应调整理论方案或技术路线。大数据再大,终归也是一种数据,必然适用统计学。统计学对数据爬梳也很重要。然而,传统统计学是基于小数据时代的条件而发展起来,无论理论还是方法都是以样本为基础展开的。但在大数据时代,数据的属性发生了很多变化,从而对统计学的传统理论和方法构成严峻挑战。比如,大数据中不同个案的发生经常不是独立随机事件,而是相互之间存在着强烈的正反馈或负反馈(典型表现是围绕特定事件而展开的公共讨论);大数据独特的分布特征(比如重尾分布)会导致方差、标准差等标准方法变得无效,分布理论、大数定律和中心极限定理的应用也会受到限制[5]。如此等等。
总而言之,大数据对3个学科既有的研究范式都提出了新的挑战。这些挑战,使它们一方面更加相互依赖,但另一方面也使它们比以前更加难以满足彼此的需要,以致难以走到一起,或者不欢而散。这就更需要3个学科求同化异,以更大的耐心和毅力推进合作。
■ 问题不在人品
但不幸的是,合作的推进又面临学科属性、学科建制和学术市场等方面的障碍。
首先,因学科属性不同,3个学科在研究活动的组织方式上存在重大差别,从而影响相互之间的合作。 在3个学科中,相对而言,计算机学科的研究活动具有更强的工程性质。这表现在,它可以将研究目标分解为若干边界比较清晰的任务,然后交由不同的研究人员和组织去实施,实现分进合击。相应地,其研究活动通常采用团队作战的实验室体制。同样由于其活动的工程性质,计算机学科的研究进度相对可控制、可预测。而统计学,尤其是社会学的研究活动则具有鲜明的思想属性。思想工作是很难分解的,难以想像让甲思考A部分,乙思考B部分,然后组合起来,就形成一个思想了。因此社会研究常常以个体的形式进行,很难采取团队作战的方式。与此同时,即使个人的思考,也比较依赖灵感,进度很难控制和预测。学科属性的差异给学科之间的合作造成一定困难。
举例言之。社会学家经常在拿到数据后一时在理论上没有思路,于是陷入沉思,很长时间没有下文。也许突然有一天,理论灵感来了,他就急不可耐地想探测一下数据,看看新的思路是否可行,如果不可行又该如何调整。如此反复。正因为如此,社会学家的研究工作常常显得大起大落,节奏很不稳定。这虽然是社会学研究活动的固有特征,但确实让其他学科很难配合,甚至引起一些误解,认为社会学家“不靠谱”。
其次,还有学科建制上的障碍。 按当前体制,这3个学科往往分属不同的研究单位。组织归属不同,科研议程的设置、资源的配备、绩效的考核也就不同。在以前,学科之间在建制上的分割并不构成学科合作的严重障碍。因为在那个时候,学科之间的结合通常是知识的结合,而不需要组织建制的结合;只要有那么一两个学术精英善于结合不同学科的知识,创造出若干标准化的知识模板或研究范式,其他学者只管遵循和借鉴就可以了。在此过程中,学科之间主要是在知识上打交道,无需在组织和人员上打交道,即使打交道,也无需很多。现在则不然。大数据的基本特征恰恰是高度复杂,亦即高度非标准化。这一方面意味着,学科合作已经难以通过标准化的知识模板进行,而常常需要围绕特定问题“一事一议”地、面对面地碰撞和交流,从而需要把学科合作从知识层面延伸到组织和人事层面;另一方面也意味着,学科合作涉及的知识越来越多,越来越细,越来越复杂,相应地,标准化的知识模板也越来越难以形成。这样,怎样打破学科壁垒,如何通过组织和人员的融合来实现学科之间的融合,就成为一个重大问题,目前还没有找到有效的破解之道。
最后是市场选择。 在大数据开发的两种取向中,社会研究更偏于科学取向,产品质量要求高,生产周期长,生产成本高,短期内却难以见到效益,自然在市场上不讨喜,因而在研究资源的获取上受到很大限制。而3个学科中的统计学,特别是计算机科学,其工作更容易被市场接受,更容易走应用路线。这样一种局面,对3个学科能否亲密合作,把一场注定艰辛的“爱情长跑”坚持到底是一个严峻的考验。从目前来看,形势并不乐观。
本文节选自冯仕政:《大数据时代的社会治理与社会研究:现状、问题与前景》,《大数据》2016年第2期。其他部分陆续刊发。
长按下图并点击“ 识别图中二维码 ”即可关注中国中文信息学会社会媒体处理专业委员会微信公众号:“ 社媒派SMP ”