2.2 大数据

企业和政府为其他目的创建、收集大数据。因此,使用大数据进行社会学研究,需要重新定位(repurposing)。

数据时代,许多人与社会学研究的首次遭遇战源于所谓的 大数据 。尽管这一术语被广泛使用,但对大数据到底是什么,现在仍没有达成共识。大数据最常见的一种定义是“3V”:Volume,Variety,和Velocity。简单的说,就是体量大,种类广,增速快。一些大数据的粉丝还增加了其他的“V”例如 Veracity 和 Value。相反的一些批判者添加了一些“V”如 Vague 和 Vacuous。以社会学研究为目的,我认为更好的起点是“5W”:Who,What,Where,When以及Why,而不是“3V”(或是“5V”和“7V”)。事实上,我认为大数据资源带来的许多机遇与挑战只由于一个“W”:Why。

在模拟时代,大多数社会学课题使用的数据是以研究为目的而创建的。而数字时代,体量巨大的数据是由企业和政府为了其他目的创建的,例如提供咨询服务,创造利润,以及管理法律。然而,有创造力的人已经意识到,重新定位(repurpose)这些数据,可以用来做社会学研究。回想一下第一章中那个类比,就像Duchamp把普通的物品重新定位(repurpose)来进行艺术创作一样,科学家们现在也能用已有数据来进行富有创造性的研究。

毫无疑问,重新定位(repurpose)蕴藏着巨大的机遇,但使用这些不是以研究为目的而收集的数据,同样会遇到很多新的挑战。举个对比的例子:社交媒体如Twitter,与传统的公众意见调查如General Social Survey。Twitter的主要目标是为用户提供服务和创造经济利润。另一方面,General Social Survey关注于为社会研究收集通用数据(general-purpose data)。Twitter的运营规模与增长速度是General Social Survey无法比拟的。但是与General Social Survey不同, Twitter没有对用户进行细致的抽样,也没有尽力维护数据长时间维度上的可比较性(comparability)。由于这两个数据源相差甚远,说General Social Survey比Twitter并不合理,反之亦然。如果你希望监测地球人每小时的情绪变化(如Golder and Macy(2011)),Twitter是最适合的。另一方面,如果你希望了解美国公民两极分化的社会倾向在长时间维度上的变化,那么Genneral Social Survey是最好的选择。通俗的说,与其尝试证明大数据资源比其他资源更好用或更糟糕,本章将尝试弄清大数据资源中意哪些研究课题,而对哪些问题就不那么感冒。(大数据资源对哪些课题有吸引人的特性,对哪些课题就不太理想。)

提到大数据资源时,很多研究者立刻想到由大公司收集的线上数据,如搜索引擎的日志和社交媒体上的推文。然而,这个狭窄的关注点遗漏了另外两个重要的大数据源。首先,越来越多的企业大数据来源于现实生活中的数字设备。例如,在本章中,我将向你介绍一个重新定位(repurpose)超市出勤记录的课题,研究员工的生产力是如何受到其同事生产力的影响(Mas and Moretti 2009)。接着,在后面的章节,我会介绍一些使用通话记录(Blumenstock, Cadamuro, and On 2015)和使用电力公司的账单记录(Allcott 2015)的研究者。

另一个被遗漏的重要资源是政府收集的数据。这些政府的数据,研究者们称作 政府监管记录(government administrative records),包括税收记录,学校数据以及关键统计数据(如出生和死亡登记)。政府收集某些领域的数据已经持续了几百年,社会学家也一直在探索这些数据。与时俱进的,数字化极大的方便了政府收集,传输,存储和分析数据。例如,在本章中,我将告诉你一个重新定位(repurpose)纽约政府的出租车行车记录的课题,探究劳动经济学的一个基本问题(Farber 2015)。接着,在后面的章节,我会介绍政府收集的投票记录是如何用在调查(Ansolabehere and Hersh 2012)和实验(Bond et al. 2012)中的。

我认为重新定位(repurpose)的想法是利用大数据资源的基础。因此,在更详细的讨论大数据资源的特性(2.3节)和如何在研究中使用大数据(2.4节)之前,我想先给出两个关于重新定位(repurpose)的一般性建议。首先,很容易想到在“发现的”数据和“设计的”数据之间建立对比。这很接近,但不完全正确。从研究者的角度看,即使大数据是“发现”的,但它并不是从天上掉下来的。相反,被研究者“发现”的数据是由某些人设计的。我经常建议人们,去尽可能的了解产生数据的人和业务逻辑。其次,当你重新定位(repurpose)数据时,用一个假想的理想数据集与你正在使用的数据集进行比较,通常很有帮助。如果你不是亲自收集数据,你想要的和你找到的数据之间很可能有重要的区别。发现这些区别有助于弄清你能用这些数据做什么,不能做什么。同时这会指导你应该再收集些什么新数据。

根据我的经验,社会学家和数据科学家倾向于用非常不同的方式来重新定位(repurpose)。社会学家习惯于使用为研究而收集的数据,通常来说会迅速的指出重定位数据(repurposed data)的问题而忽视它的优势。另一方面,数据科学家通常会快速指出重定位(repurposed data)数据的优势而忽视它的不足。当然,最好的方法是混合(hybrid)。就是说,研究者需要理解大数据资源的特性——优点和缺点——然后想出如何使用它。下面是本章剩余部分的计划。下一节中,我会介绍大数据资源的10个常见特征。然后在剩下的部分里,我会介绍三个适用于这种数据的研究策略。

Last updated