2.3.5 Inaccessible

研究者通常很难获得政府和公司所拥有的数据。

2014年,美国国家安全局(US National Security Agency)在犹他州(Utah)的乡村建立了一个数据中心。它有一个拗口的名字,情报体系综合性国家计算机安全计划数据中心(Intelligence Community Comprehensive National Cybersecurity Initiative Data Center)。这个数据中心还被称为犹他数据中心。据报道,它拥有惊人的数据量。Bamford(2012)称,它能够存储和计算所有的通信信息,包括「完整的私人邮件,通话记录,搜索记录,以及各种轨迹记录——停车收据,旅行路线,购书记录,以及其他的数字『pocket litter』」。除了下面要讨论的大数据敏感性,犹他数据中心是个研究者无法获取的数据富集源的极端例子。更一般的,很多有用的数据源都被政府控制和保密(例如税收记录和教育记录)或企业掌控(搜索引擎的查询记录和通话记录)。因为大数据的不可获性,即使有各种大数据源,对社会学研究并没有什么帮助。

在我经验中,很多大学的研究者误解了数据不可获取的原因。并不是因为政府或企业的人都很愚蠢,怠惰或心不在焉。而是因为有一系列的法律,企业规定,或道德壁垒阻止了数据的共享。例如,一些网站的服务条款规定只有可以员工使用这些数据,或这些数据只能用来提升服务质量。因此,某些形式的数据共享可能会使企业面临来自用户的法律诉讼。同时,企业对数据的共享还面临着巨大的商业风险。想象一下,如果从大学的研究项目里不小心泄露出了个人的Google搜索记录,公众会如何反应?像这样的数据泄露,极端情况下可能会导致公司破产。所以Google以及大多数企业,非常不愿承担于研究者分享数据的风险。

事实上,几乎所有有权获取大量数据的人都知道 Abdur Chowdhury的故事。2006年时,他正是AOL的研究主管。在匿名化处理后,他特意向研究者社区发布了 650,000 个 AOL 用户的搜索记录。据我所知,Chowdhury 和 AOL 的研究员们初衷是好的。同时,他们也认为他们已经对数据进行了匿名化处理。但是他们错了。人们很快发现,这些数据并不像研究者所想的那样匿名,来自 纽约时报(New York Times) 的记者可以很轻松的识别出数据中的某个人。在发现这个问题后,Chowdhury立即将数据从AOL的网站删除了,但已为时过晚。数据又被其他人重新发布在了别的网站上,也许当你阅读本书的时候,依然可以找到这些数据。Chowdhury 被炒了,AOL 的 CTO 也辞职了(Hafner 2006)。如这个例子所示,对于公司内部的特定个人来说,促进数据共享的好处非常小,而最坏情况却会很惨。

然而,研究者们有时可以获取公众无法接触的数据。政府有一些流程,研究者可以按流程申请访问数据。在本章后面的例子中,研究者可以不定期的接触到公司的数据。例如,Einav et al.(2015)与一个eBay的研究员合作,研究线上拍卖。这个例子在后面的章节会详细介绍。这里提到它是因为它有全部4个成功合作的要素:研究者的利益,研究者的能力,公司的利益,以及公司的能力。我看到很多潜在合作失败了,就是因为缺少其中的某个要素。

然而,即使与公司建立了合作关系,或者可以获取政府的保密数据,这同样有一些负面影响。首先,你很可能无法与其他研究者分享你的数据,这意味着其他人无法验证或推广你的研究成果。第二,你能够研究的问题会受到限制;公司们大多不想让人们看到它不好的一面。最后,合作伙伴至少可以制造表面的利益冲突,这回事人们决定你的实验结果受到了合作伙伴的影响。所有这些负面影响都可以消除,但意识到使用非公开数据有好处也有坏处是很重要的。

总的来说,研究者不能接触到的大数据有很多。有一系列的法律,企业规定,或道德壁垒阻止了数据共享。同时,因为它并不是技术壁垒,这些阻碍并不会随着科技的发展而消失。有些政府部门会为一些数据集建立访问手续,但这些流程在州或地方级别上非常特殊。还有,在某些情况,研究者可以与公司合作来获取数据,但这同时会为研究者和公司带来各种麻烦。

Last updated