2.3.5 Inaccessible

研究者通常很难获得政府和公司所拥有的数据。

2014年，美国国家安全局（US National Security Agency）在犹他州（Utah）的乡村建立了一个数据中心。它有一个拗口的名字，情报体系综合性国家计算机安全计划数据中心（Intelligence Community Comprehensive National Cybersecurity Initiative Data Center）。这个数据中心还被称为犹他数据中心。据报道，它拥有惊人的数据量。Bamford(2012)称，它能够存储和计算所有的通信信息，包括「完整的私人邮件，通话记录，搜索记录，以及各种轨迹记录——停车收据，旅行路线，购书记录，以及其他的数字『pocket litter』」。除了下面要讨论的大数据敏感性，犹他数据中心是个研究者无法获取的数据富集源的极端例子。更一般的，很多有用的数据源都被政府控制和保密（例如税收记录和教育记录）或企业掌控（搜索引擎的查询记录和通话记录）。因为大数据的不可获性，即使有各种大数据源，对社会学研究并没有什么帮助。

在我经验中，很多大学的研究者误解了数据不可获取的原因。并不是因为政府或企业的人都很愚蠢，怠惰或心不在焉。而是因为有一系列的法律，企业规定，或道德壁垒阻止了数据的共享。例如，一些网站的服务条款规定只有可以员工使用这些数据，或这些数据只能用来提升服务质量。因此，某些形式的数据共享可能会使企业面临来自用户的法律诉讼。同时，企业对数据的共享还面临着巨大的商业风险。想象一下，如果从大学的研究项目里不小心泄露出了个人的Google搜索记录，公众会如何反应？像这样的数据泄露，极端情况下可能会导致公司破产。所以Google以及大多数企业，非常不愿承担于研究者分享数据的风险。

事实上，几乎所有有权获取大量数据的人都知道 Abdur Chowdhury的故事。2006年时，他正是AOL的研究主管。在匿名化处理后，他特意向研究者社区发布了 650，000 个 AOL 用户的搜索记录。据我所知，Chowdhury 和 AOL 的研究员们初衷是好的。同时，他们也认为他们已经对数据进行了匿名化处理。但是他们错了。人们很快发现，这些数据并不像研究者所想的那样匿名，来自 纽约时报（New York Times） 的记者可以很轻松的识别出数据中的某个人。在发现这个问题后，Chowdhury立即将数据从AOL的网站删除了，但已为时过晚。数据又被其他人重新发布在了别的网站上，也许当你阅读本书的时候，依然可以找到这些数据。Chowdhury 被炒了，AOL 的 CTO 也辞职了（Hafner 2006）。如这个例子所示，对于公司内部的特定个人来说，促进数据共享的好处非常小，而最坏情况却会很惨。

然而，研究者们有时可以获取公众无法接触的数据。政府有一些流程，研究者可以按流程申请访问数据。在本章后面的例子中，研究者可以不定期的接触到公司的数据。例如，Einav et al.(2015)与一个eBay的研究员合作，研究线上拍卖。这个例子在后面的章节会详细介绍。这里提到它是因为它有全部4个成功合作的要素：研究者的利益，研究者的能力，公司的利益，以及公司的能力。我看到很多潜在合作失败了，就是因为缺少其中的某个要素。

然而，即使与公司建立了合作关系，或者可以获取政府的保密数据，这同样有一些负面影响。首先，你很可能无法与其他研究者分享你的数据，这意味着其他人无法验证或推广你的研究成果。第二，你能够研究的问题会受到限制；公司们大多不想让人们看到它不好的一面。最后，合作伙伴至少可以制造表面的利益冲突，这回事人们决定你的实验结果受到了合作伙伴的影响。所有这些负面影响都可以消除，但意识到使用非公开数据有好处也有坏处是很重要的。

总的来说，研究者不能接触到的大数据有很多。有一系列的法律，企业规定，或道德壁垒阻止了数据共享。同时，因为它并不是技术壁垒，这些阻碍并不会随着科技的发展而消失。有些政府部门会为一些数据集建立访问手续，但这些流程在州或地方级别上非常特殊。还有，在某些情况，研究者可以与公司合作来获取数据，但这同时会为研究者和公司带来各种麻烦。

Previous2.3.4 Incomplete Next2.3.6 Nonrepresentative

Last updated 7 years ago