3.6.1 互补式提问

在互补式提问中,大数据源抱恨这关键的信息,调查数据为其构建缺少的上下文信息。

「enriched asking」(互补式提问)是一种结合调查数据与大数据的方法。在互补式提问中,大数据抱恨这重要的衡量指标,但缺少一些其他的信息,所以研究者通过调查来收益缺少的信息,然和将这两个数据源结合起来。使用互补式提问的一个例子是 Burke and Kraut (2014) 他们研究在 Facebook 上的互动是否会增加他们的亲密感,我在 3.2 节介绍过这个例子。这个研究中,Burke 和 Kraut 将调查数据与 Facebook 的日志数据相结合。

Burke 和 Kraut 的当时是 Facebook 的员工,这意味着他们不需要解决研究者在使用互补式提问时常见的两个大麻烦。首先,将个体层面的数据集链接在一起,这个过程称作「record linkage」(记录链接)。这个过程可能会很困难,如果没有两个数据源中没有唯一的标识符,这样就无法确定一个数据库中的记录正确的匹配了另一个数据库中的记录。第二个主要问题是,由于大数据的特性,研究人员可能无法获取到这些数据,因为很多大数据都是私有的,并且还可能存在这很多我在第二章描述的问题。也就是说,互补式提问常常意味着用容易出错的链接方式,将调查数据与一个黑盒的,质量无法保障的大数据源链接在一起。然而,抛开这些问题不谈,互补式提问可以用在重大的研究课题中,就像下面将介绍的例子,Stephen Ansolabehere 和 Eitan Hersh (2012) 对美国选民投票模式的研究。

选民投票率一直是政治学广泛研究的主题。在过去,研究者通常通过分析调查数据来理解哪些人投了票,以及为什么投票。然而投票在美国是一个不同寻常的行为,政府对每个参与投票的选民都进行了记录。当然,政府没有记录他们投的谁的票。多年来,政府以纸质表格投票记录,并且这些记录散落在各个州的当地政府部门里。这使得研究人员很难,但并不是不可能,来构建选举的全景图,并且对人们在投票调查中所说的与他们实际的投票行为进行比较(Ansolabehere and Hersh 2012)。

但这些投片记录现在都电子化了,有很多私人公司系统性的收集合并了这些数据,生成了复杂的投票主数据「master voting files」,包含了所有美国人的投票行为。Catalist CL 就是一个这样的公司,通过投票主数据来构建更好的选举全景图。Ansolabehere 和 Hersh 是它的合伙人。并且,由于他们的研究使用的是数字数据,并且数据来自于资金充足的公司,这些公司投入了大量资源来收集整理数据。这比先前没有公司帮助的,使用实体记录的工作有了很多的优势。

像在第二章中讨论的很多大数据资源一样,Catalist 的主文件缺少了很多如人口统计学的,态度相关的,行为相关的信息,Ansolabehere 和 Hersh 需要这些信息。他们特别关注于对调查中的投票行为与有效的投票行为(比如 Catalist 数据库中的信息)进行比较。所以 Ansolabehere 和 Hersh 通过 CCES,我在之前的章节中提到过的,这个大型社会调查来收集数据。然后他们将数据给 Catalist,Catalist 再将融合后的数据返回给他们,其中来自 Catalist 的有效投票行为数据,以及来自 CCES 的受访者的人口统计学和态度信息,以及他们在调查中报告的投票行为(图 3.13)。也就是说,Ansolabehere 和 Hersh 将投票纪录与调查数据结合,来进行二者分开始无法进行的实验。

图 3.13:Ansolabehere and Hersh (2012) 的数据模式。威廉建立主数据「master datafile」,Catalist 收集融合了很多不同数据源的信息。信息融合的过程中,无论多仔细,都会继承源数据中存在的误差,并且可能进入新误差。第二个主要误差来源是主数据与调查数据的链接。如果在两个数据源中,每个人都有稳定唯一的标识符,链接是很容易的。然而,Catalist 不得不用有瑕疵的标识符来进行链接,具体的说是用任命,性别,出生日期和家庭住址。不幸的,很多情况下都存在不完整或不准确的信息。比如一个叫 Homer Simpson 的选民,在数据库中也许是 Somer Jay Simpson, Homie J Simpson 甚至是 Homer Sampsin。抛开 Catalist 主数据中的潜在误差以及记录链接的误差,Ansolabehere 和 Hersh 可以用几种不同类型的检查为他们的预测结果建立信心。

通过融合后的数据,Ansolabehere 和 Hersh 得到了三个重要的结论。首先,投票存在猖狂的过度虚报:未投票的人里,有将近一半的人谎称自己进行了投票。并且如果一个人声称他投了票,只有 80% 的概率他真的投票了。第二,投票的过度虚报不是随机的:在那些收入更高,教育水平更好,参与公共事务的人中,过度虚报更常见。换句话说,那些看上最可能进行投票的人,更有可能对他们的投票行为撒谎。第三,也是作中要的,由于存在系统性的投票虚高,那些投票的人和不投票的人之间,实际上的差值要比调查中显现的小。比如说,在调查中,拥有本科学位的人,参与投票的比不投票的人高 22%,而实际上之高出 10% 。这说明,也许并不让人意外的,因为过去的研究者所使用的是调查数据,现存的基于资源的投票理论更适合预测哪些人声称要投票,而不是预测哪些人真的进行了投票。因此,Ansolaberhere and Hersh (2012) 的基于经验的发现,说明我们需要新的理论来解释和预测投票行为。

但是我们多大程度上可以相信这个结果呢?注意,这些结果依赖于用易于产生错误的链接方式,将调查数据与质量未知的黑盒数据进行链接。更具体的说,这些结果依赖于两个关键步骤:(1)Catalist 结合分赛数据源生成准确主数据的能力,以及(2)Catalist 将调查数据与主数据建立链接的能力。每一步都很困难,并且任意一步中出现错误,都会导致研究人员得出错误的结论。然而,然而,数据处理以及记录链接是 Catalist 作为公司继续生存的核心竞争力,所以他们投入了大量的资源来解决这些问题,投入的资源规模是学者无法匹敌的。在论文中,Ansolabehere 和 Hersh 进行了很多检查,来验证这两部的结果。即使数据是私有的,这些检查对于想将调查数据与黑盒大数据源链接的研究者来说还是有帮助的。

从这个研究中,更一般的教训是什么?首先,用大数据来补充调查数据,或是用调查数据补充大数据,两者都存在这巨大的价值。通过结合这两种数据,研究者可以做一些两者独立时无法做到的事。第二点是,尽管是聚合的、商用的数据源,比如来自 Catalist 的数据,都不能当作「真实情况」(ground truth),这些数据上一定程度上有用。怀疑者有时会将聚合的商用数据与绝对真实的理想数据进行比较,来说明这些数据不达标。然而,更公正的方式是将聚合的商用数据与其他的可用数据进行比较,其他的数据依然存在误差。最后一点是,在某些情况下,研究者可以从高投入的私人公司收集、整理的复杂数据中获得优势。

Last updated