3.6.2 增广式提问

增广式提问通过预测模型和大数据,将人数较少的调查数据推广到更多人。

另一种结合调查数据与大数据的方式,我称作「amplified asking」(增广式提问)。在增广式提问中,研究者通过预测模型结合调查数据与大数据,在大范围或细粒度上进行预测。Joshua Blumenstock 的研究是增广式提问的一个重要例子,他想通过数据来指导贫困国家的发展。在过去,研究者收集数据的方式有两种:抽样调查和人口普查。抽样调查中,研究者可以对少量的人进行访谈,它是灵活的、及时的、并且相对便宜。然而,由于这种调查依赖于抽样,所以它得到的结论的「分辨率」有限。也就是说,很难通过抽样调查估对某个特定区域或某些特定的人群进行预测。相反的,人口普查尝试对每个人进行访谈,所以它可以对小范围区域的,或具体特征的人群进行预测。但人口普查通常很昂贵,并且关注点窄(只有数量很少的问题),并且不是及时的(人口普查通常有固定的日程,比如每 10 年一次)(Kish 1979)。与其卡在抽样调查和人口普查之间,想象一下结合两者最好性质的研究方式。想象一下,研究者每天都可以对所有人进行访谈。当然,这种「always-on」的调查有点像社会科学的幻想。但我们可以 开始尝试 通过结合小数量的调查数据与大量的电子轨迹,来接近这个目标。

Blumenstock 的研究,从他与卢旺达最大的手机提供商的合作开始,这个公司为其提供了 2005 至 2009 年间,150 万用户的匿名通信记录。这些记录包括电话与短信信息,例如,通讯开始时间,持续时长,接打电话双方的近似地理位置等等。在我们讨论统计学上的问题之前,需要强调,这第一步获取数据也许对很多研究者来说是最难的。像我在第二章所说的,很多大数据对研究者来说是「inaccessible」(不可访问)的。电话的元数据,尤其难以获取,因为基本不可能将含有通话者具体信息的数据匿名化,这些信息有时候会被认为是敏感信息(Mayer, Mutchler, and Mitchell 2016;Landau 2016。在这个例子中,研究者小心翼翼的保护着他的数据,并且接收着第三方机构(比如他的 IRB)的监管。我会在第六章再详细讨论伦理问题。

Blumenstock 对资产和幸福度的衡量感兴趣。但这些特征在通话记录里并没有直接展现。也就是说,这些通话记录对于研究来说是「incomplete」(不完整的),我们在第二章中讨论过这个大数据常见的特征。然而,通话记录里包含着某些信息,间接的与资产和幸福度有关。因此,Blumenstock 想,是否可以训练一个机器学习模型,用通话记录信息来预测参与者对问卷的回答。如果这个思路可行,那么 Blumenstock 的模型就可以预测这 150 万用户的回答。

为了训练这样以一个模型,Blumenstock 和他来自「Kigali Institude of Science and Technology」的助手们随机抽样了 1000 个用户。研究者向他们介绍项目目的,征得其将调查数据与通话记录连接的同意后,询问他们一系列的问题来衡量他们的资产和幸福度,例如「你有收音机吗?」以及「你有自行车吗?」(部分问题见图 3.14)。所有的参与者都会得到经济补助。

接着,Blumenstock 采用了机器学习中常见的两步法:特征工程,接一个有监督模型。首先,在 特征工程 步骤中,对于所有的受访者,Blumenstock 用通话记录为每个人构建了一组特征。数据科学家将这称作「feature」,社会科学家将这称作「variable」。具体来说,对于每个人,Blumenstock 都计算了其有通话的总天数,联系人的数目,在通话上的花费,等等。需要强调的是,良好的特征工程需要对研究领域有一定的了解。比如,如果将国内通话与国际通话区别开,这对模型会很有帮助,因为我们可能会认为进行国际通话的人会更有钱。如果研究者不了解卢旺达的情况,可能不会将这个特征区别开来,那么他模型的预测效果会十分堪忧。

接着,在 有监督模型 这步中,Blumenstock 构建了一个模型,通过之前构建的特征来预测每个人对问卷的答案。这里例子中,Blumenstock 用的是逻辑回归。但还有很多其他的统计学或机器学习模型供他选择。

那么,这个方法的效果如何?用从通话记录中构建的特征,Blumenstock 是否能预测被试对调查问题的答案?为了评估这个模型的效果,Blumenstock 使用了「cross-validation」(交叉验证),这是个数据科学家常用的,但社会学家很少听过的方法。交叉验证就是在数据的不同子集上训练和测试,来对模型的效果进行相对公平的评估。具体的,Blumenstock 将它的数据以 100 人每组,分成了 10 组。接着,他用其中的 9 组训练这个模型,用剩余的 1 组进行测试。然后他重复了 10 次,每次选择不同的组来进行验证,求一个测试集上的平均准确率。

对于问卷中的某些问题,预测模型的准确度很高(图 3.14)。比如说,Blumenstock 在「你有收音机吗?」这个题目上的准确率有 97.6% 。这听起来让人钦佩,但我们应当这个复杂模型与简单的模型进行比较。在这个例子中,一个作为替代的简单模型是为每个人预测最常见的答案。比如,如果预测所有人对于这个问题的回答都是「我有收音机」,那么对这个问题的准确率有 97.3% ,这与 Blumenstock 的复杂模型 97.6% 的准确率相比差别不大。换句话说,所有这些花哨的数据和模型,将预测的准确率从 97.3% 提升到了 97.6% 。然而,对于一些其他的问题,例如「你有自行车吗?」,模型的准确率从 54.4% 提升到了 67.6% 。图 3.15 给出了更详细的对比,有些问题的准确率提升了很多,有些没怎么提升。也许,看着这些结果,你也许觉得这个方法并没有什么卵用。

图 3.14:用通话数据训练的预测模型的准确率。姐选择 Blumenstock (2014),表 2 。

图 3.15:模型结果与 baseline 模型的比较。为了避免重叠,一些点进行了微小移动。节选自 Blumenstock (2014),表 2 。

然而,仅仅一年之后,Blumenstock 与他的两名同事—— Gabriel Cadamuro 和 Robert On,在 Science 上发表了一篇文章,模型效果得到了很高的提升(Blumenstock, Cadamuro, and On 2015)。效果提升的技术原因主要有两个:(1)他们使用了更复杂的方法,例如新的特征工程方式,以及更复杂的预测模型)和(2)与其预测问卷中每个问题的具体答案,他们尝试与车一个符合的财富指数。这个方法上的提升,意味着他们用这些通话数据可以对受访人的财产情况进行合理的估测。

然而,预测受访者的财产情况并不是他们的终极目标。记得,他们的终极目标是结合抽样调查和人口普查的优势,对发展中国家的贫困状况进行准确的「high-resolution」(高分辨率)的预测。为了达成这个目标,Blumenstock 用这个模型预测了有通话记录的 150 万人的财产情况。然后,将通话记录嵌入在地理位置上(回想这些数据中包含着每次通话时距离最近的信号塔的地理位置)来对某地居民的财产情况进行预测(图 3.17)。将地理信息与预测结合,Blumenstock 与其同事对卢旺达居民的财产情况,在空间分布上进行了极细粒度的预测。具体的说,他们预测了卢旺达当地 2,148 个地方(这个国家最小的行政单位)的平均财富水平。

预测结果与当地真实的贫困水平匹配程度怎么样?在回答这个问题之前,我想强调,这个研究有很多可以质疑的点。比如,在个体层面上进行的预测很杂乱(图 3.17)。并且,也许更重要的,有手机的人也许与没有手机的人存在系统性上的差别。因此,Blumenstock 与其同事们可能面临着与 1936 年「文学文摘」调查相似的覆盖误差的问题。

为了评价他们的估测结果,Blumenstock 与其同事需要和其他的结果进行比较。幸运的是,在相同的时间,刚还有另一组研究者在卢旺达进行传统的社会调查。这另一组研究是广受尊敬的「Demographic and Health Survey」项目的一部分,他们有着很高的预算,并且使用高质量的,传统的方法。因此,「Demographic and Health Survey」的估测结果可以被看作是一个黄金标准。对这两个方式的结果进行比较时发现,他们之间非常接近(图 3.17)。也就是说,通过结合少量的调查数据和通话记录,Blumenstock 与其同事可以得到与黄金标准相匹敌的结果。

怀疑者看到这个结果也许很沮丧。但他们还可以说,Blumenstock 与其同事,通过大数据和机器学习,得到了比现存方法更可靠的估计。然而,我并不认为这是个好的角度。原因有二。首先,Blumenstock 与其同事们的估计比传统方法快 10 倍,并且便宜 50 倍。像我在前面章节说过的,研究者常常忽略他们冒险时的成本。在这个例子中,成本的急剧下降意味着,与其像「Demographic and Health Survey」那样每几年进行一次调查,这种调查可以每个月进行一次,这会对研究者和政策制定者带来巨大的好处。第二个原因是,这个研究提供了一个通用的食谱,可以定制的应用在各种研究课题上。这道菜只有两个原料和两个步骤。原料是(1)大而瘦的大数据资源,比如收集了很多人的相关信息,但缺少你想要的信息。(2)窄而肥的调查数据,比如只对少量的参与者进行的调查,但其中有你需要的数据。接着,在两个步骤中使用这两个原料。第一步,对于同时存在于这两个数据集中的人,建立一个机器学习模型,用大数据来预测他们的调查结果。然而,第二步,用这个模型推测所有在大数据源中的人的调查结果。因此,如果你想问人们很多的问题,去找找与他们相关的大数据资源,也许可以用来估测他们的调查结果,即使你根本不关心这些大数据资源 。也就是说,Blumenstock 与其同事们并不是最开始就关心这些通话记录,他们关心的是调查结果。只是间接的关心起大数据,使得增广式提问与之前提到的互补式提问区别开来。

图 3.16:Blumenstock, Cadamuro, and On (2015) 的研究模式。将来自服务商的用户通话记录转换为矩阵,每行代表一个人,每列对应一个特征。接着,研究者构建一个有监督模型,根据 用户 × 特征 矩阵来预测他们的调查结果。然后,用这个有监督模型来推测所有 150 万用户的调查结果。而且,研究者还根据通话记录中的地理位置信息估计了这些用户的大致居住区。结合估测的财富情况与居住地,他们的结果与传统调查的黄金标准——「Demographic and Health Survey」的结果很相近(图 3.17)。

图 3.17:Blumenstock, Cadamuro, and On(2015) 的结果。在个体层面上,研究人员可以从通话记录对其财富情况进行合理预测。在行政区层级上,他们根据个体水平预估了卢旺达 30 个行政区的财富水平,他们的预测结果与传统调查的黄金标准—— Demographic and Health Survey 很接近。节选自 Blumenstock, Cadamuro, and On (2015),图 1a 和 图 3c。

总的来说,Blumenstock 的增广式提问,通过结合调查数据与大数据,可以得到与调查的黄金标准相匹敌的结果。这个例子还说明了增广式提问与传统调查之间的一些权衡。增光是提问更及时,非常便宜,并且粒度更细。但另一方面,它并没有坚实的理论基础。这一个例子没有说明,这个方法什么时候有用,什么时候没用。使用这个方法时,研究者要尤其注意大数据中的潜在偏差,哪些人在大数据中,哪些人不在大数据中。更进一步的,增广式提问还没有合适的方法来定量衡量其预测结果的不确定性。新运动,增广式提问与领完三个统计学中的领域有深层联系:小范围预测(Rao and Molina 2015,Imputation (Rubin 2004),以及基于模型的事后分层(这与织田提到的 Mr.P 联系很紧)(Little 1993)。由于这些深层的联系,我认为增广式提问的很多方法论很快会得到提升。

最后,通过对比 Blumenstock 第一次与第二次尝试,揭示了数据时代社会学研究的深刻教训:「the beginning is not the end」。就是说,很多时候,第一次尝试可能不是最好的结果,但通过研究者的继续努力,这个结果可以更好。更一般的来讲,当评价数字时代的社会学研究时,应当从两个不同的方面来评估:(1)这个方法现在的效果怎么样?和(2)当数据基础改善,研究者对这个问题投入更多关注度后,这个方法未来的效果会怎样?尽管研究者习惯于进行第一种评估,第二种有时更重要。

Last updated