扩展阅读

  • 简介(2.1节)

这章中没有包含的一种观察型研究是 民族志 (ethnography)。更多数字时代的民族志研究,见 Boellstorff et al. (2012)。结合数字方法与现实世界的民族志研究,见 Lane (2016)

  • 大数据(2.2节)

「Big Date」还没有一个统一的定义,但很多定义强调“3V”:Volume,Variety,和Velocity (如:Japec et al. (2015))。简单的说,就是体量大,种类广,增速快。对大数据定义的回顾,见 De Mauro et al. (2015)

我将政府管理的数据也分在大数据里,这有些不常见,尽管 Legewie (2015)Connelly et al. (2016),以及 Einav and Levin (2014) 也这么做了。对政府管理的数据在研究中的价值,更多内容见 Card et al. (2010)Adminstrative Data Taskforce (2012),以及 Grusky, Smeeding, and Snipp (2015)

有关使用政府统计机构数据的研究,比如 美国人口调查局,见 Jarmin and O'Hara (2016)。使用 瑞典统计局 数据的研究,见 Wallgren and Wallgren (2007)

  • 大数据的常见特性(2.3节)

我所总结的十个特性,有很多其他的作者,有各种不同点角度来描述。对我的理解产生影响的有 Lazer et al. (2009)Groves (2011)Howison, Wiggins, and Crowston (2011)boyd and Crawford (2012)S.J. Taylor (2013)Mayer-Schönberger, Viktor, and Kenneth Cukier (2013)Golder and Macy (2014)Ruths and Pfeffer (2014)Tufekci (2014)Sampson and Small (2015)K. Lewis (2015b)Lazer (2015)Horton and Tambe (2015)Japec et al. (2015)Goldstone and Lupyan (2016)

在本节中,我使用了我认为更中立的术语 数字轨迹「digital traces」。另一个常用的术语叫 数字脚印「digital fingerprints」Golder and Macy 2014。但就像 Hal Abelson, Ken Ledeen, 和 Harry Lewis (2008) 所说的,更合适的叫法应当是 数字指纹 「digital fingerprints」。当你谈到脚印时,你意识到自己留下了脚印,但一般来说不能很难通过脚印追溯到你。但与 数字轨迹 的特性并不相符。事实上,在你还没有意识到的时候,你无时无刻不在留下自己的 数字轨迹 ,并且这都可以追溯到你身上。也就是说,数字轨迹 与 指纹的特性更相似,无处不在,而且可以鉴定身份。

  • Big (2.3.1节)

为何使用大数据集时,在统计性检验上会有各种问题,更多介绍见:M. Lin, Lucas, and Shmueli (2013)McFarland and McFarland (2015)。这个问题表面,研究者应更关注实际意义而不是统计显著性。

Raj Chetty 与他的同事们是如何获取到税收记录的?更多信息见:Mervis (2014)

大数据对计算力的需求更多,通常需要不止一台电脑。因此,研究者常常将计算任务分配在多个电脑上。这涉及到一个称为:「并行程序设计」(parallel programming) 的处理方法。更多对并行程序设计的介绍,特别是使用 Hadoop 程序语言的介绍,见 Vo and Silvia (2016)

  • Always-on (2.3.2节)

当考虑到实时数据时,一个很重要的问题是,你所观测的是同一群人,还是在比较不同的人群,见 Diaz et al. (2016) 的例子。

  • Nonreactive (2.3.3节)

有关「Nonreactive Measures」的经典书籍是 Webb et al. (1966)。书中的例子发生在数字时代之前,但依然有启发性。有关人们在大规模监控下中的行为变化,见 Penney (2016)Brayne (2014)

与「反应」紧密相关的研究有「demand effects」((Orne 1962)[https://doi.org/10.1037/h0043424]; (Zizzo 2010)[https://doi.org/10.1007/s10683-009-9230-z]),以及「Hawthorne effect」((Adair 1984)[https://doi.org/10.1037/0021-9010.69.2.334]; (Levitt and List 2011)[https://doi.org/10.1257/app.3.1.224])。

  • Incomplete (2.3.4节)

更多对「Record Linkage」记录链接的介绍,见 Dunn (1946),传统方式见:Fellegi and Sunter (1969),现代方式见:Larsen and Winkler (2014)。在计算机科学下的很多课题下,如数据去重,实体识别,命名匹配,重复检测以及重复记录检测「data deduplication, instance identification, name matching, duplicate detection, and duplicate record dtection」(Elmagarmind, Ipeirotis, and Verykios 2007),也发展出了相似的的方法。还有些不需要与个人身份信息链接,从而保护隐私的记录链接方式 (Schenell 2013)。Facebook 同样也开发了一些将他们的信息与投票记录链接的方式,我会在第四章中介绍 (Bone et al. 2012; Jones et al. 2013)。

更对有关「construct validity」结构效度的介绍,见 Shadish, Cook, and Campbell (2001) 的第三章。

  • Inaccessible (2.3.5节)

有关 AOL 搜索记录事件的更多介绍,见 Ohm (2010)。在第四章中,我给出了些有关与企业、政府合作的建议。有很多研究者对于使用不可接触的数据有些担心,见 Huberman (2012)boyd and Crawford (2012)

对于在大学里的研究者来说,一个接触数据的好方法是去公司中实习或做访问学者。这种方法不但提供了接触数据的机会,还可以帮助学制了解这些数据是如何创建的,这对研究来说很有帮助。

有关获取政府数据的研究,Mervis (2014) 介绍了 Raj Chetty 他们是如何获取到税收记录并用在他们关于社会流动的研究中。

  • Non-representative (2.3.6节)

研究史上对「representativeness」的介绍,参见 Kruskal and Mosteller (1979a)Kruskal and Mosteller (1979b),和 Kruskal and Mosteller (1980)

我对 Snow 的工作以及 Doll and Hill 的工作总结很简略。更多有关 Snow 对霍乱的研究,参见 Freedman (1991)。更多对英国医生的研究,参见 Doll et al. (2004)Keating (2014)

对 Doll and Hill 的工作,很多研究人员都感到出乎意料。Doll and Hill 最初收集了女医生以及年龄小于 35 岁的医生的数据,但他们在首次分析中就故意没有使用这些数据。他们认为:「因为肺癌在女性以及年龄低于 35 岁的男性中很罕见,从这些组内的数据中不太可能得出有用的数据。因此,在初步准备的报告中,只使用了年龄高于 35 岁的男性。」Rothman, Gallacher, and Hatch (2013) 在一篇名为「Why representativeness should be avoided」的文章中,以更一般的方式讨论了非代表数据在建立对问题建立初步认识时的价值。

对于那些想描述全体人群情况的研究者和政府人员来说,非代表性是一个很重要的问题。对于公司来说,通常直挂您与他们的用户,因此并不关系非代表性。对于使用企业大数据时,在非代表性上的讨论,见 Statistics Netherlands Buelens et al. (2014)

一些研究员认为非代表性是大数据的一个本质问题,对于这方面的讨论,见 boyd and Crawford (2012)K. Lewis (2015b),以及 Hargittai (2015)

对于社会调查的目标与流行病学的研究目标之间的比较,见 Keiding and Louis (2016)

对于一些使用 Twitter 进行样本外泛化「make out-of-sample generalizations」的例子,比如 2009 年德国选举, 见 Jungherr (2013)Jungherr (2015)。一些后续工作如 Tumasjan et al. (2010),对提到政党的推文进行请看分析,来区分出积极与消极的评价,这样来用 Twitter 的数据对不同类型的选举进行预测 (Gayo-Avello 2013; Jungheer 2015, chap.7.)。下面是 Huberty (2015) 对选举预测结果的总结:

「所有基于社交媒体的预测方法,在面对真正前瞻性的需求——选举预测时都失败了。这大致是由于社交媒体基础性的特性缺陷,而不是方法的或算法的问题。简单来说,社交媒体不能,大致永远也不会,为选举提供稳定的,无偏差的代表性样本;并且从社交媒体上简便的采样,缺少充足的数据在事后弥补这个问题。」

“All known forecasting methods based on social media have failed when subjected to the demands of true forward-looking electoral forecasting. These failures appear to be due to fundamental properties of social media, rather than to methodological or algorithmic difficulties. In short, social media do not, and probably never will, offer a stable, unbiased, representative picture of the electorate; and convenience samples of social media lack sufficient data to fix these problems post hoc.”

在第三章,我们将更详细的讨论抽样以及估测。在一定条件下,即使数据没有可代表性,也可以对其加权,来得到一些良好的估计。

  • Drifting (2.3.7节)

从外部很难观测系统的变化。然而,第四章中讲介绍的 MovieLens 项目,已经被学术研究小组运行了超过 15 年。因此,有很多文档以及共享信息,可以描述系统随时间的动态演变,以及这些变化对数据分析带来的影响 Harper and Konstan 2015

Liu, Kliman-Silver, and Mislove (2014)Tufekci (2014),关注于 Twitter 的变动。

一种描述人群变化的方式是建立描述用户的仪表盘,这使得研究者可以在长时间上研究相同的用户,参见 Diaz et al. (2016)

  • Algorithmically confounded (2.3.8节)

我第一次听到「algorithmically confounded」是在 Jon Kleinberg 的一次演讲里,但很遗憾我记不清是哪次演讲了。我第一次在文章中看到这个术语是在 Anderson et al. (2015),这是篇有趣的文章,讨论了约会网站上使用的算法,如何使得研究者在使用这些网站上的数据进行社会现象研究使带来困难。对于这种问题的谈到来自于 K. Lewis (2015a),作为对 Anderson et al. (2014) 的回应。

除了 Facebook, Twitter 在推荐算法中同样使用了 三元闭包 的思想,见 Su, Sharma, and Goel (2016)

一种观点是,社会学理论「是引擎而不是相机」,也就是说社会学理论塑造了世界,而不仅仅是描述世界。更多与之相关的介绍,参见 Mackenzie (2008)

  • Dirty (2.3.9节)

政府的统计部门把数据清晰叫做「statistical data editing」。De Waal, Puts, and Dass (2014) 介绍了在调查数据中 statistical data editing 的技术,并将其扩展到大数据场景下。Puts, Dass, and Waal (2015) 用更通俗的语言介绍了相同的思想。

关于 Social bot 的概述,参见 Ferrara et al. (2016)。一些关注于侦测 Twitter 上的垃圾推文的研究,参见 Clark et al. (2016)Chu et al. (2012)

  • Sensitive (2.3.10节)

Ohm (2015) 回顾了有关使用并感谢信息的早期研究,并地提出了一个多因子检测。他提出了四个检测因子,分别是损害的量级,产生损害的可能性,是否会公开保密关系,以及风险是否反应了多数人的担忧。

  • Counting things (2.4.1节)

Camerer et al. (1997) 使用了三种不同的常见纸质记录表,研究了纽约市出租车司机的行为。Farber 的研究是在这个早期研究的基础上进行的。Camerer 的研究表明,司机似乎有明确的收入目标:他们在每小时工资高的天里,工作的时间会更少。

在后续工作中,King 他们更深入的探索了中国的网上审查制度 (King, Pan and Roberts 2014,[@king_how_2016])。中国的线上审查相关的工作,见 Bamman, O'Connor, and Smith (2012)。更多统计工具相关的介绍,比如 King, Pan, and Roberts (2013) 对 1,100 万推文进行情感分析时用到的方法,参见 Hopkins and King (2010)。更多关于监督式学习的,通俗的介绍参见 James et al. (2013),更学术的介绍参见 Hastie, Tibshirani, and Friedman (2009)

  • Forecasting and nowcasting (2.4.2节)

预测是工业数据科学中很重要的一部分 (Mayer-Schönberger, Viktor, and Kenneth Cukier. 2013; Provost and Fawcett 2013)。社会学研究者常做的人口预测,见 Raftery et al. (2012)

谷歌流感指数不是第一个使用搜索记录来对流感的流行度进行即时预测的项目。事实上,美国的研究者们 (Polgreen et al. 2008; Ginsberg et al. 2009) 和瑞典的研究者们 (Hulth, Rydevik, and Linde 2009) 以及发现一些特定的搜索词,如「flu」,可以在国家公共卫生调查数据发布之前,来预测调查结果。在后续的很多工作中,很多项目都在疾病监控中使用了数字轨迹数据;相关的回顾,参见 Althouse et al. (2015)

除了使用数字轨迹数据来预测健康监控结果的,还有很多使用 Twitter 数据来预测选举结果的工作,相关工作的回顾,参见 Gayo-Avello (2011)Gayo-Avello (2013)Jungherr (2015) 的第七章,以及 Huberty (2015)。对经济指数,例如国民生产总值 (GDP)的即时预测,在中央银行中也很常见,相关介绍参见 Bańbura et al. (2013)。表 2.8 列举了一些使用数字轨迹记录来预测某些事件的研究。

表 2.8 : 使用大数据进行预测的一些研究

数据来源

预测的内容

文献引索

Twitter

美国电影的票房收入

搜索记录

美国电影,音乐,书籍以及电子游戏的销量

Twitter

社交媒体和搜索记录

预测投资者的情绪以及美英中国的股市

搜索记录

登革热在新加坡与曼谷的流行情况

最后,Jon Kleinberg 他们 (2015) 指出,预测出现的问题都可以归为两类,这两类之间的差别很小,并且社会学常常关注一个而忽略了另一个。假想有个决策者,我们就叫她 Anna 吧,她挣面临着干旱,并且必须决定什么时候来雇佣萨满来跳舞祈雨,来增加下雨的可能性。另一个决策者,我们就叫她 Betty,必须决定是否带伞上班,来避免回家时被淋湿。Anna 和 Betty 都可以进行更好的决策,如果她们知道未来的天气,但她们需要知道不同的事情。 Anna 想知道祈雨舞是否会导致降雨。 另一方面,Betty 并不需要知道任何因果关系,她只需要一个准确的天气预报。社会学家常关注于 Anna 面临的问题—— Kleinberg 他们称作「rain dance-like」政策问题,因为这涉及到了因果问题。Betty 面临的问题——Kleinberg 他们称作「umbrella-like」政策问题,这种问题同样很重要,但社会学家对这类问题的关注比较少。

  • Approximatting experiments (2.4.3节)

「P.S. Political Science」杂志有一个研讨会,内容包括大数据,因果推论,以及形式理论。Clark and Golder (2015) 对此进行了总结。杂志「Proceedings of the National Academy of Sciences of the United States of America」有一个关于大数据和因果推论的研讨会,Shiffrin (2016) 对此进行了总结。使用机器学习方式自动的发现大数据源中的自然实验,Jensen et al. (2008)Sharma, Hofman, and Watts (2015),以及 Sharma, Hofman, and Watts (2016) 对此进行了尝试。

对于「自然实验」,Dunning (2012) 有本书介绍这个术语。以怀疑者的视角介绍「自然实验」,经济学角度参见 Rosenzweig and Wolpin (2000),政治学角度参见 Sekhon and Titiunik (2012)Deaton (2010)Heckman and Urzúa (2010) 认为,关注于自然实验可能会导致研究者专注于推测那些不太重要的因果关系,Imbens (2010) 反驳了这些观点,从更积极的角度探讨了自然实验的价值。

在 [彩票法案](https://en.wikipedia.org/wiki/Draft_lottery_(1969)) 的例子中,我们介绍了 instrumental variables。在 Imbens and Rubin (2015) 中的 23 和 24 章中对此进行了介绍,并使用了彩票法案作为例子。服兵役对听从征召的人产生的影响,有时称为「complier average causal effect (CAcE)」,有时还称作「local average treatment effect (LATE)」。Sovey and Green (2011)Angrist and Krueger (2001),和 Bollen (2012) 对使用工具变量在政治学,经济学以及社会学研究中的应用进行了回顾。Sovey and Green (2011) 提供了一个 checklist 方便对比那些使用了工具变量的研究。

对 1970 年彩票法案的后续观察发现,事实上它并不是完全随机的,它与绝对随机有细微的差别 (Fienberg 1971)。Berinsky and Chatfield (2015) 认为,这些细微的差别并不关键,并讨论了正确进行随机化的重要性。

关于「匹配」,Stuart (2010) 以积极的角度进行了回顾,Sekhon (2009) 从悲观的角度进行了回顾。将匹配作为一种裁剪方式的更多介绍,参见 Ho et al. (2007)。为每个人都进行完美的匹配常常很困难,这使复杂性提高了很多。首先,当无法得到精确匹配时,研究者需要决定如何度量两个「unit」单位之间的距离,并且距离是多少才足够近。研究者为了进行精确匹配时,可能会想对控制组中的每个实例进行多重匹配,这就体现出第二个复杂性。这两个问题,以及其他的问题,在 Imbens and Rubin (2015) 的第 18 章中有详细介绍。

Dehejia and Wahba (1999) 介绍了一些采用匹配的方式可以得到与随机控制实验相似结果的例子。相反的,Arceneaux, Gerber, and Green (2006),和 Arceneaux, Gerber, and Green (2010) 提供了一些匹配的方式未能复现实验结果的例子。

如何从大数据源发现一些重要的「匹配」,Rosenbaum (2015)Hernán and Robins (2016) 提供了一些其他的建议。

Last updated