2.5 总结

大数据无处不在,但应用在社会学研究中还有很多陷阱。「天下没有免费的午餐」。在我的经验中,如果没有在收集数据上下功夫,那就得花大力气在分析上面了。

如今的大数据,未来也差不多,大多都有这 10 个特性。其中有 3 个一般来说是对研究有益的:「big」, 「always-on」, 以及「nonreactive」。另外 7 个通常会对研究带来麻烦:「incomplete」,「inaccessible」,「nonrepresentative」,「drifting」,「algorithmically confounded」,「dirty」,以及「sensitive」。这些特性多数是因为大数据并不是为社会学研究而建立的。

基于本章的观点,我认为大数据对社会学研究有价值主要有三个方面。第一,它使得研究者可以对比不同理论的预测结果。就像 Farber (2015) 对纽约出租车司机的研究,以及 [King, Pan and Roberts (2013)] 对中国的审查制度的研究,等等。第二,大数据可以用来进行「即时预报」,这对政策制定等方面很有帮助。例如 Ginsberg et al. (2009) 进行的 「谷歌流感趋势」的工作。第三,大数据使得研究者可以而进行实验而分析因果效应。例如 [Mas and Moretti (2009)] 的研究,同事工作效率对生产力的影响。以及 Einav et al. (2015) 的工作,研究 eBay 拍卖中起始价的影响效果。然而,每种方法都需要研究者利用大量数据,在用不同理论进行预测时,数据量显得尤为重要。因此,我认为这么来想最恰当,大数据可以做到的,就是为那些能够提出有趣并且重要的问题的研究者提供帮助。

在结束之前,值得回味一下,大数据对数据于理论的关系产生的重要影响。到现在,本章都使用经验主义来推证理论 (emprically driven theorizing)。就是说,通过谨慎的积聚经验性的事实,模式,以及谜题,研究者可以建立新的理论。这种 「data-first」的方法并不是什么新东西,最铿锵有力的亮相来自于 Barney Glase and Anselm Strauss (1967),他们称作「扎根理论」(grounded theory)。然而,「data-first」的研究路径,并不是「the end of theory」,正如数字时代的一些围绕研究的新闻报道的那样 (Anderson 2008)。与其认为这是数据环境的变化,我们应当期待到数据和理论之间的关系出现再平衡。在那个收集数据很昂贵的时代,只收集理论上认为有用的数据。但当世界被数据包围的时候,有大量免费的数据,「data-first」的方式又未尝不可 (Goldberg 2015)。

正如本章中所说的,研究者通过观察人们的行为可以进行很多研究。在接下来的三章,第三章「问问题」,第四章「实验」,以及第五章「大规模协作」中,我将展示,如果能裁剪我们收集的数据,以及与人们更直接的互动,可以从中发现什么。

Last updated