2.5 总结

大数据无处不在，但应用在社会学研究中还有很多陷阱。「天下没有免费的午餐」。在我的经验中，如果没有在收集数据上下功夫，那就得花大力气在分析上面了。

如今的大数据，未来也差不多，大多都有这 10 个特性。其中有 3 个一般来说是对研究有益的：「big」, 「always-on」, 以及「nonreactive」。另外 7 个通常会对研究带来麻烦：「incomplete」，「inaccessible」，「nonrepresentative」，「drifting」，「algorithmically confounded」，「dirty」，以及「sensitive」。这些特性多数是因为大数据并不是为社会学研究而建立的。

基于本章的观点，我认为大数据对社会学研究有价值主要有三个方面。第一，它使得研究者可以对比不同理论的预测结果。就像 Farber (2015) 对纽约出租车司机的研究，以及 [King, Pan and Roberts (2013)] 对中国的审查制度的研究，等等。第二，大数据可以用来进行「即时预报」，这对政策制定等方面很有帮助。例如 Ginsberg et al. (2009) 进行的「谷歌流感趋势」的工作。第三，大数据使得研究者可以而进行实验而分析因果效应。例如 [Mas and Moretti (2009)] 的研究，同事工作效率对生产力的影响。以及 Einav et al. (2015) 的工作，研究 eBay 拍卖中起始价的影响效果。然而，每种方法都需要研究者利用大量数据，在用不同理论进行预测时，数据量显得尤为重要。因此，我认为这么来想最恰当，大数据可以做到的，就是为那些能够提出有趣并且重要的问题的研究者提供帮助。

在结束之前，值得回味一下，大数据对数据于理论的关系产生的重要影响。到现在，本章都使用经验主义来推证理论 (emprically driven theorizing)。就是说，通过谨慎的积聚经验性的事实，模式，以及谜题，研究者可以建立新的理论。这种「data-first」的方法并不是什么新东西，最铿锵有力的亮相来自于 Barney Glase and Anselm Strauss (1967)，他们称作「扎根理论」(grounded theory)。然而，「data-first」的研究路径，并不是「the end of theory」，正如数字时代的一些围绕研究的新闻报道的那样 (Anderson 2008)。与其认为这是数据环境的变化，我们应当期待到数据和理论之间的关系出现再平衡。在那个收集数据很昂贵的时代，只收集理论上认为有用的数据。但当世界被数据包围的时候，有大量免费的数据，「data-first」的方式又未尝不可 (Goldberg 2015)。

正如本章中所说的，研究者通过观察人们的行为可以进行很多研究。在接下来的三章，第三章「问问题」，第四章「实验」，以及第五章「大规模协作」中，我将展示，如果能裁剪我们收集的数据，以及与人们更直接的互动，可以从中发现什么。

Previous2.4.3 模拟实验 Next数学原理简介

Last updated 7 years ago