2.1 简介

在模拟时代,谁在什么时候做了那些事情,这样的数据收集起来是很昂贵的,因此也相对少见。如今,在数字时代,数十亿人的行为都被记录,存储以及分析。例如,每当你点击网站时,打电话时,或是用信用卡付费时,你的行为都会被公司们记录下来。由于这种数据产生于人们的日常活动,因此被称作 数字轨迹digital traces)。除了企业持有的电子记录外,政府部门也保有大量关于公民与企业的数据。这些政府与企业拥有的数据通常被称作 大数据big data)。

与日俱增的海量数据,意味着我们已经从一个行为数据稀缺的世界来到了一个数据丰富的世界。首先要认识到,大数据是 观测数据(ovservational data) 的一个部分,社会学家已经使用了很多年观测数据。广义上,任何未对社交系统进行干预而得到的记录都是观测数据。简单的说,观测数据是任何没有与人们进行交谈(如第三章的主题——调查),或改变人们的环境(如第四章的书体——实验)而得到的数据。因此,除了企业与政府拥有的数字记录,观测数据还包括如新闻报道和卫星照片之类的数据。

本章有三个部分。首先,在2.2节中,我将详细介绍大数据与过去的社会学研究中使用的传统数据有什么本质上的不同。接着,在2.3节中,我将介绍大数据资源常见的10个特性。理解这些特性能够使你快速的识别已有数据的优势与劣势,同时有助于你驯服未来会出现的新资源。最后,在2.4节中,我将介绍使用观测数据进行研究的三个主要策略:统计,预测,以及模拟实验。

Last updated