2.3 大数据的十个常见特性

大数据资源常有一些共同的特性;这些特性对社会学研究各有利弊。

尽管每个大数据源都是不同的,但注意到一些反复出现特性是有益的。因此,与其介绍不同平台的使用方法(如:这些是你需要了解的有关Twitter的信息,那些是你需要了解的有关Google搜索的信息,等等),我将描述大数据源的十个一般特性。从每个特定系统的细节中退一步,来看看这些一般特性,将有助于研究者快速上手已有数据源,并且建立一个适用于未来的数据资源的思维体系。

尽管数据源的特性取决于研究目标,但我发现可以粗略的将这些特性分成两组:

  • 一般有利于研究的:big, always-on, and nonreactive

  • 一般会给研究带来麻烦的:imcomplet, inaccessible, nonrepresentative, drifting, algorithmically confounded, dirty and sensitive

你会发现大数据的这些特性经常出现,这是因为大数据不是为了研究而创建的。

Last updated