2.3.9 Dirty

毫无意义的信息和垃圾信息也混杂在大数据资源中。

因为大数据,特别是线上数据是自动收集的,一些研究者认为它是未被处理的原始数据。事实上,与大数据共事过的人都知道,数据经常是脏(drity)数据。这就是说,其中经常包含研究者不感兴趣的数据。大多数社会科学家已经熟悉清理大规模社会调查数据的流程,但清理大数据似乎更困难。我认为困难的根源是,这些大数据从未考虑过用在研究中,因测也没有以利于数据清理的方式收集、存储和记录。

Back 与它同事(2010)的研究说明了使用脏数据的危险。他们研究了美国911袭击中人们情绪的变化。研究者用长达数月至数年的可溯源数据,研究了人们对这次悲剧的反应。Back 发现使用实时(always-on)的数据, 85,000名美国人的BB机消息,包含时间戳,这些自动记录的消息使他们能够在更细的时间粒度下研究人群的情绪变化。根据短信中与情绪相关的词语,将情绪分为(1)悲伤 (sadness)(如:“crying”,“grief”),(2)焦虑 (anxiety)(如:“worried”,“fearfule”),以及(3)愤怒 (anger)(如:“hate”,“critical”)。用这个方法,他们建立了911当天每分钟的情绪变化曲线。他们发现悲伤和焦虑的情绪在当天的波动没有明显的模式,但愤怒的情绪有一个陡峭的增长过程。这个研究似乎展示了使用实时 (always-on) 数据的妙处,如果使用的使传统数据,是不可能对突发事件的反应进行细粒度的时间刻画。

然而,仅一年之后,Cynthia Pury(2011)仔细的查看了这些数据。她发现,在有关愤怒的短信中,很大一部分消息是由一个BB机发出的,并且这些消息有同样的格式。下面是那些被认为是表达愤怒的短信:

"Roboot NT machine [name] in cabinet [name] at [location]:CRITICAL:[data and time]"

"NT机型[名字]重启 在 [地点] 的 [名字]橱柜: 危险警告 :[日期和时间]"

由于含有“危险警告 (CRITICAL)”,这条消息被标记为愤怒。将这个BB机产生的消息排除后,911当天愤怒情绪的显著增长就消失(图 2.4)。也就是说, Back, Küfner, and Egloff (2010)的主要结果是由一个BB机机器人产生的。如这个例子说明的,使用相对复杂和大量的数据,进行相对简单的分析,可能会得出完全错误的结论。

图2.4:911 当天愤怒情绪变化的趋势估计。使用了85,000个美国人的BB机消息数据 (Back, Küfner, and Egloff 2010, 2011; Pury 2011)。起初Back, Küfner, and Egloff (2010)指出当天愤怒增长的模式。然而,大多数被标记为愤怒的消息是由一个BB机重复发出的如下信息:"NT机型[名字]重启 在 [地点] 的 [名字]橱柜: 危险警告 :[日期和时间]"。把这些信息移除后,愤怒情绪明显增长的趋势就消失了 (Pury 2011; Back, Küfner, and Egloff 2011)。上图取自 Pury 2011,图 1b。

严谨的研究者可以捕获一些无意中产生的脏数据,例如烦人的BB机消息。然而,很多线上系统也吸引来了不怀好意的推销者 (intentional spammers)。这些推销者有意的产生一些假的数据,很多时候是为了产生利润,并且尽力使他们的垃圾信息保持隐蔽。例如,Twitter 上发布的一些政治性活动中,至少一部分中,包含了精心设计的垃圾信息,使得一些活动看上去更受欢迎 (Ratkiewicz et al. 2011)。不幸的是,要清除这些有意设计过的垃圾信息十分困难。

当然,这些脏数据在一些研究中依然有用。例如,很多 Wikipedia 上的内容是有自动的机器人产生的 (Geiger 2014)。如果你对 Wikipedia 的生态感兴趣,那么这些机器人编辑的内容也是很重要的。但是,如果你对人类在 Wikipedia 上共享知识的方式感兴趣,那么就应该排除这些机器人编辑的消息。

没有一个统计性的技术或方法可以确保你已经对脏数据进行了足够的清洗。在最后,我认为避免被脏数据戏耍的最好方法,是尽可能多的了解这些数据是如何产生的。

Last updated