Bit by Bit
  • 译者手记
  • 作者序
  • 1 简介
    • 1.1 罗夏墨迹
    • 1.2 欢迎来到数字时代
    • 1.3 研究的设计
    • 1.4 本书的主题
    • 1.5 本书的大纲
    • 扩展阅读
  • 2 观察行为
    • 2.1 简介
    • 2.2 大数据
    • 2.3 大数据的十个常见特性
      • 2.3.1 Big
      • 2.3.2 Always-on
      • 2.3.3 Nonreactive
      • 2.3.4 Incomplete
      • 2.3.5 Inaccessible
      • 2.3.6 Nonrepresentative
      • 2.3.7 Drifting
      • 2.3.8 Algorithmically confounded
      • 2.3.9 Dirty
      • 2.3.10 Sensitive
    • 2.4 研究的策略
      • 2.4.1 统计
      • 2.4.2 预报与即时预报
      • 2.4.3 模拟实验
    • 2.5 总结
    • 数学原理简介
    • 扩展阅读
    • 延伸活动
  • 3 问问题
    • 3.1 简介
    • 3.2 提问与观察
    • 3.3 整体性调查误差框架
      • 3.3.1 代表性
      • 3.3.2 衡量标准
      • 3.3.3 成本
    • 3.4 该问谁
    • 3.5 问问题的新方法
      • 3.5.1 生态学的瞬间评估
      • 3.5.2 维基调查
      • 3.5.3 游戏化
    • 3.6 将调查与大数据连接
      • 3.6.1 互补式提问
      • 3.6.2 增广式提问
    • 3.7 总结
    • 数学原理简介
    • 扩展阅读
    • 延伸活动
Powered by GitBook
On this page
  1. 2 观察行为
  2. 2.3 大数据的十个常见特性

2.3.2 Always-on

Previous2.3.1 BigNext2.3.3 Nonreactive

Last updated 6 years ago

实时(Always-on)大数据,开启了对突发事件和实时估测的研究。

很多大数据系统都是实时的(Always-on):它们持续不断的收集着数据。这种实时性,给研究者提供了纵向数据(如:随时间推移的数据)。实时性(Always-on)对研究工作有两个重要影响。

首先,实时数据使得研究者以原本不可能的方式探索突发事件。例如,2013年夏季,土耳其发生的占领盖齐公园抗议事件,对它感兴趣的研究者们,通常关注于抗议者们在事件过程中的行为。根据Twitter的实时性,研究了抗议者们在抗议发生前,过程中,以及结束及后的行为。同时,它们用未参与抗议的人,创建了相应的对照组(图2.2)。在数据中的 事后板块(ex-post panel) 中,共有30000人两年来的推文。通常使用的数据,由其他资源收集的抗议者信息。通过扩充常用数据,Budak和Watts能够进行更多的研究工作:它们能预测什么类型的人更可能参与到盖齐抗议中,以及从长期(发生前(pre-Gezi)对比发生后(post-Gezi))和短期角度(发生前(pre-Gezi)对比进行中(during Gezi)),比较抗议者与非抗议者的态度变化。

图2.2

一些怀疑论者可以能会说,有些估计不需要实时数据也可以做(比如,估计长时间跨度的态度变化)。虽然收集30000人两年的行为数据会很贵,理论上依然行得通。但是,即使是有无限的预算,我也想不到有什么其他方法,可以让研究者穿越到过去(Travel back in time)直接观察参与者的行为。最接近的替代方式也许是收集这些行为的回顾性报告(retrospective repots),但这些报告粒度有限,同时准确性存疑。表2.1还提供了一些其他使用实时性数据研究突发事件的例子。

表2.1 使用实时性数据研究突发事件的例子

突发事件

实时性数据源

引文引索

Twitter

微博

纽约警察枪击事件

盘查报告

ISIS的先驱

Twitter

livejournal.com

总的来说,实时大数据系统使研究者可以研究突发事件以及为政策制定者提供实时信息。然而,我并不认为,实时大数据系统很适合跟踪长时间跨度的改变情况。这是因为,很多大数据系统在不断的更新——我称这个变化特性为 drift,我们将后面的章节里讨论它(2.3.7节)。

图2.2:2013年夏季土耳其的占领盖齐公园抗议事件中,设计的数据。得益于Twitter的实时性( always-on),用30000人两年来的推文,研究者构建了它们称为 事后板块(ex-post panel) 的数据。通常的数据关注于抗议者在实践中的行为,与之对比, 事后板块(ex-post panel) 增加了: 1. 参与者发生前和事件结束后的行为数据。 2. 未参与抗议的人在事件前中后的数据。丰富的数据结构,使得Budak和Wastts能够估计什么类型的人更容易参与到占领盖齐的抗议中。以及从长期(发生前(pre-Gezi)与发生后(post-Gezi))和短期角度(发生前(pre-Gezi)与进行中(during Gezi)),比较抗议者与非抗议者的态度变化。

上的信息

除了用来研究突发事件,实时大数据系统也可以用来进行实时信息估测。这有重要指导意义,对那些想对实时情况进行反馈的政策制定者——政府的或企业的——来说。例如,用社交媒体数据指导自然灾害的应急响应()。还有,使用各种大数据资源,也可以对经济活动进行实时的估测()。

Budak and Watts(2015)
Castillo 2016
Choi and Varian 2012
土耳其的占领盖齐公园事件
Budak and Watts(2015)
香港雨伞运动
Zhang(2016)
Legewie(2016)
Magdy, Darwish and Weber(2016)
911恐怖袭击
Cohn, Mehl, and Pennebaker(2014)
911恐怖袭击
BB机
Back, Küfner, and Egloff (2010), Pury (2011), Back, Küfner, and Egloff (2011)
Ceren Budak and Duncan Watts(2015)