Bit by Bit
  • 译者手记
  • 作者序
  • 1 简介
    • 1.1 罗夏墨迹
    • 1.2 欢迎来到数字时代
    • 1.3 研究的设计
    • 1.4 本书的主题
    • 1.5 本书的大纲
    • 扩展阅读
  • 2 观察行为
    • 2.1 简介
    • 2.2 大数据
    • 2.3 大数据的十个常见特性
      • 2.3.1 Big
      • 2.3.2 Always-on
      • 2.3.3 Nonreactive
      • 2.3.4 Incomplete
      • 2.3.5 Inaccessible
      • 2.3.6 Nonrepresentative
      • 2.3.7 Drifting
      • 2.3.8 Algorithmically confounded
      • 2.3.9 Dirty
      • 2.3.10 Sensitive
    • 2.4 研究的策略
      • 2.4.1 统计
      • 2.4.2 预报与即时预报
      • 2.4.3 模拟实验
    • 2.5 总结
    • 数学原理简介
    • 扩展阅读
    • 延伸活动
  • 3 问问题
    • 3.1 简介
    • 3.2 提问与观察
    • 3.3 整体性调查误差框架
      • 3.3.1 代表性
      • 3.3.2 衡量标准
      • 3.3.3 成本
    • 3.4 该问谁
    • 3.5 问问题的新方法
      • 3.5.1 生态学的瞬间评估
      • 3.5.2 维基调查
      • 3.5.3 游戏化
    • 3.6 将调查与大数据连接
      • 3.6.1 互补式提问
      • 3.6.2 增广式提问
    • 3.7 总结
    • 数学原理简介
    • 扩展阅读
    • 延伸活动
Powered by GitBook
On this page
  1. 2 观察行为
  2. 2.3 大数据的十个常见特性

2.3.8 Algorithmically confounded

Previous2.3.7 DriftingNext2.3.9 Dirty

Last updated 6 years ago

大数据系统里,人们的行为并不是自然行为,而是受系统目标影响之后的行为。

尽管很多大数据是 nonreactive 的,因为人们并不知道他们的行为正在被记录(2.3.3节),研究者们也不应认为线上系统中观察到的行为就是“自然发生”的。事实上,这些系统在故意诱导人们的行为,比如引诱用户点击广告、鼓励用户发布文章。这种系统目标对数据模式的影响叫做:算法魅影(algorithmic confounding) 。算法魅影在社会科学家中还不出名,但它是数据科学家一个重要的关注点。还有,与其他数字记录的毛病不同,算法魅影很大程度上是隐身的。

举个简单的算法魅影的例子, 发现在 Facebook 上,20个好友左右的用户有很多很多很多。在不懂 Facebook 的设计时,科学家可以写出很多故事,坚信不疑的相信 20 是个充满社交魔力的数字。幸运的是,Ugander 理解了数据产生的关键过程。他知道 Facebook 鼓励新用户发现更多朋友,直到好友数达到20个。然而 Ugander 在论文里并没有指出来,大概是 Facebook 的政策,来鼓励新用户变得活跃。然而,如果不知道这个政策,很容易从数据中得出错误的结论。也就是说,非常非常多的人有 20 个好友,告诉我们更多的是 Facebook 的特点,而不是人们的自然行为。

在上面的例子中,细心的研究者也许会发现算法魅影的痕迹,并更进一步的探索这个诡异的现象。然而,当线上系统的设计者知道一些社会学理论,并把它应用在系统里时,算法魅影会有变得更微妙。社会科学家把这称作 操演(performativity):当一个理论以这种方式改变世界时,会让世界更符合这个理论。这种会演戏的算法魅影,通过数据很难侦查到。

操演产生模式的一个例子是线上社交网络中的社交传递性。在上个世纪 70 年代到 80 年代间,不断有研究者发现,如果你同时是小明和小红的朋友,那么,和随机的两个人相比,小明和小红也是朋友的可能性更高。在 Facebook 的社交图上发现了与这相同的模式()。因此,人们也许会得出这样的结论:Facebook 的线上好友模式与现实世界的好友模式相同,至少从传递性的角度来说。然而,Facebook 社交图上的传递性,一部分是受到了算法魅影的迷惑。这就是说,Facebook 的数据科学家知道有关传递性的经验上或理论上的研究,然后将其融入了 Facebook 的工作方式中。Facebook 有个 “你可能认识的朋友” 的功能,其中就使用了社交传递性,来为你推荐新朋友。就是说,Facebook 倾向于建议你与你朋友的朋友成为朋友。这个功能增加了 Facebook 社交图上的传递性;也就是说,传递性的理论使世界更符合它的预测(; )。因测,当大数据的预测与社交理论非常符合时,我们必须确定这个理论没有应用在系统的工作原理中。

与其把大数据看作是人们自然情况下的行为数据,更合理的比喻是人们在赌场里的行为数据。赌场是经过了精心设计,引诱人们做某些的行为。研究者不会认为人们赌场中的行为与自然环境下的行为一样。当然,可以通过研究人们赌场里的行为得出些一般规律。但是,如果忽略这些数据是在赌场得到的,你可能会得出错误的结论。

不幸的是,驱散算法魅影十分困难。因为很多线上系统的功能是保密的,在文档中刻意淡化的,同时还在不断改变。例如在之后的章节里,算法魅影也许可以解释谷歌流感趋势(Goggle Flu Trends)的逐步分解。但由于 Google 的搜索算法是保密的,我们很难验证这个推论。算法魅影是系统漂移(system drift)的一种形式。算法魅影意味着,我们需要留意任何从单一数字系统中得到的人类行为的推论,无论数据量有多大。

Johan Ugander(2011)
Ugander et al. 2011
Zignani et al. 2014
Healy 2015