2.3.8 Algorithmically confounded

大数据系统里,人们的行为并不是自然行为,而是受系统目标影响之后的行为。

尽管很多大数据是 nonreactive 的,因为人们并不知道他们的行为正在被记录(2.3.3节),研究者们也不应认为线上系统中观察到的行为就是“自然发生”的。事实上,这些系统在故意诱导人们的行为,比如引诱用户点击广告、鼓励用户发布文章。这种系统目标对数据模式的影响叫做:算法魅影(algorithmic confounding) 。算法魅影在社会科学家中还不出名,但它是数据科学家一个重要的关注点。还有,与其他数字记录的毛病不同,算法魅影很大程度上是隐身的。

举个简单的算法魅影的例子,Johan Ugander(2011) 发现在 Facebook 上,20个好友左右的用户有很多很多很多。在不懂 Facebook 的设计时,科学家可以写出很多故事,坚信不疑的相信 20 是个充满社交魔力的数字。幸运的是,Ugander 理解了数据产生的关键过程。他知道 Facebook 鼓励新用户发现更多朋友,直到好友数达到20个。然而 Ugander 在论文里并没有指出来,大概是 Facebook 的政策,来鼓励新用户变得活跃。然而,如果不知道这个政策,很容易从数据中得出错误的结论。也就是说,非常非常多的人有 20 个好友,告诉我们更多的是 Facebook 的特点,而不是人们的自然行为。

在上面的例子中,细心的研究者也许会发现算法魅影的痕迹,并更进一步的探索这个诡异的现象。然而,当线上系统的设计者知道一些社会学理论,并把它应用在系统里时,算法魅影会有变得更微妙。社会科学家把这称作 操演(performativity):当一个理论以这种方式改变世界时,会让世界更符合这个理论。这种会演戏的算法魅影,通过数据很难侦查到。

操演产生模式的一个例子是线上社交网络中的社交传递性。在上个世纪 70 年代到 80 年代间,不断有研究者发现,如果你同时是小明和小红的朋友,那么,和随机的两个人相比,小明和小红也是朋友的可能性更高。在 Facebook 的社交图上发现了与这相同的模式(Ugander et al. 2011)。因此,人们也许会得出这样的结论:Facebook 的线上好友模式与现实世界的好友模式相同,至少从传递性的角度来说。然而,Facebook 社交图上的传递性,一部分是受到了算法魅影的迷惑。这就是说,Facebook 的数据科学家知道有关传递性的经验上或理论上的研究,然后将其融入了 Facebook 的工作方式中。Facebook 有个 “你可能认识的朋友” 的功能,其中就使用了社交传递性,来为你推荐新朋友。就是说,Facebook 倾向于建议你与你朋友的朋友成为朋友。这个功能增加了 Facebook 社交图上的传递性;也就是说,传递性的理论使世界更符合它的预测(Zignani et al. 2014; Healy 2015)。因测,当大数据的预测与社交理论非常符合时,我们必须确定这个理论没有应用在系统的工作原理中。

与其把大数据看作是人们自然情况下的行为数据,更合理的比喻是人们在赌场里的行为数据。赌场是经过了精心设计,引诱人们做某些的行为。研究者不会认为人们赌场中的行为与自然环境下的行为一样。当然,可以通过研究人们赌场里的行为得出些一般规律。但是,如果忽略这些数据是在赌场得到的,你可能会得出错误的结论。

不幸的是,驱散算法魅影十分困难。因为很多线上系统的功能是保密的,在文档中刻意淡化的,同时还在不断改变。例如在之后的章节里,算法魅影也许可以解释谷歌流感趋势(Goggle Flu Trends)的逐步分解。但由于 Google 的搜索算法是保密的,我们很难验证这个推论。算法魅影是系统漂移(system drift)的一种形式。算法魅影意味着,我们需要留意任何从单一数字系统中得到的人类行为的推论,无论数据量有多大。

Last updated