延伸活动

  1. a. 在这个研究中,你最担心的三个可能产生误差的地方是什么?

    b. Clark et al. (2016) 刚好做了这个研究。首先,他们收集了 2012 年 1 月到 2014 年 12 月与电子烟等关键字相关的推文,收集到了 850,000 个推文。再详细检查后,他们发现很多推文都是自动而不是人产生的,而且很多自动生成的推文实质上是商业广告。他们开发了一个推文检测算法,将自动生成的推文从原始推文中分离。使用这个算法,他们发现有 大约 80% 的推文都是自动产生的。这个发现是否改变了你对问题 (a) 的回答?

    c. 用情感分析的方法比较收集到的原始推文与自动产生的推文,他们发现自动产生的推文比原始推文的正向情感更多 ( 6.17 比 5.84 ) 。这个发现是否改变了你对问题 (b) 的回答?

  2. a. 你认为这个提示语的改变,将如何影响发推特的人,以及如何影响人们发的推文?

    b. 举出一个你倾向于使用「What are you doing?」的项目,并解释原因。

    c. 举出一个你倾向于使用「What's happening?」的项目,并解释原因。

  3. a. 从 「Google Books Ngram Viewer」网站上下载原始数据。具体的来说,建议你下载英文语料库的第二版,它在 2012 年 7 月 1 日发布,解压后文件大约有 1.4 GB。

    b. 复现 Michel et al. (2011) 中图 3a 的主要部分。为了完成这个任务,你需要两个文件:你在上疑问中下载的文件和一个「total counts」的文件,用这个文件可以将数量转换为比例。注意,「total counts」文件有它的结果,读起来可能有些困难。NGram 第二版的数据得到的结果是否与 Michel et al. (2011) 中使用第一版数据得到的结果相似?

    c. 现在,对比一下你得到的图片与使用 NGram Viewer 得到的图片。

    d. 重新画出图 3a (main figure),但将 y 轴从比例改为数量。

    e. (b) 小问与 (d) 小问之间的差别,引起了你对 Michel et al. (2011) 中的结果进行重新评价吗?为什么?

    f. 现在,用比例来替换图 3a 的内容。就是说,对在 1875 年至 1975 年之间的年份,计算它们的「half-life」。「half-life」定义为这一年被提及的比率到达它峰值的一半之前,所经历的年份数。注意,Michel et al. (2011) 在估算「half-life」时有更为复杂的操作,见其中的 Ⅲ.6 节,但他们声称这两种方法会得到相似的结果。使用 NGram 第二版的数据得到了与 Michel et al. (2011) 中基于第一版数据相似的结果吗?(提示:如果不相同也不要感到惊讶)

    g. 有发现遗忘的特别快或特变慢的异常年份吗?浅显的推测一下产生这些异常的原因,并解释你是如何识别出这些异常值的。

    h. 现在,将数据集替换为 NGrams 中的中文,法语,德语,希伯来语,意大利语,俄语以及西班牙语,分别计算一次结果。

    i. 在所有的这些语言之间做比较,有发现有发现遗忘的特别快或特变慢的异常年份吗?浅显的推测一下产生这些异常的原因。

  4. a. 阅读 Penney (2016) ,然后复现其中的「figure 2」。这幅图显示了与「恐怖主义」有关的页面在斯诺登事件前后的点击量。从中你发现了什么?

    b. 接着,重现「figure 4A」,这幅图对比了实验组 (与「恐怖主义」相关的文章) 与对照组 (其他类别的文章,见附录的表 10 与脚注 139)。从中你发现了什么?

    c. 在上一问中,你比较了实验组与一个对照组。Penney 也与其他两个对照组进行了比较,「基础设施安全」相关的文章 (附录中的表 11) 和维基百科上的热门页面 (附录中的表 12)。如果再选择一个对照组,测试一下结论的敏感性,你会选择哪个主题的文章做对照组?为什么?

    d. Penney 用与「恐怖主义」相关的关键词来筛选维基百科的文章,因为防范恐怖主义是美国政府开展网上监控的关键理由。为了检查与恐怖主义相关的 48 个关键词, Penney (2016)MTurk 上进行了评测,让人们在 Government Trouble, Privacy-Sensitive, 与 Avoidance 的纬度上给关键词打分 (见附录中的 表7 和 表8)。复现 MTurk 上的测验,与 Penney 的结果进行比较。

    e. 根据你在第 4 问的结果以及你所阅读的文章,你是否支持 Penney 在这次研究中对关键词的选择?为什么?如果不支持,你会建议如何选择关键词?

  5. 「...受限于典型的不考虑女性的逻辑,这个『tailor made」数据难免会忽略女性数据。在阶级主义与大男子主义的驱使下...,Goldthorpe 与他的同事们构建了一组经验证明,生长在他们的理论假设之上,而没有经过恰当的检验。」

    “… it [is] difficult to avoid the conclusion that women were omitted because this ‘tailor made’ dataset was confined by a paradigmatic logic which excluded female experience. Driven by a theoretical vision of class consciousness and action as male preoccupations … , Goldthorpe and his colleagues constructed a set of empirical proofs which fed and nurtured their own theoretical assumptions instead of exposing them to a valid test of adequacy.”

    Hart 继续道:

    「从『Affluent Worker Project」中的经验发现,更多的表达了中世纪社会学的大男子主义价值观,而没有阐明物质生活,政策,以及阶级分层的过程。」

    “The empirical findings of the Affluent Worker Project tell us more about the masculinist values of mid-century sociology than they inform the processes of stratification, politics and material life.”

    数据构建者的偏见对「tailor-made」数据可能产生影响,你还能想到其他的例子吗?这与「algorithmic confounding」问题相比如何?这种个问题对研究者何时使用「readymade」数据,何时使用「custommade」数据有什么影响?

  6. 图 2.12 这张图片可以看作是一直鸭子,也可以看作是一直兔子。你所看见的取决于你的角度。大数据资源即使被发现的,也是被设计的,也就是说,你所看到的取决于你的角度。举例来说,站在研究者的角度,手机的通话记录是「found data」。但是,从电信公司的财务部门的角度看,这个记录就是「designed data」。图片来源: Popular Science Monthly (1899)/Wikimedia Commons

    举一个数据的例子,同时从「found data」与「designed data」的角度来看这个数据,对研究是有帮助的。

Last updated