3.3.1 代表性

代表性关乎与从受访者推论出被试人群的问题。

为了说明从受访者推论到目标人群的过程中有哪些坑，让我们来回顾一下「文学文摘」对 1936 年美国大选进行的一次预测。尽管是很多年前的事，这当中依然有很深刻的教训。

「文学文摘」曾是本畅销的通俗杂志。从 1920 年起，这本杂志就开始通过非正式民意测验来预测美国的大选结果。他们进行预测的方法很简单，给人们发放大量的选票，然后将回收来的选票数量直接加起来。「文学文摘」层骄傲的称，回收来的选票从没有经过「加权，调整，或其他特殊处理」。通过这种方式，他们成果的预测了 1920 年，1924 年，1928 年以及 1932 年美国总统选举的胜出者。到了 1936 年，正值经济大萧条的中期，「文学文摘」向公众发放了 1，000 万张选票，这些人主要是从电话本和汽车注册记录上选的。下面是「文学文摘」对他们的方法论的描述：

「『文摘』像一个精密运转的机器，以它 30 多年的经验，将人们的猜测变为铁一般的事实...本周，有约 500 只笔，每天从登记簿上划去超过 25 万条住址信息。每天，在纽约第四大道的高大房间里，约 400 名工人熟练的分装着百万张选票，这些选票足够铺满 40 个街区。每小时，在『文摘』的邮局里，三个嗡嗡作响的邮资计费器将信封密封加盖邮戳；迅捷的『文摘』卡车车队，飞快地将信件运往专门的邮政列车...接下来的一周，写好的选票将如潮水般涌回来，在接受三次检测，验证，以及五重交叉分类后被统计出来。检查、计算完最后一张选票后，如果过去的经验是可靠的，这个国家将会知道 4000 万选民中，1% 的人的真实投票情况。」 (1936 年 8 月 22 日)
“THE DIGEST’s smooth-running machine moves with the swift precision of thirty years’ experience to reduce guesswork to hard facts … This week 500 pens scratched out more than a quarter of a million addresses a day. Every day, in a great room high above motor-ribboned Fourth Avenue, in New York, 400 workers deftly slide a million pieces of printed matter—enough to pave forty city blocks—into the addressed envelops [sic]. Every hour, in THE DIGEST’S own Post Office Substation, three chattering postage metering machines sealed and stamped the white oblongs; skilled postal employees flipped them into bulging mailsacks; fleet DIGEST trucks sped them to express mail-trains . . . Next week, the first answers from these ten million will begin the incoming tide of marked ballots, to be triple-checked, verified, five-times cross-classified and totaled. When the last figure has been totted and checked, if past experience is a criterion, the country will know to within a fraction of 1 percent the actual popular vote of forty million [voters].” (August 22, 1936)

「文学文摘」对样本的数量是如此痴迷，与当今研究者对「大数据」的迷恋一样。「文学文摘」发出了约 1000 万张选票，令人振奋的，回收了约 240 万张。这比现在的联邦政治投票数的 1，000 倍还要多。从这 240 万个回复来看，结果很清楚：阿尔夫·兰登将击败现任总统富兰克林·罗斯福。然而，事实上，罗斯福以压倒性的选票击败了兰登。「文学文摘」是怎样从如此多的数据中得出错误预测的？以我们现在对抽样的理解，可以分析出「文学文摘」犯了哪些错误，以此来爆出我们避免在未来犯类似的错误。

清晰的描述抽样，我们会涉及到四个不同的人群 (图 3.2)。首先，是「target population」（目标人群），这是研究者定义的、他所关心的人群。在「文学文摘」的例子中，目标人群是 1936 年总统大选的所有选民。

在确定目标人群之后，研究者需要列个名单，看看可以从哪些人里进行抽样。这个名单被称作「sampling frame」（抽样框架」，这当中的人群被称作「frame population」（框内人群）。理想情况，目标人群与框内人群应该完全一样，但实践中几乎没有这样的例子。例如，在「文学文摘」的例子中，框内人群的名字主要来自于电话与汽车的等级记录上。目标人群与框内人群之间的差异被称作「coverage error」（覆盖误差）。覆盖误差本身并不一定会导致问题。然而，如果框内人群与目标人群存在系统性的差异，这会导致「coverage bias」（覆盖偏差）。这实际上就是「文学文摘」所犯的错误。在框内的人，更倾向于支持阿尔夫·兰登，一定程度上是因为他们更富有（在 1936年，电话和汽车都是时髦昂贵的东西）。所以，在「文学文摘」的民意调查中，覆盖误差导致了覆盖偏差。

图 3.2 代表性误差

在定义了框内人群后，下一步就是确定「sample population」（抽样人群）。抽样人群就是研究者尝试去进行访谈的人群。如果抽样人群与框内人群有不同的特征，那么这个抽样就会引入「sampling error」（抽样误差）。在「文学文摘」的滑铁卢中，并没有进行抽样，「文摘」杂志联系了所有在框架人群里的人，因此并没有抽样误差。抽样误差是在调查的误差报告中可以被发现的一种典型的误差。但「文学文摘」的失败提醒我们，需要考虑各种可能的误差，包括随机误差和系统性误差两方面。

最后，在确定了抽样人群后，研究者将尝试与他们进行访谈。那些成功完成访谈的人被称作「respondent」（调查对象）。理想情况下，抽样人群与调查对象是完全一样的。但实际上，会有一些人拒绝进行访谈。也就是说，在被选定的样本中，有时不会参与访谈。如果同意访谈的人与拒绝访谈的人之间存在差异，这种差异就被称作「nonresponse bias」（无应答误差）。无应答误差是「文学文摘」的第二大文帝。收到选票的人中，只有 24 % 的人进行了答复。结果是支持兰登的人更倾向于进行答复。

「文学文摘」民意调查的例子，不仅仅是介绍「代表性」这个思想，它是一个经常被人提起的寓言故事，警示研究者们任意抽样的危险性。但我认为，很多人从中这个故事中学到的教训是错的。最常见的寓意是说，研究者从非随机采样（选择参与者时没有严格的概率和规则）中不能探索出任何有用的东西。在本章后面的部分中，我将证明这个观点并不对。相反的，我认为这个故事有两个寓意，这些寓意在 1936 年与今天同样有用。第一个教训是，任意收集的数据，即使量很大，也不能保证得到一个良好的估测结果。使用大量的数据，研究者有时可以为错误的方法得到一个准确的估计，这被称作「precisely inaccurate」（McFarland and McFarland 2015）。第二个教训是，研究者在估测时需要解释他们是如何进行抽样的。具体来说，在「文学文摘」的失败中，他们的抽样方法对支持兰登的人有系统性的倾斜。因此，研究者需要使用更复杂的估测方式，调整某些调查对象的权重。本章后面的部分中，我将介绍一个加权方式——「post-stratification」（事后分层），这将使你从任意抽样中做出更好的估测。

Previous3.3 整体性调查误差框架 Next3.3.2 衡量标准

Last updated 7 years ago