3.3.2 衡量标准

衡量标准关乎与从调查对象的说法推断他们想法和行为的问题。

整体性调查误差框架说明，除了代表性的问题外，第二个主要错误来源就是「measurement」（衡量标准）：如何从调查对象的回答推测出我们所关心的指标。这严重依赖于我们具体是如何提问的。没有什么比「Asking Question」中的一个笑话把这个点强调的更好的了。

两个教士，一个是多明我会修道士，一个是耶稣会会士，正在讨论同时吸烟和祈祷是否有罪。两人没能得出什么结论，便各自去请教自己的修道长。多明我会的问道，「你的修道长怎么说？」
那个耶稣会的回答道，「他说这没什么问题。」。
「因吹丝挺。」多明我会的说到，「我的修道长说这是有罪的。」
耶稣会的问道，「你问了他什么？」多明我会的回道，「我问他，是否可以祈祷的时候抽烟。」「噢」耶稣会的说到，「我问的是，是否可以在抽烟的时候祈祷。」
Two priests, a Dominican and a Jesuit, are discussing whether it is a sin to smoke and pray at the same time. After failing to reach a conclusion, each goes off to consult his respective superior. The Dominican says, “What did your superior say?”
The Jesuit responds, “He said it was alright.”
“That’s funny” the Dominican replies, “My supervisor said it was a sin.”
The Jesuit said, “What did you ask him?” The Dominican replies, “I asked him if it was alright to smoke while praying.” “Oh” said the Jesuit, “I asked if it was OK to pray while smoking.”

除了这个笑话，调查型研究的学者们整理了很多系统性的方法，显示出提问方式深刻影响着你发现的结果。事实上，这个笑话背后的原因在调查型研究中有个具体的词来形容：「question form effects」(Kalton and Schuman 1082)。通过下面这两个看上去很像的问卷问题，来体会一下 question form effects 是如何影响真实的调查的：

「你多大程度上同意下面这个表述：在这个国家中，违法和犯罪更应该归咎于个人而不是 社会状况 。」
「你多大程度上同意下面这个表述：在这个国家中，违法和犯罪更应该归咎于 社会状况 而不是个人。」

尽管这两个问题是在衡量同一间事情，在真实的调查实验中，他们得到了不同的结果 (Schuma and Presser 1996)。当用第一种问法时，得到的结果现实有大约 60% 的人认为犯罪更应该归咎于个人，当用第二种问法时，有约 60% 的人认为更应该归咎于 社会状况 (图 3.3)。换句话说，这两个问题上的微小差异会将研究者引向完全不同的结论。

图 3.3：调查实验的结果显示，依赖于具体是如何提问的，研究者可能会得到完全不同的结论。一种问法下，大多数调查对象认为犯罪更应该归咎于个人而不是社会状况。另一种问法下，多数调查对象认为犯罪更应该归咎与社会状况而不是个人。节选自 Schuman and Presser (1996)，表 8.1。

除了使用固定的答案之外，也可以为调查对象提供不同的答案。例如，在一个对政府财政分配的民意调查中，调查对象会读到下面的提示：

「在我国，我们依然面临着很多问题，没有一个是可以简单的或不用花费很多钱就可以解决的。我会给出一些问题的名字，对于每一个问题，你觉得我们在这上面花了太多的钱，还是太少的钱，或者我们在这上的花费刚刚好。」
“We are faced with many problems in this country, none of which can be solved easily or inexpensively. I’m going to name some of these problems, and for each one I’d like you to tell me whether you think we’re spending too much money on it, too little money, or about the right amount.”

接下来的实验中，一半的调查对象看到的是「welfare」（社会救济），另一半看到的是「aif for the poor」（贫困资助）。这两个不同的短语大致上是表达着相同的意思，但得到了完全不同的结果（图 3.4）。比起「welfare」，调查对象（美国人）对于「aif for the poor」更支持一些（Smith 1987; Rasinski 1989; Huber and Paris 2013）。

图 3.4：一个调查实验的结果，显示出比起「welfare」调查对象更支持「aif for the poor」。这个例子中，研究者得到的答案完全取决于他们在提问中使用的是什么词。节选自 Huber and Pairs (2013)，表 A1。

上面这个「question form effects」的例子说明，研究者得到的实验结果会受到他们提问方式的影响。有时这回让研究者们思考调查问题 “正确” 的方式是什么。虽然我认为，有很多提问方式显然是错误的。但我并不认为总是有一个唯一的正确的提问方式。也就是说，用「welfare」还是「aid for the poor」来提问，并没有明显的优劣之分，这是两个不同的问题，衡量被试对两个不同实物的态度。有时，这也会让研究者们觉得，不应该使用问卷调查这种研究形式。不幸的是，有时候你没得选。所以，我觉得从这些例子中得到的教训是，我们应该谨慎的构建问卷，并且我们不能不加鉴别的接受被试给出的结果。

具体的来说，这意味着如果你在使用别人的调查数据，要确保你读过对应的问卷。如果你在创建自己的问卷，我有以下四个建议。首先，我建议你阅读更多有关问卷设计的介绍，比如 Bradburn, Sudman, and Wansink (2004)，这里有更详细的介绍。第二，我建议你从高质量的问卷中逐字逐句的复制一些问题。比如说，你想询问被试的种族「race/ethnicity」，你可以从像人口普查这样的大规模的政府问卷中复制这个问题。这听上去很像剽窃，只要你引用了原始的问卷，复制问题在调查型研究中是受到鼓励的。因为，如果你是从高质量的问卷中复制来的问题，你就可以确保这些问题是被测试过的，并且可以将你的结果与其他调查结果进行比较。第三，如果你觉得你的问卷有很严重的「question form effects」问题，你可以进行一个「survey experiment」（调查实验），对一半的人发放一版问卷，一半人发放另一版的问卷（Krosnick 2011）。最后一点，我建议你从款内人群中找些人，小规模测试一下你的问卷。调查型学者把这个过程叫做「pre-testing」（预测试）（Presser et al. 2004）。在我的经验里，预测试在问卷调查中特别管用。

Previous3.3.1 代表性 Next3.3.3 成本

Last updated 6 years ago