你别忽略了样本数据的大小【知识管理】第20天【关键词】样本数据大小对结果有决定性的影响个人订阅号:jqnote(专注打造爱智慧、爱学习、不急功近利的小圈子)还记得昨天咱们所列举的那个例子吧?个案与主流。从统计学角度来说,就是样本大小的问题。个案所涉及的样本较小,而主流所涉及的样本较大。可以做这样一个论断:相比于大样本,极端的结果(读书无用论、知识无用论)更容易出现在小样本中。而且这样的解释不存在因果联系。再举另外一个案例来加以说明:一项研究对美国3141个县的肾癌发病率进行了调查,调查显示该病的分布模式很值得注意。发病率最低的县差不多都位于中西部、南部和细部人口稀少的乡村,这些区域按照惯例由共和党管辖。对此,你有何看法你很容易作出以下推断:认为肾癌发病率低主要是由于乡村的生活方式很健康——没有空气污染和水污染、食品没有添加剂,保证新鲜。但是假如我的调查研究显示:肾癌发病率高的县差不多都位于中西部、南部和细部人口稀少的乡村,这些区域按照惯例由共和党管辖。你又会作何推断呢?估计你又会很容易作出以下推断:认为肾癌发病率高主要是乡村生活的贫困——医疗条件差、高脂肪饮食、酗酒、嗜烟等。其实以上两种推断都很有问题,因为乡村生活方式不可能既是肾癌发病率高的原因又是其发病率低的原因。问题的真正关键在于乡村地区人口少。某县的人口稀少既不会引发癌症,也不能避免癌症,只会使癌症的发病率比人口稠密地方的发病率更高(或更低)。这就是真相,没什么好解释的。在某个人口稀少的县,癌症发病率并非真的比正常情况更低或更高,只是这个县正好在某个特殊的年份赶上了抽样调查罢了。如果我们在第二年重复这样的分析,也能预测到在小样本出现极端结果的一般模式。但在前一年癌症发病率高的县,这一年发病率并不一定高。如果是这样的话,则人口稠密或稀少的因素就无法对发病率作出解释了:这些表面因素就是科学家眼中所谓的假象,即观察结果完全依赖于调查方法的某一方面。在这个案例当中,则依赖于样本大小。看到这里,或许你会明白一点道理:(1)大样本比小样本更精确(2)小样本比大样本产生极端结果的概率大对应这句话,思考一下八个提问方向当中有这么一条“激发自身优势,改变或隐藏自身劣势”,其实更多的就是样本选择的问题。这种产品的效果如何,你肯定会找出特别典型的,评价特别好的来展示,但这个是小样本,让不明就里的人以为你的这个小样本就代表了全部。其实只是很小的一...