做一次生活科学家 |
|
|
来源:不详 更新时间:2012-9-12 12:11:44 |
|
|
基因,才是暴食和血管疾病的罪魁祸首。
然而,将相关当作因果确实屡见不鲜。某调查显示,常去网吧和学习成绩低下呈高度正相关,就是说学生去网吧越频繁,学习成绩越差。这不免让人推论,去网吧使成绩变差,但事实情况可能并不存在这种因果关系,而是厌学情绪或者学习障碍导致了学生成绩差和喜欢去网吧。在这个例子中,去网吧的频率和学习成绩可能都受厌学情绪的影响。学生厌学情绪越强烈,去网吧越频繁,同时学习成绩越差。但如果我们不作进一步研究,就可能仅仅把相关的两者看作因果,从而将学习不好完全归因于网吧。而禁止学生去网吧,起到的作用很可能十分有限。
一个收费昂贵的训练班宣称,他们的学员在毕业后三年都获得了极高的收入。我们是否该马上报名参加,好早一点学会这致富经呢?且慢,我们仔细检查这些数据,兴许会发现这么一个悚然一惊的事实——这些学员在入学前已有一定的经济基础,正因为如此他们才担负得起高昂的学费,则他们增长的收入很大程度上来自于已有的基础。如果你本来不富有,恐怕训练班也不能教会你什么让你变得有钱。
另一个相关研究这样宣布:收入和智商呈现正相关。不用怀疑,在某些情况下这很可能是真的。我们知道,孩子的智力发展和家庭教养环境高度相关,那些家境良好的孩子往往能接受很好的医疗和早期教育。出身良好往往确实意味着拥有高智商的机会增加了。但这个例子并非说高收入导致了高智商,而是提醒我们,亟需帮助那些家境不好的孩子获得良好的教育。
这些例子告诉我们,轻易归因是隐患重重的。世界上有联系的事物甚多,但确定因果关系却需慎而又慎。
抽样,你的数据代表谁?
最常见的统计数字误导恐怕就是来自抽样的问题了。试想这么一个问题:中国成年男性的平均身高是多少?按照平均数的计算方法,我们应该测量所有成年男性,然后将身高加在一起再除以人数,这显然是不可能的。可是,我们设计家居时,人类工效学的工程师却告诉你,这个数字是170厘米。这是怎么得出的呢?
要计算这个数字就需要进行抽样。从所有成年男性中抽出一个样本,计算样本的平均身高,以这个数值作为中国所有男性平均身高的估计。只要样本选取得当,这个估计值就非常可信。
如何才能算作得当?首先是需要样本足够大,尽可能减少随机误差带来的干扰。这个“大”在不同的情况下是很不一样的。如果我们研究的是一所学校,可能选取一到两个班就可以了。可如果涉及的问题是全国性质的,可能人数就要达到数千、数万甚至更大。样本容量有保证是一方面,另一方面是样本选取不能有偏,就是样本能很好的代表总体。
我们知道,中国各地的人身材是有一定差异的,如果仅仅选取某些地区进行测量,就可能得出一个和真实情况差别很大的结果。最后,还有一点,很多调查受到社会赞许倾向的影响,例如,恐怕很少有人愿意填写问卷承认自己歧视农民工,但实际言行显然是另一回事。
看到这里,读者可能已经想到了网上常见的所谓民意调查。且不论是否可能造假制造所谓“民意”,这些结果是否能够采信都值得存疑,其原因就在于样本构成大有问题。
某网站将调查放出,最可能看到这个调查的是这个网站的常客,而他们参加调查的动机各有不同。某些话题更能引发人的兴趣,有些则只是很少的人关心。这都会导致最终参加调查的人是一个有偏的样本。结论可能代表了这些人群,却不能推广到全体。不妨试试,在高档消费网站投放一个增加税收以补助农村医疗的调查,看一看能回收哪些意见。
如果我们现在做一个调查,看一看最初恢复高考的三年中几所名牌大学入学学生如今的年收入,你一定会得到一个高得吓人的数字。我敢如此肯定并不是我熟悉他们的社会成就,而是因为我了解调查的缺陷。可以想见,当年的那些大学生虽然有案可查,但能够准确联系调查的却只有一部分较为成功的人了。其中有一些人虽然联系上了,却不一定愿意接受调查。最后,还不能排除一些人受赞许倾向的影响,有意无意地提高报告自己的收入水平。最终,调查员只回收了那些成功人士的数据,而沉默的大多数却被“统计式”地忽视了。
还不得不考虑,平均数也有一个小小的麻烦,它特别容易受极端数据的影响。回忆一下小学时老师对一个差生拉下全班平均分的愤懑表情。以及,一个月收入五万的老板和五名月收入两千元的员工享受着一万元的月平均工资,而这个平均数居然是一个员工月收入的五倍之多。
上一页 [1] [2] [3] 下一页
|
上一个数学: 佩雷尔曼:大隐隐于“数” 下一个数学: 数学魔术系列之魔术师的硬币 |
|
|
|
|