闫志伟的网络日志 » 首页 » 关于 » 归档

最近,我在网上看到一份榜单,《2015中国高校毕业生薪酬排行榜》。本科生毕业五年之后,复旦大学以11661元/月的平均薪资在榜单中排名第二。

看到这份榜单和这个数字之后,我首先想到的是,它是税前还是税后?报告没说。在上海,工作五年,不管是税前还是税后,这样的工资应该都不算高。想以这样的薪水在上海买房,几乎不可能。更不用说,很多人在毕业五年之内可能已经结婚并考虑生小孩。

我突然意识到,这个数字是真实的吗?

据说,这份榜单由标准排名(中国)研究院基于专业求职网站ipin.com上全国620所本科院校的数据制作而成。而我,对于这个排名机构和求职网站都没有听说过。只能说,我又一次拖了母校的后腿。

如果它是一个真实的数据,也仅仅代表了这一届学生中可以联系到的,并愿意站出来说出自己所赚数目的这个特殊群体。当然,它的真实性还建立在这样一个假定基础之上——这些人说的都是真话。

一个以抽样为基础的报告排名如果要有价值,就必须使用具有代表性的样本,这种样本排除了各种误差。无形的误差与有形的误差一样容易破坏样本的可信度。也就是说,即使你找不到任何破坏性的误差来源,但只要有产生误差的可能性,你就有必要对结果保留一定的怀疑。最基本的样本应该是随机样本,它应该是完全遵循随机的原则从总体中选出的样本。

上面这段话出自《统计数字会撒谎》这本书的第一章。

在这本书的开头,作者通过一个简单的例子让我们直观地看到如何形成有偏的样本。

假设你向人们发放问卷,问卷中包含这样一个问题:“你乐意回答调查问卷吗?”整理所有的答案,你很有可能得到下面的结论:“一个选自总体、典型的样本”中,压倒多数的人选择了“乐意”。为了具有说服力,你还可以详细列出这个比例,直至最后一位小数。事实上,大多数持否定意见的人,已经随手将你的问卷丢进最近的纸篓中,从样本中自动除名了。哪怕最初的样本中,10 个里面有9 个会当这种“投手”,在宣布你的结果时,你仍然会遵从惯例,忽略他们。

现实生活中,样本会按照上述方式变得有偏吗?一定会。就像前面给出的那份排行榜。

当然,这份榜单未必完全不可靠。大体上,它指出了,在中国,名校,一线城市,热门专业能够提高你获得高薪的几率。高考刚过,不知道哪家欢喜哪家忧。

(完)