87.53%的事着实让大家激动了一番,但当我正准备说点什么的时候心里始终不踏实,总觉得可能不是大家所想的那样。我不能做人云亦云的事。所以专门到国家统计局的网站上搜了一下,并且在google里加上site:http://www.stats.gov.cn/来搜87.53,并没有关于BTChina的内容,并且也没有夸张到出现那么多87.53%。后来再多搜了搜,找到了下面这篇文章。原来一切源于一个玩笑。
不过话又说回来,真真假假,谁知道呢。只是这类事情大家兴趣这么高涨,几乎是一呼百应式地集体开骂,正体现出大家对政府的不信任。说实话,我心里倒还希望87.53是个真事呢(内心有点阴暗)。
转发一下这篇文章吧,希望大家理性看待事情,遇事多思考一下,不要说风就是雨。
2009年12月17日更新:
首先在这里向以下文章的原作者Chrisic郑重道歉,在本文发布时没有说明来源,后来受到原作者的批评。现已认识到了自己的错误,补上原文信息,并做道歉,希望能得到Chrisic的原谅。 以下内容引自Chrisic的博客。 原文已作修改,链接为:http://momentago.cn/blog/2009/12/truth-of-magical-number-8753.html |
BTChina的被封引出了一系列有趣的故事。现在我们来回顾一下,政府一个“得民心”的举动,是如何遭到大量网民的大肆调侃的。
从10日中午起,一条消息在人人网、Twitter、新浪微博受到大规模围观并引发大量的转发:“国家统计局称,在他们随机调查的100位网友中,有87.53%的网友支持封杀BTchina。” 与此同时,有两个不同的数字——83.xx%和94.xx%——以同样的方式小范围地转发传播着。人人网的童鞋们纷纷表示不解。有童鞋要求国家统计局公开 调查数据,有部分童鞋对牛逼的小数部分0.53表示理解。而在两个微博客网站中,消息经过一轮转发后,因为热文程序的抓取和发布,令更多的人知晓并参与到 转发消息的行列中,造成这条信息在微博客圈内广泛流传。网友纷纷质疑统计局的工作能力。
10日晚,李笑来老师在自己的博客发布了一篇文章,再度引爆了网友的质疑情绪。文中没有添加和引用任何个人或网友的评论,只是通过使用搜索引擎,列出了一大串出现过87.53这个数字的新闻。经过年中“工资被增长”事件之后,人们对国家统计工作开始采取不信任的态度。李老师的此文一出,当即引爆了网友对国家统计工作的强烈质疑。有网友愤愤地说, (国家统计局的)这帮人现在连抄作业的基本原则都忘了。有心思慎密的网友戏谑道,87.53这个数字原本应为87.6543,但因为一些众所周知的原因删 去了其中两个数字。当然也有网友表示反对意见,指出通过利用分数逼近的方法,可以推论出多个分数都能约等于87.53%,因此87.53%在政府公布数据 中多次出现,仅为巧合。其后有网友列举出84.62也在搜索引擎收录到的政府公布数据中多次出现。
11日凌晨,一条信息开始在Twitter上转发传播:“刚才关于统计局的消息仅是为博大家一笑,由于没有写好,导致大家理解偏差。我在此道歉,并希望大家转发本贴,仅为辟谣。”作者是ID为yhog的Twitter用户。而后来经过多方消息综合,证实yhog即为“国家统计局称,在他们随机调查的100位网友中,有87.53%的网友支持封杀BTchina。”的原作者。作者在后来表示,87.53%的消息,原意只是写个段子让网友笑一笑,没想到最后竟发展成一股谣言。
然而一波未平,一波又起。在道歉之后,yhog发布了一条真实的新闻:“有关部门称,在某地调查的100人中,支持冬季阳光长跑的家长占97.38%。”同样的笑点让网友再一次为之疯狂。但是,这个消息很快就得到平息。
关于“100人中支持冬季长跑的占97.38%”的消息,原始出处是新华网引自大河网-大河报的一篇报道。报道中指出,其 调查问卷共发放100份,有效回收100份;调查显示,在对运动项目的兴趣方面,跑步、羽毛球、篮球、乒乓球很受学生青睐,其比例分别是58.17%、 58%、45.69%、42.18%,而选择足球的仅有15.29%,选择其他的有13.18%;在调查长跑活动给学生带来的好处时,92.79%的学生 认为强健了自己的身体,79.44%的学生认为磨炼了自己的意志力,认为能缓解压力和促进学习进步的学生分别有60.46%和49.38%。
网友luosheng对上述这一大堆无法理解的两位小数作了统计学上的解释——在计算样本容量的时候要考虑一个置信区间的问题,也就是说调查了100个人,但是并不认为这100个人都是认真作答的,因此会在样本容量上再乘上一个置信度。在luosheng推荐的维基百科链接中,我们可以了解到,统计学上有一个概念,叫“置信区间”。
置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信空间给出的是被测量参数的测量值的可信程度, 即前面所要求的“一定概率”。这个概率被称为置信水平。举例来说,如果在一次大选中某人的支持率为55%,而置信水平0.95上的置信区间是(50% , 60%),那么他的真实支持率有百分之九十五的机率落在百分之五十和百分之六十之间,因此他的真实支持率不足一半的可能性小于百分之五。
也就是说,新华网引述的报道中,调查得出的带有两位小数的数字,并非原本回收到的问卷中表示赞同或支持的直观统计结果,而是直观统计结果乘上数据可 信程度之后得出的“可以相信”的统计数据。又因为数据可信程度一般采用95%或98%甚至99%等置信水平,因此,统计数据出现两位小数并不出奇。网友也 无需大惊小怪。
下面是文章原作者后续内容:
学术文,兼关于“置信区间”部分的更新
之前我在上面写到的关于“置信区间”的说法是错误的。带有小数的百分比(比如我们熟悉的87.53%)并非所谓“直观统计结果乘上数据可信程度”之后得出的数字(单纯的“乘上”这个概念是错误的)。更有可能的是,87.53%是一个估计区间的上界。以下转发一段应该算容易理解的专业讨论(原帖)。有看不懂的可以点击我在文中添加的链接稍稍了解一下。
|