砖家的预计——推断统计之痛
小时候一直很好奇诸如这类的专家预测:
到2020年中国个人消费将超过2.5万亿美元,成为仅次于美国和日本的世界第三 …
预计1999全市可完成肉类总产量9.7万吨,比上年增加1万吨,增长11.5%;禽蛋产量1.5万吨,比上年减少776吨,下降近5%
直到高中了,我还是没有想通凭什么他们敢这样预计呢?向来复杂、变化的世界如何能在这些专家的笔下,变得如此具体而又必然?
还是本科时的统计课上,我才恍然大悟地意识到他们(很大一部分)是怎么做的——玩弄数字。
先抛开数据背后的一切涵义不看,假设我们有两组数据X和Y,他们之间是否存在因果关系未知。作图如下
这组数据显得是如此线性,几乎是很自然地,我们就会构想出一条直线,从而预测X>20的所有对应的Y值,我们甚至还运用统计方法估计出了这条直线的方程

这条直线是如此完美以至于拟合度(R-squared)达到了99.95!依据这个方程,于是有人断言:“当X=25的时候,Y的预计值为1.5448”。然后又有砖家放炮(举个夸张的例子):“当X=1000的时候,Y的值预计为23.0923”。他可能甚至还给出了预测值的置信区间,告诉你95%的情况下Y的范围在哪里。
但是,当X被延伸到1000的时候,图像会变成这样:

在真实的数据中,X=25时,Y=1.5625——预测还是很精确的;但是当X=1000的时候,Y的真实值是121,和预测值相差十万八千里。事实上,如果画出预测直线的话,图片会是这样:

两者在X<=42时,相差还能在5%以内;当X=1000的时候,相差超过了80% (相对真实值而言)。事实上,蓝色曲线的方程是Y=(1+X/100)^2。
当然,如果有好的工具(比如说计算机),人们是可以通过20个样本数据正确推断出方程的(因为这个方程里没有随机量)。但是,如果Y=(1+X/100)^2+e; e~N(0,1),用20样本找到真实方程的难度显然倍增。更不用说Y=(1+e/10+X/(100+f))+g; e, f, g~N(0,1)了。
我们都知道,运用小样本来预测是非常危险的,即便两个变量的关系是线性的。(置信区间的大小和样本容量的平方根成反比)意味着容量越小,置信区间平方增大,从而推断越不可信。
但是,即便运用大样本,在缺乏其背后理论支持的情况下,模型错误的概率都是很大。
这就是很多人运用统计推断方法进行数据研究的悲哀——我们都希望数字能够按照我们感知的趋势变动,而悲哀的是,我们的感知常常是错误的;且不用说在有些时候,数字的变化确确实实是100%随机的。
当麦肯锡作出2020年中国个人消费的预测的时候,我并不太怀疑所用模型计算上的正确性:有了电脑,能把回归算错的概率实在不是很大。但重要的是,模型只和它的假设一样正确(我不知道该怎么翻译: a model is only as good as its assumptions)——如果假设是错误的,再漂亮的模型也只不过是Garbage-in, Garbage-out.
与其多跑几次回归分析匆匆得出结论,还不如踏踏实实研究数据变动背后的理论来得实际;即便前者往往更酷更炫。人们都喜欢用模型来简化世界,但是世界从来就没有简单过,简化来简化去最后的结果只是简化了自己结论的可信度。
比如说这个玩的很炫的预测,其实一点reasonable的支持都没有:http://www.ted.com/talks/hans_rosling_asia_s_rise_how_and_when.html


写的太好都没人敢留言啦
虽然是个外行,不太适合评论,可我觉得分析的很好耶
应该多让那些看得懂的人看到
@栾嘉悦
呵呵,我只是看了链接里面的那个视频以后想抨击一下…
“与其多跑几次回归分析匆匆得出结论,还不如踏踏实实研究数据变动背后的理论来得实际;即便前者往往更酷更炫。人们都喜欢用模型来简化世界,但是世界从来就没有简单过,简化来简化去最后的结果只是简化了自己结论的可信度。”
这种态度适合去读economics。
@Molly
呵呵,现在的economics也几乎完全”econometricalized”了