Archive

Archive for the ‘谈点专业’ Category

砖家的预计——推断统计之痛

March 3rd, 2010 Qi 1 comment

小时候一直很好奇诸如这类的专家预测:

到2020年中国个人消费将超过2.5万亿美元,成为仅次于美国和日本的世界第三 …

预计1999全市可完成肉类总产量9.7万吨,比上年增加1万吨,增长11.5%;禽蛋产量1.5万吨,比上年减少776吨,下降近5%

直到高中了,我还是没有想通凭什么他们敢这样预计呢?向来复杂、变化的世界如何能在这些专家的笔下,变得如此具体而又必然?

还是本科时的统计课上,我才恍然大悟地意识到他们(很大一部分)是怎么做的——玩弄数字。

先抛开数据背后的一切涵义不看,假设我们有两组数据X和Y,他们之间是否存在因果关系未知。作图如下

这组数据显得是如此线性,几乎是很自然地,我们就会构想出一条直线,从而预测X>20的所有对应的Y值,我们甚至还运用统计方法估计出了这条直线的方程

这条直线是如此完美以至于拟合度(R-squared)达到了99.95!依据这个方程,于是有人断言:“当X=25的时候,Y的预计值为1.5448”。然后又有砖家放炮(举个夸张的例子):“当X=1000的时候,Y的值预计为23.0923”。他可能甚至还给出了预测值的置信区间,告诉你95%的情况下Y的范围在哪里。

但是,当X被延伸到1000的时候,图像会变成这样:

在真实的数据中,X=25时,Y=1.5625——预测还是很精确的;但是当X=1000的时候,Y的真实值是121,和预测值相差十万八千里。事实上,如果画出预测直线的话,图片会是这样:

两者在X<=42时,相差还能在5%以内;当X=1000的时候,相差超过了80% (相对真实值而言)。事实上,蓝色曲线的方程是Y=(1+X/100)^2。

当然,如果有好的工具(比如说计算机),人们是可以通过20个样本数据正确推断出方程的(因为这个方程里没有随机量)。但是,如果Y=(1+X/100)^2+e; e~N(0,1),用20样本找到真实方程的难度显然倍增。更不用说Y=(1+e/10+X/(100+f))+g; e, f, g~N(0,1)了。

我们都知道,运用小样本来预测是非常危险的,即便两个变量的关系是线性的。(置信区间的大小和样本容量的平方根成反比)意味着容量越小,置信区间平方增大,从而推断越不可信。

但是,即便运用大样本,在缺乏其背后理论支持的情况下,模型错误的概率都是很大。

这就是很多人运用统计推断方法进行数据研究的悲哀——我们都希望数字能够按照我们感知的趋势变动,而悲哀的是,我们的感知常常是错误的;且不用说在有些时候,数字的变化确确实实是100%随机的。

当麦肯锡作出2020年中国个人消费的预测的时候,我并不太怀疑所用模型计算上的正确性:有了电脑,能把回归算错的概率实在不是很大。但重要的是,模型只和它的假设一样正确(我不知道该怎么翻译: a model is only as good as its assumptions)——如果假设是错误的,再漂亮的模型也只不过是Garbage-in, Garbage-out.

与其多跑几次回归分析匆匆得出结论,还不如踏踏实实研究数据变动背后的理论来得实际;即便前者往往更酷更炫。人们都喜欢用模型来简化世界,但是世界从来就没有简单过,简化来简化去最后的结果只是简化了自己结论的可信度。

比如说这个玩的很炫的预测,其实一点reasonable的支持都没有:http://www.ted.com/talks/hans_rosling_asia_s_rise_how_and_when.html

Categories: 思考, 谈点专业 Tags:

算是讲专业

November 28th, 2009 Qi 4 comments

有效市场假说(Efficient Market Hypothesis)也叫有效市场理论,是金融学领域一个极其牛逼的理论,由Eugene Fama于上个世纪60年代提出。从提出起至90年代中期的三十年间,EMH受到了广泛的认可,并在理论和实践中得到了一次又一次的证明。

EMH按efficiency从低到高分为三种形式(Weak form, semi-strong form,和strong form,其比较受认可的一个中心思想是[1]:如果不承担高于市场的风险,投资者无法获得高于市场的回报。技术分析(一种看历史数据判断股票未来走势的方法)在weak form efficiency中失效,基础分析(通过分析公司财务报表等内容判断股票价格是否合理)在semi-strong form下失效,内幕交易在strong form下失效。

在发达国家透明资本市场[2]多年的实践检验下, weak form efficiency基本是成立的,semi-strong efficiency在大多数情况下还是成立的,而由于内幕交易的确能带来很大的利润,即便在英美等国家的资本市场内,strong form还是无法成立。

EMH并不是完美的理论,甚至远离完美[3],但还是目前还是受认可度最广的理论。按照Andrei Shleifer的说法,EMH的基本假设有三:1)投资者的理性2)如果投资者不完全理性,其非理性会互相抵消,导致总体理性3)市场存在大量套利行为,导致交易价格能够完全体现投资风险。

这样一来,按照EMH的说法,基础分析就失去了其基本意义:既然无法获得额外利润,为什么还要进行基础分析呢?

这个说法对个别投资者来说是成立的,但是对于整个市场来说:如果没有人做基础分析,谁又能发现股票的内含价值呢?

换个说法,EMH能够成立的一个隐藏基础就是:任何时候都有大量投资者对股票进行分析,发掘没有被合理定价的股票从而进行投资,而大量的该种投资行为能够导致股票价格回归到其价值。

EMH的成立不代表着投资者不用进行基础分析,基础分析无法获利是针对整个市场而言的,并不是说基础分析没有价值——那些行动最快的人是能够通过基础分析获利的。

换句话说:没有基础分析就不会有EMH,不能因为感觉有EMH了就否定了基础分析。


之所以题名叫《算是讲专业》,是因为根本就没有想写专业。

起源于晚上的一段小讨论:

和同学谈到中国存在的腐败、污染以及种种现象和西方国家对中国的种种批评,有人说到:

给他们10亿人试试看,这些发展过程中必须的,早个100年他们也都这样。

诚然没错,早个一百年他们确实也都这样,美国也有毒牛奶;hopefully,我们也能在100年,甚至更少的时间内达到西方国家现在的状况。但这并不是我们停止批评,停止进程的理由。

就像股票价格迟早会反应其真正价值的说法并不能成为爱钱的人们停止挖掘股票真正价值的理由一样!

FOOTNOTES
1. 具体点说:weak form的中心思想是”股票价格包含(体现)过去所有与股票相关的信息”;semi-strong form除了包含weak form以外,还强调了”股票价格包含所有公开信息”;strong form在包含了前两种的基础上,进一步提出”股票价格还包含所有非公开信息”,当然,这种形式的EMH已经被实践所否定。
2. 有学者对中国的资本市场做过研究,发现其股票收益存在着显著的序列相关性。见Burton Malkiel. Investment Opportunities in China. July 16, 2007. Burton Malkiel是EMH的强力支持者,著有A Random Walk Down Wall Streetf
3. 近年来最大的挑战来自于行为金融学(Behavioral Finance)

Categories: 思考, 谈点专业 Tags: