返回话题列表
土狗和他的朋友们
2021/12/12 18:05
类型 talk 45阅读 1

越多的数据越多的麻烦 在复杂...

发布者:沧海一土狗

越多的数据越多的麻烦

在复杂现象的研究中,有这样一个常见的误区,就是把两个时序数据放在一块,企图发现什么规律,譬如,cpi和十年国债利率、十年国债利率和pmi、十年国债利率和沪深300指数、ppi和石油价格,如此种种。 把这些数据放到一块,我们总能发现某种规律。 一般来说,我们对于这些规律的信心是取决于数据的数量的。对1年跨度的数据尚且不硬气,对5年的数据则硬气一些,10年更硬气一些,对于长达百年的数据则自信的不得了。能起一个特别牛逼的题目——百年利率研究blabla。 但是,稍微受一些计量经济学训练的人,在把两条时序数据放到自己ppt上时,总是心怀警惕,怕下面有人diss自己伪回归。 不幸的是,“两条时序数据拟合”+“堆砌数据规模”的做法是一种十分诱人的做法,一旦有人带头这么干,风气慢慢就垮了,即便是受过训练的人也愿意“入乡随俗”式地放一放这样的图片。 数据多就是正义吗?并不是,堆数据的做法其实很蠢。 在这里给大家找一个小拐棍,破除此类妄念。 在统计学上有这样一段掌故,大统计学家卡尔-皮尔逊是曾经研究过人类的颅骨,他获得了大量的人类的颅骨,并分别测量了这些颅骨的长度和宽度。他发现长度和宽度有大概0.2的相关性。 但是,如果把这些颅骨按照性别分组,我们会发现一个十分奇妙的现象。相关性消除了。男性组和女性组的相关性都接近零。 如果我们贸贸然随机选取一些人类的颅骨数据,一定会发现某种相关性。这种相关性跟数据多少没有关系,数据越多我们越信。 于是,我们可能得出一个比较蠢的结论——人类的脸型符合一定的模式,有一个平均的长宽比率。 但是,控制住性别的分组数据,告诉我们这个规律不存在。这种相关性反馈的只是男性的平均体格大于女性的平均体格。 用因果图来表示就是,性别这个变量既影响颅骨的宽度,也影响颅骨的长度,即微弱的相关性来自于共因。 这个掌故很经典。我们在这里讨论的重点也不是共因所造成的相关性。我想展示的是,对于复杂事物而言,数据的生成机制很复杂。简单归纳的规律可能是对的——真的存在标准的人类脸型模式;但也有可能存在一个更加简单粗暴不值一提的规律——相对于男性,女性普遍娇小一些。 所以,一旦你简单地扎到数据(ps:数据的另外一个表述是现象)里,灾难刚刚开始,越努力越失败。你需要思考的是更高维度的东西,相关性是来自于因果、共因还是幸存者偏差?数据如何生成(ps:另外一种表述是理论)的才是我们应该推测的东西,而不是,仅仅盯着数据以及数据的规模。 百年的数据总结又如何呢?你分析一亿个人类颅骨样本,只要你不控制性别,你还是得出一个蠢蠢的结论——存在标准的人类脸型模式。 框架琢磨的不够,数据规模来凑,他有一个好听的名字叫证实偏差。 想清楚这一点之后,我们就能搞明白,分析国债利率和沪深300指数的关系有多蠢了,他们能存在什么规律啊?根据我们的联合定价模型,债券价格和股票价格都是同时被外生的冲击确定的,他们并不存在什么真的因果关系。 也就是说,只要你琢磨清楚了联合定价的道理,你就能斩钉截铁地说,a、b、c、d、e、f、g的价格是同时被一系列其他的外生变量——经济景气度、政策决定的。价格之间还谈什么因果呢? 说实话,每次碰到类似于“利率下行导致股票价格上涨”的说法,我都有些哭笑不得。但我们真的没办法,这些想法就是很流行,很普遍。虽然统计学上的常识,200年前就有了。 既然各位朋友来到我的星球,我希望大家能掌握一些小技巧,不要被类似的魑魅魍魉所迷惑: 1、数据越多往往错得越离谱; 2、要站在数据生成机制的高度想问题; 3、价格之间不存在因果关系,大家共同构成一个向量,是一起被别的东西所决定的; 4、至少记住皮尔逊那个小案例,标准脸vs男女体型差异; 用数据、案例、现象骗人更容易一些,用理论骗人难一些。