返回

甘犁:有了故事,数据才有价值

2016/7/8 浏览量:673

有了故事,数据才有价值

 

 文汇学人访谈

甘犁

西南财经大学中国家庭金融调查与研究中心主任

 

要采访甘犁,其实是个夙愿。在各种探讨中国经济发展的学术会议上,甘犁的数据总会不经意间入耳。不过,多年来掌声阵阵,却始终没能压过质疑之声。

2012年12月,西南财经大学中国家庭金融调查报告显示,2010年中国家庭基尼系数为0.61,这个数字远远高于而后国家统计局公布的0.481,由此引发了广泛的争论和质疑,一时间领衔人甘犁也被推上了舆论的风口浪尖。

甘犁说,中国家庭金融调查(CHFS)要做的是“让中国了解自己,让世界认识中国”。而媒体要做的是让公众走近甘犁和他的数据。为此,本刊在“上海论坛2016”上采访了甘犁。

如果说二三年前甘犁回应质疑之声的“檄文”锐气十足,那么如今坐在记者对面的这位学者则是一脸平和,言语不急不缓。

唯一让他眉头一蹙的却是经费,对此甘犁并不避讳。乍听起来似乎有辱读书人的清高,不过想想倒也来得诚恳:

从三江源的玉树,到长江口的上海;从古老的西安,到崛起中的深圳;从中俄边境的绥滨,到热情的海南岛三亚;从繁华的首都北京城,到静谧的贵州沿河……这位学者正带领着几千名20岁出头的年轻人用双脚去丈量我们的国家,他是领队,是家长,是管家,粮草之事自是他的燃眉之痛。

“中国的发展不再停留在‘摸着石头过河’的日子。今天,中国的发展需要更全面、更真实、更详尽的数据”,寥寥数语却道出了一位经济学人的初心。

为何经济学家总是对于“靠谱的数据”如饥似渴?

作为公众,我们应当如何打量经济数据?

大数据真的是那把厘清千头万绪的神奇钥匙吗?

让我们听甘犁娓娓道来。

 

数据本身远不是调查研究的最终目的

文汇报:我们常说,中西方之间的误读往往源自彼此间不够了解。双方在历史、文化、语言等诸多方面的差异,许多时候成了沟通的障碍。您认为数据能够扮演那门统一的世界语言的角色吗?

甘犁:中国的学者,尤其是研究社会科学的学者,往往重逻辑、重思辨,习惯引用案例,提出观点。而西方人相对更重数据。置身这个多元化的世界,你举一个案例,我讲一个故事,很难找到可比性,也不易相互借鉴。这种情况下,大规模的统计数据就成了大家讨论的基础,这以后才是思辨的过程。今天,我国经济发展的地域性差异客观存在,用上海、拉萨或者成都的情况来类推全国的状况都是片面的,只有统计数据才能够在一定程度上实现整体状况的呈现。

以美国为例,各调查机构出具的海量调查数据力图在各个维度上还原属于那个国度的真实,所以西方学者在谈问题的时候,几乎不谈基本情况,因为数据都摆在那里。今天,中国经济学界迫切需要的恰恰就是这个讨论问题的基础。

我们谈以房养老,很多人认为这是养老方式的一种选择。可是如果我告诉你,城市普通老年家庭资产配置中房产的比例是91%,或许很多人就不会就以房养老政策是否要推广争得面红耳赤了,而是把时间花在探讨如何去推广的问题之上。

可喜的是,以高校为主,现在全国各地很多团队都在做各个领域的调查统计工作,相信很快就会形成一支浩浩荡荡的社会调查的洪流。大家各有侧重,并行不悖。眼下暨南大学正与我们合作,进行针对就业市场的调查;南京审计大学计划与我们合作,专门针对城乡治理展开调查;北大老龄化调查也取得了很大的成果;北师大的真实进步调查为公众打开了一个GDP以外的视角,去打量中国家庭的柴米油盐。

文汇报:《数据之巅:大数据革命,历史、现实与未来》的作者涂子沛说过“尊重事实,用数据说话”。在您看来,数据和事实之间有着怎样的关系?

甘犁:通过严密的抽样调查,科学统计得来的数据是对现实的整体把握。学者的责任则是依据这些数据去还原现实发生的故事,搞清楚事情的来龙去脉,而非列陈一系列的阿拉伯数字,数据本身远不是调查研究的最终目的。所以,我们的口号是“让中国了解自己,让世界认识中国”,这也是包括我们这些“生产”数据的人在内,每一个使用数据的人的使命。大家在不同的层面去探究,并彼此借鉴,分享发掘的快乐。

事实上,直到今天我们还没有公布2015年中国住房空置率的调查报告。因为空置率的数字本身并没有什么意义,我们还在不断地分析它,试图更加充分地理解它,厘清它的社会学与经济学含义。上个月,我在浙大举办的一个学术会议上作了关于土地流转调查的报告,一来是学术交流,二来我是希望聆听业内学者的意见,因为中国土地流转的情况复杂,不同学者直觉的差异能够帮助找到那些可能被我们忽略的问题,丰富研究的内容。

文汇报:作为数据的“生产者”,中国家庭金融调查的数据是给谁看的?

甘犁:需求不一样,受众不一样。我们最初的想法是做给自己,因为我们要研究中国。后来发现数据的意义早已超越了学术界,它可能对政府的政策制定、行业发展,甚至老百姓的柴米油盐提供引索,我们也就越走越远了。

比如我们关于住房空置率的调查,为百姓购房卖房行为提供了参考信息,后来甚至在某种程度上影响了调控政策。这件事听起来很复杂,其实对于我们而言则很简单,只是在信息库里随机取样,然后就去问“你们家有几套房子?住几套?空几套?”,答案自然就出来了。

调查过程中,我们惊异地发现,我国老百姓的金融资产配置走向两个极端,一部分家庭表现出十足的风险喜好,一部分家庭似乎非常厌恶风险,而鲜有“中庸者”,这在全世界都是不多见的。我们试了年龄、家庭结构、收入水平、风险态度、受教育程度和居住条件等等诸多原因,却一再被推翻,各层次各群体都存在类似的两极分化。最后一个可能的假设就是我国金融市场的限制——金融市场提供的产品的特征:一来产品单一,一来门槛太高。当然,这还需要我们不断地探究。

 

执着于数据绝对值的大小是条歧路

文汇报:2012年12月,西南财经大学中国家庭金融调查报告显示,2010年中国家庭基尼系数为0.61,这个数字远远高于而后国家统计局公布的0.481,由此引起广泛的争论和质疑,一时间您也被推上了舆论的风口浪尖。今天回头去看,您本人如何看待这个数字?

甘犁:作为一个学术研究机构,我们有责任公布这样的数字,只要是以充分的社会调研与严谨科学的评估为前提。更重要的是,我觉得长久以来我们审视数据的视角存在偏差,过于执着其绝对值的大小,而非判断它从何处来,又当去往哪里。直至今天,我都认为基尼系数看起来较“高”并非全然坏事,完全没有必要为之大惊失色。

就数据本身而言,此基尼系数非彼基尼系数。在美国、日本、德国等发达国家,其公布的基尼系数往往在0.3左右,看似其收入差距要小很多,然而需要注意的是这个基尼系数是在转移支付之后得来的。在转移支付和税的调节之前,市场初次分配时其基尼系数大致应该在0.5上下。而我国几乎没有转移支付,我们的收入税调节作用也是非常有限的,中等收入群体更多地扮演了纳税主体的角色。在这种情况下,较“低”的基尼系数反而说明了市场经济的欠发达程度,偏“高”的基尼系数则在某种程度上肯定了市场分配资源的程度。毋庸置疑的是,不论东、西部的差异,还是农村、城市的差异,不论教育资源的差异,还是医疗资源的差异,我国的不平衡状况是客观存在的,且显著于西方。而资源分布差异与收入差异往往同时存在,它是市场调节的正常结果。

我们常常纠结,为什么经济转型“转”了这么多年却还是“转”不过去?调查后我们发现,近年来我国养老保险、医疗保险的覆盖率大幅增加,基本上做到了人人有医保,百姓对于未来的不确定性正在一天天减少,那么为什么大家还会捂着钱袋子不肯消费呢?事实上,我们只是看到我国总体宏观储蓄率很高,家庭平均储蓄率为30%,然而并非家家户户都是把30%的资产放进了银行,资产排名前20%的家庭或许把80%的收入存进了银行,而后1/3的家庭可能是入不敷出的。他们是没有消费的条件,而非没有消费的动机。所以,这些年来我们千方百计去刺激消费,却收效甚微,这才是我们应该透过基尼系数读出的内容。

我们国家对于低收入居民的保护更多体现在“低保”上,对于大多数地区人均徘徊在三四百元上下的“低保”水平而言,难怪这部分家庭对于消费“刺激”无感。在此,我列陈一下美国的数据,最贫困的20%美国家庭,平均收入是7500美元,转移支付后达到3万美元(包括社保在内),因而基尼系数从0.49降到0.39。个人认为,我们应该像大多数国家那样,进行转移支付,进行大规模的二次分配。美国所得税的“以奖代补”制度具有一定的借鉴意义——在美国30%的家庭所得税税率是负值,可以是-30%,这就是说部分低收入家庭每赚1000美元,不但不用纳税给国家,还会收到国家奖励的300美元。

长久以来一直有种说法,讲收入差距大了以后会影响社会稳定,并给出了一个所谓“0.4”的警戒线,我认为这种提法纯属子虚乌有,因为它没有任何的学术研究、文献做支撑。似乎仅仅有这样一个联合国报告,但是没有人知道它出自谁之手。事实上,今天大量的实实在在的主流学术研究并没有过分关注收入差异本身,而是不约而同地把目光聚焦在了“机会的平等”之上,如就业的平等、教育资源的平等、医疗资源的平等,等等。值得庆幸的是,在我国“机会的平等”具有传统优势——高考制度,它在相当程度上确保了代际流动性。近年来,我国代际流动性有所下降,但是横向比较仍具一定优势。

越来越多的人引用中国家庭金融调查的数据是对我们的信任与认可,但是我并不希望数据只是被简单地引用,而是希望使用者可以通过数据厘清我们当前的生活。比如有人对中国的改革开放政策不满,就搬出了我的基尼系数,而抛弃其真正的社会学、经济学含义,这就是典型的本末倒置、断章取义。

 

科学研究的昂贵是值得的

文汇报:据我所知,到现在为止,中国家庭金融调查已经花掉了一亿多的科研经费。对于学术研究而言,一亿多人民币的开销是不是有些奢侈?

甘犁:说来惭愧,在中国搞社会科学的学者或许还没有人像我花了这么多钱的。不过,科研原本就应该是昂贵的。中国家庭金融调查的项目启动资金自然是来自学校,到2011年第一轮调查结束,学校投入了近千万经费。直到今天校方从未停止对于项目的支持,但是我们必须投入很多经费在绘图员、访员身上,以把这些孩子安全地送达大江南北,并无恙接回。所以,我们从未摆脱“筹款”与“愁款”的窘境,今天亦然。幸运的是,社会调查的脚步得到了社会上很多企业、机构的认同与扶助,“汇付天下”就给了我们很大的经济支持。此外,我们也在尝试构建“自给自足”的可持续成长。现在,我们正和阿里巴巴合作,据其提供的数据进行政策分析。

事实上,请学生赴实地调查的成本是很高的,远远高于在当地请专业调查人员的成本。调查启动之前,我曾去统计局询过“价”(统计局接受一些社会调查的项目),当时的报价只是后来我们实际成本的1/3。然而,学校态度坚决——“一定要把社会实践与调查项目相结合”。换句话说,学校给了我那么多经费,要的不只是调查结果,更多是对于学生的培养。然而让人出乎意料的是,很快我们发现这样做的效果特别好,不只是调查过程中学生的成长,调查质量也很高,以至于现在国内很多高校的社会调查都采用这个模式。

在我国,相关行业规范尚不清晰,甚至空白。在这种情况下,践行者对于法规、部门监管和政策环境的理解面临挑战。作为首家提供全国范围内数据服务的机构,我们的探路之旅也伴随着诸多不确定性。

令人欣慰的是,越来越多的人在用我们的数据,越来越多基于中国家庭金融调查数据的学术文章发表。2011年调查数据我们完全向公众、学者开放,现有登记用户两三千。2013年调查数据依旧免费向公众开放,但是用户必须注册登录到系统之中获取。

目前,我们的项目资金中只有很少一部分来自政府,与北京市住房和城乡建设委员会等政府机构的合作也是以项目合作的方式进行的,并非直接来自政府基金的资助。

免费的数据无疑更加亲近公众,但是,前提是要提供数据的团队能够继续走得下去。

文汇报:“那几天里,如果给我片刻时间,我都想闭上眼睛,小憩一会儿……偌大北京城,一点吸引不了我,我只惦记着床……但是,从精神上讲,却鲜有低落,因为我不是一个人在战斗,而是十二个人的团队……看到了许许多多的现实生态,他们将戏剧和小说中的一些鲜明形象演活,让我知晓了当下百姓的真实心态。”这段文字节自“八千里路云和月——2011中国家庭金融调查纪实”北京朝阳组一位访员的随笔。如果说中国家庭金融调查项目是个由访员、绘图员组成的大家庭,您无疑就是那位家长。作为家长,您对孩子们的表现是否满意?

甘犁:对于孩子的表现,我个人不是满意,而是钦佩。

我们的一支团队曾经在深圳的一个社区坚守了47天,最后是孩子们的真诚赢得了50户被访者的信任,成功传回信息。要知道,在今天让你我告诉陌生人我们的真名实姓都并非一件寻常的事情,何况要人家将自家的“家底”和盘托出。而我们的铁律是,“不完成任务,不收队”。每一次访问,对于孩子们而言,都是挑战,也是考验,更是历练。所以,在西南财大有句话很有名,“读次大学一定要参加一次中国家庭信息调查,但一定不要去第二次”——因为太苦,但是不经历却不完整。

我们的访员与绘图员均通过网络面向全国招募,主要由高校在读学生组成。至今为止,单单访员队伍已超过了5000人次。报名并获得通过的同学会被邀请到成都接受为期8天的培训,然后才可以作为访员或者绘图员被派到全国各地,他们通常要在当地完成1个月的“执勤”任务。我们有一个全国的控制系统,可以定位每一个访员的位置。访员采集的信息通过他们手中的iPad实时回传,这背后是一套周密的质量控制体系。调查期间,一个显示全国地图的大屏幕实时更新调查进度。让人骄傲的是,这套系统完全是我们自己开发的。

另外,访员登门都有“地陪”接应。做全国的调查离不开覆盖全国的机构帮衬,而我们幸运地得到了央行、农行和地方政府的支持,各地的调查工作才得以同时进行。

当然,“意外”还是没能避免,曾经有男同学在河南的村子里被狗咬伤,绘图员摔跤的事情也发生过,所以我们的学生工作还有很多需要不断细化的地方。“儿行千里母担忧”,队伍中确有不只一次“孩子访问,父母随行”的案例。当然,访员的费用由项目组承担,而家长的交通、食宿则完全自理。可怜天下父母心,想放飞孩子去打量生活的真实,甩不掉的却是各种不放心,但这毕竟是少数。

 

数据量大和信息量大其实是两件事情

文汇报:前国家统计局局长马建堂曾指出:“规范的民间调查,应该是官方统计的重要的、有益的补充。”您认为民间独立调查应该扮演怎样的社会角色?

甘犁:官方调查不可能包罗万象,自然需要民间调查的补充与验证。官方统计机构与民间调查机构之间的有益交流才能让数据呈现更加趋于全面与真实。现在,我们跟统计部门交流很多,整体上双方还是可以相互理解的,当然统计部门也不是铁板一块,其内部也有不同的意见,对于我们调查数据的不同意见自然不可避免,对于这一点我是完全理解的。

文汇报:三年前,29岁的前美国中情局雇员斯诺登让全世界惊出了一身冷汗,信息安全领域陷入了一片反省之中。中国家庭金融调查如何确保数据安全?

甘犁:信息采集回来,我们会把家庭信息与姓名割裂开来,使得两者在物理层面完全“对不上号”,且信息保存不连接互联网。在整个团队中,只有一个人知道两者配对的算法,连我本人对此也不得而知。

在我国,有十几条法律、法规与数据安全相关,相关监管机构的管理核心是数据的保密性。关键数据的涉密性和保密性是由调查机构自行设定,并保障一套与之相匹配的安全措施,然后向公安机关进行备案,对方会进行打分并给出批准意见。中国家庭金融调查数据已在四川省相关机构备案并获批。据我所知,在国内的调查机构,至少学术机构当中依规进行数据安全备案者屈指可数。

文汇报:维克托·迈尔-舍恩伯格在《大数据时代》中指出,大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型。而新媒体的出现彻底改变了信息传递的方向与方式。炙手可热的大数据与新媒体对于社会调查的形式和成本有怎样的影响?

甘犁:新媒体可以让访谈变得更为便捷,但是传统的面访优势依然显著。我们现在每个季度都会进行电话回访,以积累一套关于中国季度经济观察有把握的数据。但是我们的经验是,受访者愿意给予电话回访的耐性往往只有几分钟,而这对于信息采集而言是不够充分的,所以后续的面访还是必要的,虽然这样做成本高昂。此外,面访可以有效避免样本流失,甚至进一步进行样本扩充、更新等等。

有时,想要接近真实就没有办法顾及成本,因为最后几步只能靠脚去丈量。今天,把问题的解决推给大数据似乎是一件很是时髦的事情。然而遗憾的是,很多时候那只是我们的一厢情愿。因为,数据量大和信息量大其实是两件事情。

百度的数据、阿里巴巴的数据、腾讯的数据,乃至一些交易数据,数据量可以很大,但是变量往往很少。换句话说,阿里有海量的网上交易数据,百度地图可以即时掌握手机用户的位置,但是这些大数据背后没有故事,它不知道是谁在交易,更不知道交易者的资产结构、家庭结构,不知道他或她的收入情况。人的行为受很多因素影响,但是这些因素在线上是找不到的。反过来看,如果我们的家庭信息都可以在线上找到了,那么私密性就没有了,那才是真的是噩梦一场,这就又回到了信息安全的问题。

区别于大数据,我自称中国家庭金融调查的数据为“厚数据”。只有大数据和厚数据相结合,才能讲出一个完整的故事。有了故事,数据才有价值。因为我们对于问题的分析在于故事发展的脉络,而非仅仅是一个宏观的简单的变量。

一家互联网公司可能在大数据上做得非常成功,因为它有手机位置,并以此判断你在哪里工作、住在哪个区域。但问题在于这些信息是需要核实的,这时候我们的“厚数据”就该登场了。因为,“厚数据”知道这个社区住着多少人,知道这个社区居民的收入状况和资产状况。

为什么“厚数据”需要大数据?因为,及时更新是“厚数据”的软肋。不论是两年一次的大调查,还是一个季度一次的小调查,相对而言成本都太高,及时性也无法得到满足,大数据不断更新的海量数据刚好补足我们的短板。凡事只要双方都有需求,就一定能够结合。

2016年7月8日甘犁接受文汇学人访谈