朗润园看“十三五”之三
沈艳:关注大数据分析门槛 警惕大数据神话
北京大学国家发展研究院教授沈艳接受海外网采访
海外网4月6日电 大数据是近几年最热门的it概念之一,并已在许多领域实现落地。从淘宝利用平台数据解读中国消费趋势和地区差异到出行类app在拥塞的城市中为用户提供快速的车辆调度,从数据分析团队在奥巴马连任竞选中发挥巨大作用到谷歌智能系统alphago在人机围棋大战中获胜,呼喊大数据力量神奇的声音从未停歇。
然而人们也不得不承认大数据应用喜忧参半的事实,特别是曾作为大数据具备革命性潜力证明的谷歌流感趋势近几年的预测结果并不尽如人意。大数据是否被过度热炒和不恰当运用?现行大数据分析是否科学可靠?疑问接踵而至。
如今,大数据已作为我国的国家战略被写进“十三五”规划纲要,被期助力产业转型升级和社会治理创新,对于大数据相关疑问的思考尤为重要。海外网财经对话北京大学国家发展研究院教授沈艳,探讨大数据应用的陷阱和门槛,以期为“十三五”蓝图中大数据产业的健康发展建言献策。
大数据不能替代小数据
海外网:大数据是这几年提出来的一个概念,但对海量数据的处理早已存在。大数据与从前对数据的采集分析有哪些不同?
沈艳:我们可以先梳理一下数据使用的变迁。早期,人们用统计方法来观察和研究世界探求规律时,认为数据量越大越好。到了近一百年前,英国统计学家开始将抽样技术用于社会调查中。抽样技术的使用基于这样的认知:如果界定出清晰的总体,那么通过随机抽样技术,只要能把关键节点描摹出来,就能用有限的样本去推断人们关心的总体。在科学抽样概念的基础之上,数据调查产业、以及很多分析行业就发展起来。到了21世纪,随着计算机技术的发展,比过去大得多的数据量出现了。
一种对于大数据优越性的看法是,有了大数据就有了总体,就不再需要抽样了。这种看法的逻辑似乎是,只要数据量足够大,那么通常利用有限信息来推测真实状况的不确定性就可以迎刃而解。这一观点似是而非。 首先大数据和传统数据最主要的不同在于,大数据的采集过程更多是生产经营等各类活动的未经处理的附属产品。传统的数据收集模式,或者通过问卷调查;或者即便是经营活动留下的数据,往往也有比较规范的标准,使得数据的含义前后尽可能可比。由于收集的信息只是经营活动的附属产品,数据反映的信息可能只是总体的一部分,其他部分是缺失的。另一方面,何为总体取决于人们关心的问题,而随着时间的变化,总体可能还会发生变化,因为有一些新信息在时间推移中才能够出现。例如,谷歌有其所有用户的浏览点击记录,如果将总体就定义为“谷歌所有用户的浏览行为”,那么谷歌数据可以被看作总体;但是如果总体是“互联网所有用户的浏览行为”,那么显然谷歌数据只是其中一部分;再如,“使用谷歌搜索流感相关信息的用户” 和“美国流感人群”这个总体之间,恐怕只有一部分重合,因此用后者预测流感趋势,存在先天不足。
事实上,大数据相比过往的数据处理给我们带来了更多挑战:算法不同带来数据生成机制的不同;时间频率增大、颗粒度变小之后噪音也越大等。
海外网:如今大数据已被提升到国家战略的地位,数据正在成为我们战略性的基础资源,甚至被称为“新的石油”、“类似货币或黄金的新型经济资产”,您如何评价这些说法?
沈艳:数据的确已经开始成为新的战略性基础资源。在大数据被提升到国家战略地位时,数据资源的归属、开发、转让等规则,需要尽快明确。例如,在研究中我们常常发现,其他国家可以免费获取的一些基本公共数据,在我国往往难以获取。或者是数据获取渠道不清晰,或者即便找到了获取渠道,往往也不得不支付高昂的费用来获取在其他国家可以免费获得的资料。另外还存在这样的情形,就是有关部门公布了一部分数据之后,发现这些数据引发了质疑、争论,之后就索性不再更新相关数据,导致无法及时厘清信息真相的局面。“实事求是”,首先要能对“实事”给出基本描述,不然就会产生具有煽动性的、不准确的信息在民间流传,而希望分析可靠数据、澄清错误观念的努力又因为缺乏数据而无法有效实现的局面。在“十三五”规划中,很高兴可以看到“加快建设国家政府数据统一开放平台,推动政府信息系统和公共数据互联开放共享。制定政府数据共享开放目录,依法推进数据资源向社会开放”这样的内容,盼望可以尽快落到实处,避免一旦认定数据成为战略性基础资源,就迅速成为政府新的垄断资源,政府何时公开、对谁公开都由有关部门自行把握的局面。
海外网:如何理解大数据成为国家战略的经济和社会背景?它在产业转型和社会治理方面能够产生怎样的助推力?
沈艳:大数据被放到了一个非常重要的位置,表明我们国家在推动创新这方面有很大的决心。这背后还有一个大的背景,就是在全球需求疲软的情形当中,传统出口导向的经济模式已经难以继续支撑中国经济的增长,我们的经济迫切需要转型;而在寻找新的增长点的时候,我们会发现数据在新兴行业中的重要性越来越显著。合理使用数据,对未来中国经济成长具有重要意义。
如果运用得当,大数据能够帮助我们快速刻画新旧经济的更替和发展趋势,发现新的增长点。拿我们做的一个课题新经济指数为例,我们的目标是用该指数来刻画中国经济转型过程中新经济的成长与变迁。由于新经济是新概念,现有的统计还没有对相应内涵的界定和度量,因此依靠传统数据,我们无法对于新经济的成长和变迁得出及时的描绘。 这里,大数据给我们提供了在短时间内刻画国家新经济基本状况的可能性。因此你可以想象很多崭新的机会,比如刻画一个地区的产业布局以及与其他地区产业布局相比的高下特征,这将给当地产业的发展方向提供可视化指导,也可以为政府决策提供一定参考。
比如在北京,交通拥堵问题非常受关注。过去提供给决策者的数据往往来自抽样调查,到了现在大数据已经可以实时记录路面状况,记录具体流向,记录交通高峰和低谷。如果充分利用这些信息,那么在解决交通拥堵这一问题上,也许可以采取一些措施, 考虑鼓励或不鼓励人们在某些时段走某些路段,而不是不管人们的实际需要,简单采取限号措施、甚至采用单双号限行。恰当运用大数据为更低成本地、更精准地管理城市提供了可能。
海外网:“大数据 ”被认为有助于许多行业的创新发展。在您看来,大数据更可能给哪些行业带来变革性的影响?
沈艳:我想是新经济指数中的新经济行业,它们在未来决策中可能需要使用更多的数据。我们说的新经济行业是指那些高技术投入、高人力资本、轻资产的行业;最近几年有持续增长的行业,以及符合国家产业政策方向的行业。例如电子信息行业、科研和技术服务行业、金融和法律服务相关行业等。不过大数据在行业中的应用还是会有一个逐步推进的过程,其中一个原因是会牵涉到既定的行业标准。例如在美国,大数据在医疗行业的应用就相对要慢一些。所以虽然大数据成为我们的国家战略,但这并不意味着每一个行业都该去做大数据分析。
海外网:传统企业如果希望建立自己的大数据战略,应该从哪些方面考虑战略实施的可行性?
沈艳:不是所有的行业、企业都必须考虑大数据战略,因为大数据分析有其门槛。成立时间比较久、规模比较大但又有能力快速革新的企业,可以考虑梳理自身已有的数据(无论大小),然后考虑大数据和小数据相结合,逐步推进。如果身处传统行业但是规模不够大的企业,可以考虑购买相应的服务。
最重要的是要防止一哄而上、不管是否适合自己都要赶上潮流。大数据的适用应当审慎、渐进。这主要是因为数据分析很有挑战,需要一段时间来验证其效果。
海外网:这里所说的小数据是如何定义的?
沈艳:就是相对于大数据的一些传统的数据搜集模式,包括问卷调查得到的数据、生产生活当中产生的一些数据等。
数据分析门槛并不低
海外网:您强调大数据的分析是有门槛的,也曾撰文提出大数据分析的五步法。现在大数据分析是否有确定的标准?又有哪些需要关注和解决的问题?
沈艳:目前大数据分析方法的核心还是数据挖掘方法。但是由于存在神话大数据分析的倾向,我在一篇文章中提出了大数据分析的五步法,其实这不是新东西,只是把传统的规范的分析数据的方法做了重新的阐释。重点是想强调,大数据只是分析、解决问题的一个元素,而不是全部。
我今天刚读到一段话,它很能代表现在的一些看法,就是讲数家公司的大数据平台就像大数据的淘宝店,“无论你是什么样的企业,只要你对数据有需求,就可以找到提供相关服务的淘宝店主,这些店主可以灵活、有针对性地帮你进行大数据部署,并且价格合理”。它轻描淡写地说,只要你有数据方面的问题,这些店主就可以很好地为你解决,完全没有提及对大数据使用的可行性分析。
我最近重看了一遍《皇帝的新衣》,我在想为什么骗子可以骗那么多人。这里面很重要的一点是,骗子告诉第一个来看衣服的大臣说,这是最新的技术,如果你看不见的话,你就是愚蠢的人。这个逻辑在很多时候都适用。当新技术来临,尤其是面对经济新旧转型迫切需要新事物的时候,我们很容易在没有深究的时候就相信新事物的力量,希望它带来巨大的变化。
但实际上大数据只是我们解决问题过程中的一个部分。只有在必须要用它,并且清晰地知道它各种各样的局限和可能出现的问题的基础上,才能去用它。
我提出大数据分析五步法是想要强调,不管是进行学术研究还是产品开发,首先都要回归问题本源,明确我们要解决的问题是什么。第二步,明确为解决这个问题需要探求怎样的数据,要进行数据的可行性论证。如果小数据可以解决问题,就不需要用大数据。如果大数据被证明质量足够好,能够作为补充,就采用大数据和小数据结合的方式。只有在没有小数据、大数据是唯一合适的数据的情形当中,大数据才能被单独使用,但即便是这样,它的使用都特别需要交叉验证。
我们可以看一下美国的大数据行业图景(big data landscape)。这张图将美国大数据产业分为架构(infrastructure)、分析(analytics)和应用(applications)三个部分。当然这种划分较为粗浅,每一部分并不是那么绝对,同一家企业可能同时涉及几个部分。但是我们看“十三五”规划中大数据战略的内容,会发现主要是在架构和应用部分,比如加快政府数据开放共享,进行海量数据采集、存储、清洗、分析发掘、可视化等领域关键技术攻关,对分析部分的强调还有待加强。
海外网:“十三五”规划纲要里面也涉及到数据的分析发掘,和您强调的数据分析有什么不同?
沈艳:我想,数据分析既包括关键技术攻关,也包括实际运用。举例来说,从传统数据到大数据,数据的维度立刻变得很大,但同时数据也变得稀疏,这种稀疏会给计算带来很多问题。关键技术攻关层面强调的更多是,在维度变大的情况下如何解决计算问题,那就是降维,压缩信息使得结果尽可能稳。 但是,如果我们缺少懂得在什么时候用什么样的标准去压缩信息的人才,这就不只是技术问题了。实际数据分析,需要既通晓技术又了解实际问题症结的人才,而我们现在对分析的实际运用部分的强调还不够。
从理论上来讲,只有在架构和分析方面都处理得很好的前提下,才可以有应用,但实际是,现在的一些大数据公司在并不注重数据分析的情况下就开始了应用,最后给出一个app之类的产品,说用这个就可以了。
可以说,即便做一些大数据产品的时候没有遵循非常科学规范的分析方法,也能够在一定程度上解决问题,但是这些商业模式是否真正可行、是否能够持续是很难确认的,只是在没有出现问题的时候,我们暂且认为没有问题,应用的效果只能通过时间、通过金钱检验。特别是现在大数据已经上升到战略高度,会很快被地方执行。在经济转型的关键时期,如果某些关键行业因为数据素养的缺失出现重大损失,将会是很大的问题。而且当出现问题时再回头纠正的时候,往往需要花费较大的成本。所以我特别呼吁大家关注大数据分析,理解大数据的局限性和可行性,在产业发展之初夯实基础,从而促进产业的健康发展。
海外网:数据分析是这样一个基本的、重要的步骤,为什么却是常常缺失的、不被重视的?
沈艳:每一个行业的发展都需要经历一个积累经验的过程。现在我们进入了大数据时代,而且大数据成为了我们的国家战略,我们会突然感觉到数据分析的需求大量出现了,也才会突然看到在数据分析这里存在大的缺口。
我个人对强调产品端、轻数据开发和分析端的现象感受比较深,希望做一些对大数据分析的概念和方法的澄清,也是因为我亲身参与了一些具体的大数据分析工作。
海外网:您能否再具体谈谈大数据分析中一些需要纠正的关键问题?
沈艳:除了之前说到的“有了大数据,就不再需要抽样”,大数据分析中还有一个常见的错误观点是,只用关心相关,不用关心因果。
为什么这是有问题的?举例来说,按照这个逻辑,“雄鸡一唱天下白”可以表述为,假如我知道世界上所有的公鸡在什么时候打鸣,我就可以预测什么时候天亮,而公鸡打鸣天就亮这个现象背后的机制是不重要的。这个表述在很多时候没有问题,但是也会有例外,例如有些公鸡到下午才打鸣。最核心的问题是,如果我们不懂得公鸡为什么打鸣,以此预测天亮就很容易不准确。因此利用相关关系总结规律是有假设的,也就是大环境、相关的一些因素没有根本性的变化,比如刚才这个情景里就是公鸡的生物钟、地球的自转和公转等特征没有变化。
但是由于数据生成是经营活动的附属产品,而企业的经营可能既要经历经济的繁荣期,也要经历增速不那么快的时期。如果只关心相关而不关注因果,一些在繁荣期可以表现良好的模式可能在衰退期带来极大损失。我们以大数据在互联网金融中一个可能的应用场景——自动化贷款为例来说明这个问题。传统的贷款依靠人工审批,速度较慢且存在人为的主观标准,如果能够利用大数据、通过精确算法实现审批自动化,确实可以降低交易成本,但是要注意,算法成立的基本假定是,机器学习时所用的样本和未来经济的样本非常接近,其中的规律没有发生变化。而一旦经济发生巨大变化,比如金融危机,这时候再用先前经济繁荣时期的模型去预测经济衰退时期的状态,就可能会出现发出去大量贷款收不回来的状况,因为机器学习里没有关于经济衰退的知识,算法没有为探测经济变化做预备。就好像正在高速行驶的车辆一直预设前方道路是平坦的,当它突然遇到悬崖就会掉下去。
其实类似的突然变化在数据生成过程中会常常出现,因为大数据的收集方式和传统数据收集方式有着本质的不同。大数据是现在一些快速活动的副产品,是为企业的主营业务服务的。最早的大数据收集始于谷歌,基于人们搜索、浏览网页时产生的海量数据,出现了一些分布式的处理数据的系统。对于谷歌而言,为给用户提供尽可能快捷便利的搜索工具,这些系统架构、算法会不断调整、优化。这就给数据分析带来一个问题。使用新系统后,由于技术更新和数据分析往往不是同一群人,进行数据分析的员工并不知道系统已经发生了变化、或者不能深刻体会这些变化带来的数据生成规律的变化,这时如果只关心相关而不了解因果,沿用原本的数据分析方法就很可能得出不准确的结论。
大数据应用的效果究竟如何是需要验证的。但现在流行的不少大数据分析往往是一个“黑箱”,企业做出报告,直接告知结论,对数据来源、处理方式不做说明,这中间数据使用得好还是不好,外界不太容易验证。所以大数据分析非常需要新的人才,他们要能够理解数据的收集过程,并且知道数据生成当中的一些变化。
数据安全立法刻不容缓
海外网:很多时候企业大数据分析展示给公众的只是一个结论,数据如何收集、处理无从得知。这让我想到信息孤岛的说法,某些数据仅限于某个部门或者企业知晓和使用,您认为这个孤岛出现的原因是什么?如何改变这种现状?
沈艳:从我的观察出发,信息孤岛出现有这么几个原因。第一,由于在一个单位内部,数据的收集整理都是服务于各部门自身的业务需要,于是会出现各部门在同一指标上内涵不同的状况。特别是我们的经济正在转型,业务部门是慢慢成长起来的,起初部门a出现的时候,并不知道未来会有部门bcd,当部门bcd出现的时候,也并没有想到它的信息可能需要和部门a一起使用,这就容易出现部门之间的信息分隔。第二,度量本身是有难度的,因为经济活动非常复杂。我自己长期参与中国健康和养老的追踪调查,在参与问卷设计的时候就体会到度量比想象难得多,需要考虑对各类人群的适用,考虑各种各样的可能。第三,数据共享涉及传输,传输环节的安全责任划分如果不清晰,数据共享也难以实现。
当然,我国在改变信息孤岛方面,还是做出了不少努力。比如我了解到,我们一些大型国有银行在做大数据战略的时候,首先就会制定统一的度量标准,从某个时刻开始,各部门对于同样的指标采取近似的定义。当然这些步骤的实施并不容易,因为有些绩效和这些度量结合在一起,统一标准未必对每个部门都有利。另外还需要制定一些数据的收集标准,这样各方整合数据才相对容易,对监管也更加有利。
不管是一个单位各部门之间,还是各个单位之间,数据的打通都非常需要专业人才。它们既要懂得数据内涵,又要能做打通部门数据壁垒工作,要知道目前不同标准之间的异同,哪些数据能够合并而哪些不能。
此外还需要数据产品安全级别的界定。数据开放共享并不意味着所有人都可以免费得到所有数据。开放存在级别划分,比如一些数据现在仅是在某部门内部使用,建立共享平台之后,其中的某些数据可以在某些程序下被某些人使用。当然也要慢慢明确哪些数据是公众可以自由获得的,开放共享会是逐步推进的过程。
海外网:您提到了数据安全的问题。大数据应用使得个人和企业的信息安全存在很大隐患,保护信息安全的立法呼声也已出现。如今是否到了数据安全相关立法的恰当时机?
沈艳:信息安全的重要性在大数据时代越发凸显,一定程度上是因为当数据的维度越来越多,就越来越容易通过特征识别出具体的个人。信息安全方面的立法工作是非常重要和紧迫的,由于数据泄露,老百姓的损失已经确确实实存在。一切的监管和保护要有效,还是需要坚实的司法基础。
关于个人数据保护我们要明确的是,个人数据的出卖需要明确的标准。即便在一定情形当中,个人数据能够被一些企业收集和使用,也要保证凭借这些数据不能精确地找到个人。比如有某人的姓名就不能同时有他的地址,而且对于姓名、地址等确切信息要特别注意,对于同时拥有这些信息的行业要有严密的监管。
“十三五”规划纲要第28章讲的就是信息安全保护的内容。在“加强数据资源安全保护”这部分提到了“建立互联网数据资源资产化和利用授信体制”“加强个人数据保护,严厉打击非法泄露和出卖个人数据行为”等,希望这些内容可以得到很好的执行。
所需人才远不止数据科学家
海外网:欧美一些国家比我们更早、更快地发展了大数据,它们有哪些值得我们借鉴的经验?
沈艳:和其他国家相比,我们在数据的生成和分析上的确有一些需要提高的地方。我们要特别注意,一旦数据成为一种资源,就可能会被操纵。人的利益可以影响数据,数据并不都是干净、真实的。
我接触过国内外一些提供搜索服务的企业,发现国外企业在搜索词条排序上的算法是严格根据用户点击率决定的,但是国内有些企业并非如此,而是将付费和不付费的信息混杂在一起,也不会标明哪些是广告。另外,进行民意调查、舆情监测时,问卷设计方式也有可能影响受访者的选择,生成数据的公司可能会左右结果。
如果公众想了解世界的真实状况,自然希望拿到客观的数据,但是数据的不客观是真实存在的。如果分析方对此无法知晓和辨别,分析结果就可能出现重大偏差。要改善这个状况,需要立法上的一些规定,也特别需要数据分析方面的优秀人才来判断数据的质量,甄别什么样的分析是可靠的、值得信赖的。
海外网:您多次提到了对数据分析人才的需要,您是否认为大数据人才的培养需要国家政策方面的倾斜和引导?
沈艳:国家政策目前已经对大数据研究有所着力,但是我们还需明确,不只是硬件和软件的开发重要,人才的培养更是重要,它触及产业健康发展的核心。
人才不仅是指数据科学家,数据分析非常需要优秀的跨界人才,既懂关键技术,又懂专业领域,比如金融、健康、交通。只有满足了大数据产业对人才的需求,这个产业的发展才能够扎实。这需要国家层面的引导,比如高校的相关课程、配备都还需要加强。
海外网:您说数据分析需要跨界人才,那对于高校而言,能不能理解为,不仅是数据分析相关的专业需要加强,其他专业的学生也需要这方面的课程?
沈艳:对的。而且不仅需要培养大批专业人士,还需要对决策者和民众也有相应的培训投入。
海外网:就目前的经济和社会运行状况而言,我们发展大数据具备哪些优势?您如何看待大数据在我国的发展前景?
沈艳:过去三十年来,我国人力资本积累快速,平均增速超过5%,为创新提供了基础。技术创新使得许多过去无法收集的数据,可以用相对低廉的成本、在短期内被收集。再加上大数据已经上升到战略高度,我对大数据产业在我国的发展前景很有信心。如果这个产业健康发展,会帮助中国的新经济成长起来,让中国持续成为世界经济的引擎。
海外网:感谢沈老师今天的解答。
(文章来源:人民日报海外网)