|
马上注册入会,结交专家名流,享受贵宾待遇,让事业生活双赢。
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
沈艳(北京大学国家发展研究院教授) “大数据自大”的提出
“大数据自大(Big Data Hubris)”问题最早由Lazer等学者在2014年发文讨论谷歌公司预测美国流感发病率项目时提出。2008年11月,谷歌公司启动了GFT(谷歌流感趋势)项目以预测美国疾控中心报告的流感发病率。2009年,GFT团队在《自然》发文称,只需分析数十亿搜索中45个与流感相关的关键词,GFT就能比美国疾控中心提前两周预报2007—2008季流感的发病率。2014年, Lazer等学者在《科学》发文指出,2009年GFT没有能预测到非季节性流感A-H1N1;从2011年8月开始的108周里,GFT有100周高估了美国疾控中心报告的流感发病率,高估程度达1.5倍—2倍多。
Lazer等学者认为,“大数据自大”是这一预测错误的主要原因之一。这里,它是指一家机构认为自己拥有的“海量数据”就是“全量数据”,因此在分析定位上认为大数据比科学抽样基础上形成的传统数据更优越。虽然近年来大数据与各类传统数据相结合的分析受到了一定程度的重视,但是在实践中却仍然存在“大数据自大”现象。
“大数据自大”的现实表现
01、忽略大数据可能存在的结构变化
由于大数据相关技术在我国运用的时间还比较短,在对经济和金融相关的预测中,尚不存在可以跨越较长经济周期的大数据。而大数据分析所依据的机器学习或者深度学习模型,都假定了训练数据的生成机制和真实数据的生成机制是相似的,即不存在结构性变化。这一假定在较短时间内可能成立,但是如果经济出现结构性变化,就会产生过去运行良好的模型忽然预测不准的现象。例如,在经济繁荣时期训练出的判断个人是否会逾期或者形成不良贷款的风控模型,在经济下行时期就可能低估实际不良率的发生,导致对风险的预备不足。
02、忽略大数据可能不具备代表性
不同平台或者机构有其特定的消费人群。因此分析结论可能仅适用于该平台或机构、未必可以代表全国或某一地区的状况。然而一个常见现象是,网络新闻平台采用该平台的浏览大数据来分析各省人群的阅读习惯差异,餐饮行业平台采用在这个平台上产生的大数据来分析不同城市的夜间经济,报告结果往往直接阐述为“XX省的读者更偏好娱乐类新闻”“XX市夜间经济特征”等。当相关企业将这类报告报送有关部门时,解读这类报告中的趋势和特征就需要注意,这类报告的分析包含了两部分因素:一是全国或者某一地区人民阅读或者餐饮的真实特征和趋势;二是该平台自身需求所带来的结构性变化。如果忽略了第二种因素,就可能会导致对一些行业发展状况产生误判。
在大数据供给层面存在算法调整问题。以谷歌公司为例,其商业模式的主要目标是更快速地为使用者提供准确信息。为了实现这一目标,数据科学家与工程师不断更新谷歌搜索的算法,让使用者可以通过后续谷歌推荐的相关词快捷地获得有用信息。这一模式在商业上非常必要,但在数据生成机制方面却导致不同时期的数据之间可能不可比。如果数据分析团队和算法演化团队没有充分沟通,数据分析团队不清楚知晓算法调整对数据生成机制的影响,就会误将数据变动解读为市场真实变动而带来误判。
数据生成动机可能会随时间推移而发生变化。大数据不再是由政府特定部门或者特定机构主持收集,而是经济社会主体运营中产生的副产品,因此大数据的采集就和该主体自身的利益诉求密切相关。以社交媒体大数据为例,对这类数据的分析常常建立在一个假定之上,即人们在社交媒体分享的信息都是真实的、自发的、不会被自己发言的平台所操纵。如果说过去社交媒体企业记录保存客户信息的动机仅仅是本公司发展业务需要,算法演化也单纯是为了更好地服务消费者,那么随着大数据时代的推进,“数据为王”的特征就会越来越明显,社交媒体会看到除了可以给使用者植入广告以增加收入之外,还可以操纵数据的生成与报告以增加自身的影响力。
03、技术唯上,忽略大数据分析的现实环境
大数据为我国发展新业态提供了崭新机遇,但也存在一味强调大数据的技术优势,而忽略大数据技术和各地区经济社会发展实际状况相结合时可能产生问题的现象。例如,金融科技发展过程中,大数据征信获得了长足进展。基于大数据技术,车抵贷有了新的执行方式。相较于过去抵押车之后车就要放到固定地点不能移动的安排,现在由于车辆都安装了GPS,贷款平台可以实时监控车辆去向,因此抵押人办完抵押手续之后仍然可以将车开走,一旦无法还款,平台公司上门拖车即可。但是,在2018年以来开展的扫黑除恶专项整治活动中,借款人不还款、而出借方平台因为担心被当作恶意催收,也不能按照GPS上门收车的现象开始出现。又如,大数据分析技术的发展让网约车成为人们日常出行的新选择。但2019年12月Uber的首份安全报告显示,2018年共发生超过3000起性侵案件,而纽约警察局记录的数据显示,2018年交通系统发生的这类案件为533起。上述两例说明,如果没有尊重金融规律(风险较高的人即便可以抵押车也不见得是好的借款人)、没有相应的司法保障而单纯依靠大数据分析的技术力量,那么在开发新业态的同时也可能带来新风险。
防范“大数据自大”的政策建议
加快订立大数据采集和分析方面的法律法规。虽然有《网络安全法》、《统计法》等法律法规,但目前我国在专门针对大数据采集、使用、分享等方面的法律法规还十分欠缺。例如,一些APP存在在使用者不知情的情况下,采集和使用与该APP无关的个人信息的做法,而这些行为目前并没有明确的法律层面的惩戒措施。而欧盟的《通用数据保护条例(General Data Protection Regulations)》、荷兰的《个人数据保护法》(Personal Data Protection Act,“DPA”)都指出,在没有法律依据的情况下处理个人数据是不被允许的。
提高大数据使用的透明度,加强对大数据质量的评估。由于大数据体量大、分析难度高等问题,不仅大数据的收集过程可能是“黑箱”,大数据分析也可能存在过程不透明的现象。在GFT案例中,Lazer等人指出,谷歌公司从未明确用于搜索的45个关键词是哪些;虽然谷歌工程师在2013年调整了数据算法,但是谷歌并没有公开相应数据,也没有解释这类数据是如何搜集的。同时,与透明度相关的是大数据分析结果的可复制性问题。由于谷歌以外的研究人员难以获得GFT使用的数据,因此就难以复制、评估采用该数据分析结果的可靠性。这种数据生成和分析的“黑箱”特征,容易成为企业或者机构操纵数据生成过程和研究报告结果的温床。唯有通过推动大数据分析的透明化,才能在大数据产业发展之初,建立健康的数据文化。
在保护隐私和数据安全的基础上,加大传统数据和大数据的开放共享力度。大数据分析中,单个企业具有颗粒度较高但是代表性不足的数据 “信息孤岛”问题,需要通过不同行业、不同类型大数据和传统数据之间加强开放和共享来解决。目前,一些大数据企业已经开始着手推动数据开放平台方面的工作,这是该方向可喜的变化。同时要看到,在传统数据的收集和开放运用方面,我国还有很大提升空间。只有在对涉及我国基本国情的传统数据进行充分学习研究之后,我国学界和业界才能对经济政治社会文化等领域的基本状况有较清晰的把握。而这类的把握,是评估大数据质量、大数据可研究问题的关键,对推进大数据产业健康发展有举足轻重的作用。
|
|