我国计算社会科学的发展现状与未来展望

gecccn · 发表于 2019-11-21 10:19:17

马上注册入会，结交专家名流，享受贵宾待遇，让事业生活双赢。

您需要登录才可以下载或查看，没有帐号？立即注册

x

袁堂军（复旦大学经济学院教授）

  随着人类社会的进步和科技的发展，科学研究的方法也在不断演进，从早期以亚里士多德的天动学说为代表的自然哲学研究手法，逐步演变到以牛顿为代表的对自然哲学的数学原理的探索，进一步发展到如今基于数值计算和模拟仿真的计算科学时代。而进入21世纪，人工智能技术的发展，揭开了被称为第4代科学——数据集约型（大数据）科学发展的序幕。
《中国人工智能发展报告2018》中已经显示中国目前是人工智能论文产出和人工智能专利布局最多的国家。这一定程度上是得益于现今人工智能算法的进化，后者很大程度上是以大数据为基础的，而中国庞大的人口规模是世界上最好的天然的大数据试验场。可以预见的是，人工智能中的大数据和大数据技术在社会科学研究领域中的运用将会越来越普遍，而成为社会科学研究领域的一个重要趋势，也将成为助推新时代中国特色哲学社会科学发展的重要动能。
  核心观点
  社会科学领域利用人工智能研究现状如何?
  人工智能在社会科学领域中的应用尚处在比较基础的阶段。
  在社会科学领域，我国对人工智能方面的应用还是与发达国家（尤其是美国）有一定的差距，截止于2018年，社会科学领域人工智能相关的文献中国的数量还不到美国的四分之一。
  人工智能与社会科学研究范式的多元化如何体现？
  社会科学的研究范式：1.定性分析；2.定量分析；3.计算实验的仿真研究；4.基于人工智能的数据集约型研究。
  未来社会科学研究的范式必然向多元性发展：
  1.在研究问题的提出方面，大数据的研究范式可以驱动研究者们提出新的研究问题和研究关注点；
  2.无论是数据的获得、整合和分析，人工智能的运用都会大幅度提高效率，大数据分析，可以让研究者能够更加顺利地观察和捕捉到研究对象之间的逻辑关系；
  3.充分利用人工智能的先进算法，可以使得理论建模的假设大幅度减少，模型的复杂程度可以得到大幅度提高，仿真程度也会变得更高和更好；
  4.人工智能所带来的多维度的大数据一般能很好的解决遗漏变量问题，降低样本选择性偏差的概率。
  未来可计算社会科学研究将如何发展？
  大数据技术：大数据具有四个主要的特征，即数据体量大，生成速度快，种类多样，以及价值密度低。大数据的运用与传统的数据的处理方法将发生巨大的变化。
  计算模型+数据校准分析的算法和数据辅助：人工智能的算法能够大大提高社会科学研究的分析效率，研究者们在建立理论模型的时候，不需要由于传统的计算能力问题而对模型进行各种假设限制，这使得模型能更好地对真实世界进行模拟。
  微观分析和宏观分析的结合：人工智能为社会科学研究带来的大数据使得社会科学研究必然能从更微观的层面进行，同时人工智能也能带来新的计算机算法，能够对微观研究的结果进行宏观的复杂加总和综合，使得社会科学的宏观分析和微观分析有更好的统一性。
  可计算社会科学研究将面临什么样的挑战？
  可计算社会科学研究中的误区：1. 过度注重相关关系而忽略研究对象之间的因果关系；2.陷入“统计的胡说”现象；3. 是过度依赖算法而导致偏差的扩大。
  社会科学研究人员在利用人工智能进行深度研究所必需的能力：随着人工智能对社会科学研究的逐渐渗透，社会科学研究者们除了要具备传统的社会科学领域的学科训练之外，还需要具备一定的数据工程师和软件工程师的能力。
  随着人类社会的进步和科技的发展，科学研究的方法也在不断演进，从早期以亚里士多德的天动学说为代表的自然哲学研究手法，逐步演变到以牛顿为代表的对自然哲学的数学原理的探索，进一步发展到如今基于数值计算和模拟仿真的计算科学时代。
  传统的科学研究方法主要是基于研究人员通过观察和实验提出假说，然后通过反复试错验证来实现对理论的探索，是先提出理论然后进行验证的过程。而人工智能背景下研究的特征则体现在利用相对有限的小规模的观察数据，然后通过不同场景假设和模拟仿真技术来获取更多数据——即深度学习，最终完成新理论的发现，可以称之为模拟仿真驱动型科学研究，是一个从数据中去发现规律的过程。
  01、社会科学领域利用人工智能研究的现状
  相比自然科学，人工智能在社会科学领域中的应用尚处在比较基础的阶段。罗晨和沈浩（2018）根据美国科学情报研究所编制的Web of Science（WoS）引文数据库，选取了以人工智能为主题的社会科学领域的发表论文和会议论文，发现社会科学涉及到人工智能的研究最早可以追溯到1975年。然而在最开始的10年，人工智能相关的社会科学领域每年的论文数量仅在个位数徘徊，直到最近的10年，这一数字出现了飞速地增长，每年都有超过百篇的相关论文，其中2017年和2018年，分别超过了200篇。
  虽然中国在工程和自然科学类的人工智能方面的研究数量领先于世界各国，但是在社会科学领域，我们对人工智能方面的应用还是与发达国家（尤其是美国）有一定的差距，截止于2018年，社会科学领域人工智能相关的文献中国的数量还不到美国的四分之一。社会科学是研究人类社会种种现象的各学科的总体或者其中任一学科，它包括商业与经济、政治学、法学、伦理学、历史学、社会学、心理学、教育与教育研究、运筹学与管理科学等。社会科学的不同子科学涉及人工智能的研究深度和广度都各不相同。
  截至2018年，我国人工智能在社会科学子学科中应用最多的是商业与经济方向，共有515篇相关论文；而论及人工智能的应用广度，即在人工智能研究领域的某社会科学子学科与其他学科的关联度，心理学的度数中心度则是最高的。其他涉及人工智能较多的社会科学子科学分别是运筹学与管理科学、教育与教育研究，以及其他社会科学子学科（跨学科、伦理学和社会科学史）。表1表示了应用人工智能最多（深度）的五个社会科学子学科，以及他们相应的广度指标（社会网络分析的度数中心度）。从表1中我们可以看到，社会科学领域中涉及到人工智能较多的这些子学科，也是近年来研究数量化趋势比较明显的社会科学子学科。人工智能的跨学科特征在社会科学研究中的体现是十分明显的，毫无疑问未来将会是文理融合的时代。
  02、人工智能与社会科学研究范式的多元化
  如前言所述，人工智能在社会科学研究中的引入使得社会科学的研究方法更为多元化。根据米加宁等（2018）的研究，可以把社会科学的研究范式归纳分为四种。
  一是定性分析，即通过类比和推理归纳概括研究对象之间的关系，而现代的社会科学的定性分析就是通过理论建模，解释研究对象之间的复杂逻辑关系，对应于自然哲学研究方法。
  二是定量分析，通过“假设-检验”，利用人工采集的数据论证研究对象之间的关系。在社会科学中因果关系的确认是研究者们极为关注的，但长期以来由于数据的局限性，同时社会科学的研究对象的构成要素复杂多变，因此在社会科学研究中大量的定量分析常常存在由于样本的选择而带来的偏差问题，对应于数学原理探索方法。
  三是计算实验的仿真研究，其中最具代表性的就是经济学领域中使用的可计算一般均衡分析。它是在通过复杂的数学推导的定性分析基础上，利用有限的真实数据对模型进行校准，当复杂模型被证实有一定程度的有效性之后，通过模拟现实不存在的模拟数据，对研究对象进行反事实分析来完成的。最近10年，计算实验的仿真研究方法在社会科学研究领域越来越到受影响力大的专业学术期刊的关注，其原因归结于这类研究方法能够较好地克服定性分析和定量分析的局限性。
  四是基于人工智能的数据集约型研究。现在的大数据研究从数据获取、建模到分析预测几乎都可以由计算机来完成。其数据上的优势是毋庸置疑的，研究的效率也要远胜于其他研究方法；然而这类研究方法的重点却应该锁定在理论建模分析中。如果忽略甚至放弃了理论建模，那么就可能造成对研究对象之间的因果关系以及其他复杂逻辑都不能准确判定，研究结果也难以给与合理解释，因此，必须反复强调的是，一旦大数据的样本存在偏差或者算法出现偏误，研究结果也将会存在很大的误差。
  人工智能的发展为社会科学的研究带来了过去无法想象的大数据、新算法，和超强的计算能力，因此在未来社会科学研究的范式必然向多元性发展。
  首先，在研究问题的提出方面，大数据的研究范式可以驱动研究者们提出新的研究问题和研究关注点。到目前为止大多数人工智能所提供的大数据是被动收集的，受研究热点或传统研究方向的主观影响较小，因此，这些大数据无论是深度还是广度都可以给研究者们带来新的研究问题的启发，可以帮助研究者跳出必须基于对先行文献综述的传统的框架，而对学科重要问题展开拓展研究的空间变大。
  其次，无论是数据的获得、整合和分析，人工智能的运用都会大幅度提高效率，大数据分析，可以让研究者能够更加顺利地观察和捕捉到研究对象之间的逻辑关系。
  再次，由于“因果关系是人类理性行为与活动的基本依据，人类理性本身不可能否定因果关系”（王天思，2016）。社会科学传统的理论建模定性分析可以获得研究对象之间的理论因果关系，在此基础上，如能充分利用人工智能的先进算法，毫无疑问可以使得理论建模的假设大幅度减少，模型的复杂程度可以得到大幅度提高，仿真程度也会变得更高和更好。
  最后，研究者们可以根据理论模型的定性分析，利用人工智能进行进一步的大数据收集和整合，实现对理论研究结果进行准实验性的定量分析。在社会科学领域的实证分析中，变量的内生性问题，遗漏变量问题以及样本选择性偏差问题是困扰研究者能否作出准确因果判定的关键原因。人工智能所带来的多维度的大数据一般能很好的解决遗漏变量问题，降低样本选择性偏差的概率，同时如果辅以在大数据采集和挖掘前的准实验设计来解决变量内生性问题，那么社会科学的定量研究的说明力将会更强。
  如上所述，研究范式的多元化的目标和趋势，是需要既能克服传统研究范式的数据劣势，又能克服完全给予数据科学的大数据研究范式的理论解释力度不足的问题。
  03、可计算社会科学研究的发展
  人工智能的运用对社会科学的研究技术和方法带来巨大的影响，推动了被称为可计算社会科学研究领域的发展。主要体现在突破大数据技术突破数据瓶颈，提高分析效率以及能够实现宏观研究的微观支持等方面。
  大数据技术（数据采集挖掘，数据储存整合和数据分析）。大数据的运用与传统的数据的处理方法将发生巨大的变化。
  第一是数据的实时可得性。传统的数据通常是人工采集的，并且是为了社会科学研究某个特定“假设-检验”为目的而收集的，通常具有较严重的滞后性。
  第二是数据量的巨大。伴随数据量的巨大化所带来的多维度数据一方面在为研究者提供更多信息的同时，也让研究者在使用数据整合和分析的统计学工具方面也会随之发生质变。
  第三是数据的结构多元性。传统的数据结构一般不是数值就是文本，而大数据的数据来源更加多样化，可能是传统的数值或文本，也可能是图片、音频，甚至是视频。
  第四是数据挖掘、储存和分析的技术的更新速度会大幅度增加。当数据的规模越来越大，数据库、并行计算、云计算、机器学习等技术都会成为社会科学研究的中间步骤。
  计算模型+数据校准分析的算法和数据辅助。人工智能的算法能够大大提高社会科学研究的分析效率，研究者们在建立理论模型的时候，不需要由于传统的计算能力问题而对模型进行各种假设限制，这使得模型能更好地对真实世界进行模拟。
  微观分析和宏观分析的结合。人工智能为社会科学研究带来的大数据使得社会科学研究必然能从更微观的层面进行，同时人工智能也能带来新的计算机算法，能够对微观研究的结果进行宏观的复杂加总和综合，使得社会科学的宏观分析和微观分析有更好的统一性。如此一来，我们既可以实现对微观个体行为的深入研究，也能够破析出各个微观个体相互之间的网络结构，从而进一步得出每个微观个体对不同宏观因素的作用。
  04、可计算社会科学研究所面临的挑战
  尽管人工智能技术的运用揭开了可计算社会科学研究发展的序幕，然而要真正达到创造具有实践意义的研究成果，尚需完善一些基础条件。
  可计算社会科学研究中的误区。第一个误区是过度注重相关关系而忽略研究对象之间的因果关系。第二个误区是陷入“统计的胡说”现象。第三个误区是过度依赖算法而导致偏差的扩大。现在的人工智能算法只能处理一个特定的任务，也就是狭义的人工智能，由于狭义人工智能的算法是为了某个特定目标而施行的，其算法会在有偏的基本数据样本上带来更大的偏差。
  需要强调的是，在社会科学研究的过程中，人工智能可能会带来样本和算法有偏的两个误区会产生相互叠加的放大效应，轻则是我们的研究结果可信性下降，重则我们的研究结果可能是伪命题。相比理论的定性分析和传统数据的定量分析，人工智能介入的社会科学研究的研究方法更为复杂，因此增加了其他研究者对研究结果的辨错难度。
  社会科学研究人员在利用人工智能进行深度研究所必需的能力。随着人工智能对社会科学研究的逐渐渗透，社会科学研究者们除了要具备传统的社会科学领域的学科训练之外，还需要具备一定的数据工程师和软件工程师的能力。与此同时，社会科学研究者们还需要理解社会科学领域的因果分析方法和现在大数据的相关关系分析方法之间的利与弊，在研究不同问题的时候选择合适的研究方法。
  政策建议。新技术的运用必将进一步推动可计算社会科学研究的发展。一般来说，大数据的相关关系分析方法更适合于规范研究，提高预测的准确性，为政府和企业提供政策建议和支持；而大数据辅助的因果关系分析则是实证研究未来的发展方向。人工智能在真正进入计算机算法自我迭代更新和进步之前，还是高技术劳动力密集型的。然而随着进一步的发展，面临文理融合时代的到来，社会科学研究者与数据工程师和软件工程师的跨学科合作也是社会科学研究的必然趋势。这个跨学科融合的基础学科，无疑是统计学和数据处理相关的计算机语言。一些发达国家，比如日本，已从小学即开始进行统计学的普及教育，在大学本科文科类专业中开设“数据科学”专业课，同时也大力推广计算社会科学相关开发软件的学习，如R语言、java语言以及人工智能核心语言Python等。可以借鉴其做法，尽早开展相关的交叉学科设置，以及提供利用网络相关知识的普及等公共品，为迎接第四科学时代的到来，打好基础，做好准备。

我国计算社会科学的发展现状与未来展望

马上注册入会，结交专家名流，享受贵宾待遇，让事业生活双赢。

相关帖子

财经观察

热文推荐

优秀版主

我国计算社会科学的发展现状与未来展望

马上注册入会，结交专家名流，享受贵宾待遇，让事业生活双赢。

相关帖子

财经观察

热文推荐

优秀版主

掌上手机版