2023年11月3日下午1点30分,中国科学院大学人文学院2023年第16期“科学与人文”讲座在中国科学院大学玉泉路校区教学楼阶二4教室举行。北京工商大学马克思主义学院讲师王东博士应邀做了题为“人工智能与科学发现”的讲座,中国科学院大学人文学院苏湛副教授主持了本次讲座。
王东老师的讲座包含了AI驱动科学发现-现象、机器学习-方法、AI能够发现什么?分析、案例研究-证据、对大模型的思考、问题与讨论这六个部分。
讲座伊始,王东老师介绍了当前人工智能已经深度渗入到科学活动的各个环节,列举了顶级学术期刊Science、Nature上发表的一些利用AI进行天文图像去噪、寻找新粒子、处理量子多体问题、预测蛋白质结构的科学活动,以及著名数学家陶哲轩也在社交媒体上宣布将AI工具加入自己的工作流程。
由于这些科学新发现是通过机器与学习获得的,王东老师接下来便讲解了深度学习、机器学习、人工智能和数据科学之间的关系。具体地,针对猫狗图片分类任务,即以图片的像素点信息作为输入,以输入图片的分类结果作为输出,那么直接人工去手动编写识别算法,将是一个非常复杂且难以完成的工作。这是因为自然界有各种各样的猫和狗,很难用一种通用的算法去形式化地描述何为“猫”、何为“狗”,也很难通过尽量多枚举样例的方式或者枚举特征的方式去概括这两个类别,因而就需要采用机器学习分类任务。如果想把这些猫和狗照片进行某种信息“压缩”,让每一张图片的像素尽可能的小,但是还要保持之前的重要特征,也就是让猫还是猫狗还是狗,这样需要采取降维的操作,比如采用自编码器结构和多层神经网络表征的自编码器。
人工智能目前只能发现数据中的新模式(pattern)、经验定律,没有发现新的科学概念和科学理论;而智能驱动的科学再发现研究虽然表面上能够发现科学概念和公式,但建模数据的来源问题使其无法证明自身的有效性。哲学家汉弗莱斯提出一种计算机模拟中的认识不透明性的观点(epistemicopacity),把这种观点和认识并非完全可靠的忧虑扩展到机器学习科学发现中,并把这种不透明性与机器学习的可解释性联系起来。在深度神经网络中,每一个人工神经元节点都有一个非线性的激活函数,汉弗莱斯认为这些非线性的大量函数构成了表征的不透明性,因为其构成的总的函数是如此的复杂,以至于仅仅就深度网络这些函数的运行本身去解释和理解是人类无法做到的。
在某种特殊情景下,人工智能具有发现科学概念的能力,譬如在多个理论并存时,找到能够同时“解释”所有现象的人工智能模型就是如此。王东老师选取的案例与19世纪末关于光和“以太”的理论以及20世纪初期相对论的诞生相关。关于光的性质——是粒子还是波——在18世纪和19世纪一直存在争论。光如果是一种波动那么就必须有传播的介质,当时认为此介质是“以太”。针对物理学史上著名的以太漂移问题,王东老师构建了AI-Einstein模型,用一束光的路程或者一个运动物体的路程去预测另一束光的路程。模型选用一个简单的自编码器,它能找到可同时“解释”所有现象的理论预设,包括在地球上观察到星光的偏移即光行差,以及迈克尔逊-莫雷实验两束人造光在垂直方向上的传播。模型1.0根据当时的情形人工选择了静止以太和无以太两个不同的假设来训练模型,并没有让机器去自动尝试更多可能的假设并建模。而在模型2.0中尝试“往后退一步”,尽量不去设置关于以太的特性,那么就可以尽量多地用不同的预设来训练模型,从而扩大关于以太特性的理论空间。无论是模型1.0还是模型2.0,所有的图形表征都显示出一种二次的关系,尤其是当以太相对于所有参照系速度为零时。这提醒我们“以太”相对于任何参照系速度都为零的情况下有比较好的结果,具有图形对称性,这也就是说,“没有以太”可以作为一种考虑的情形。这样,通过挖掘真实的历史观测和实验数据,证明人工智能在某些特定情景中具有发现科学概念的能力。
王东老师分享了他对当前热门的大语言模型(LLM)的思考,认为预训练模型找到了产生语言行为背后的世界进程的“分布”,语言模型在不是很严格的意义上同构于世界进程。科学发现,尤其是库恩意义上的科学危机情况下的科学发现,需要跳出现有的形式化知识概念体系,提出新的概念和方法,这需要依托人类的“知识底座”。LLM有可能帮我们做到这一点,帮我们提出更多科学假说。为了可以更全面深入地了解讲座主题,王东老师向同学们推荐了集智学园出品的AI+Science的课程,以及他本人的专著《人工智能与科学发现——一种哲学探究》。
讲座的最后,同学们向王东老师提问请教,讲座在热烈的掌声中顺利结束。
【图文/时迎琰】
【主讲人简介】
王东,哲学博士,北京工商大学马克思主义学院讲师,近期主要关注人工智能哲学、认知科学哲学、物理学哲学及其交叉领域。