2017年9月8日下午2点30分,中国科学院大学人文学院“科学与人文讲座”第12期在中关村校区S102教室如期开讲。弗吉尼亚大学哲学系教授Paul William Humphreys应邀为大家作了题为“大数据与表征的不透明性”的报告,国科大人文学院郝刘祥教授担任了此次讲座的主持人。
Humphreys教授首先介绍了大数据这个话题的重要性,通过介绍欧盟的大数据保护规章制度引入了大数据处理中要求的数据处理的透明性。Humphreys教授认为这种规章的实现基本是不可能的。
第一部分Humphreys教授回复了大数据的历史,大数据一词大约出现在1995年。在谷歌出现十年后的2008年,大数据的意思出现了新的转变。在经济上,这个词指代一种以数据为介质的商业形式,无数的公司基于带数据进行盈利,其代表就是谷歌,谷歌通过用户的搜索历史来挣钱。在科学上,大数据成为一种新的知识和知识生产的方式,关注的不是谷歌如何成功开发大数据,而是将其作为新科学的一个案例。接下来给出了大数据的定义:大数据是和数据科学有关的活动和方法,所使用的数据集的巨大数据量超过任何领域中的传统方法。之后列举了一些例子:数字人文(Digital Humanities)的文本分析、信用卡交易的数据分析、脸部识别程序等。
第二部分Humphreys教授主要介绍了数据域/网(Datasphere)的核心概念。它是一个全球的电子设备网络集合,他们生产并消费数据,存在于政府、医疗、金融、教育、商业和其他领域。数据网是一个可见的物质实体,并不是理论的抽象对象。大数据能够存在是因为数据网的存在。通过社交平台推特、脸谱网和移动计算设备的发展,数据网得以大大提高,用户可以随时随地使用这些数据网。
第三部分介绍了厚薄介质的概念。薄介质(Thin Mediation)是传统的交流方式,在信息传递过程中需要保存信号、减低噪音等处理,如打电话这种方式。而数据网中的信息则是通过计算机代理(M)传递数据,每一个信息的发送都是通过M传递的,而O(organization)代表控制M的组织。因此在数据网中O和M的中介下,重塑了这种从P1(place)到P2之间的信息传递,这也是厚介质(Thick Mediation)的含义。数据库是所有数据最终流向的终点。
接下来,Humphreys教授介绍了表征的集中类型:有意识表征、无意识表征;显性表征、隐形表征;透明表征、不透明表征。透明表征指人类能够进行清晰的审查、分析、解释和理解,例如语言;而不透明表征是无法详细谅解的,如辅助计算的电脑的运行细节等。数据网的厚介质特征将大大增加不透明表征的发生率。相对而言,17世纪存在各种不同的计算方法,19世纪发展出来严格的数据统计方法,他们都是可以为人类所理解的,是透明的。这些概念提供了一个理论框架,可以帮助我们理解大数据的经济和文化维度是如何交互作用,从而产生一系列后果、问题和机会的。
报告结束后,Humphreys教授与在座师生进行了互动交流。讲座在热烈的掌声中圆满结束。
【文/田喜腾,图/田喜腾】
【主讲人简介】
Paul William Humphreys,弗吉尼亚大学哲学系教授,数据与知识研究中心副主任,人类与机器智能研究团队副主任,曾任美国科学基金协会副主席、美国哲学学会国际部主任、弗吉尼亚大学哲学系主任等,兼任国际著名杂志Synthese,Philosophy of Science,American Philosophical Quarterly等编委,近年来尤以其在科学哲学以及有关突现的认识论研究、计算机科学哲学等方面的研究,闻名于欧美哲学界。