数据规模进一步扩大,科学教育需要反映这种变化。
在传统的情形之下,存在着诸多的物理学家,他们把自身划分成为了两个彼此之间相互进行斗争的阵营,这两个阵营分别是理论物理学家阵营以及实验物理学家阵营。阿尔伯特·爱因斯坦构建起了广义相对论,而亚瑟·爱丁顿进行了观测,观测到了广义相对论所导致的“弯曲”星光;默里·盖尔曼和乔治·茨威格构思出了夸克概念,而亨利·肯德尔、理查德·泰勒、杰尔姆·弗里德曼以及他们的团队探测到了夸克。
在粒子物理学里头,这种分歧特别显著。就拿希格斯玻色子来说,它在1964年被人给提出来了,一直到2012年才被人发现。从那以后,物理学家始终在尝试着去彻底检查希格斯玻色子的性质,然而理论物理学家跟实验物理学家并不直接去分享希格斯玻色子的数据,他们耗费了好多好多年的时间去争论到底该分享些什么,又该怎么去安排。现在虽说有了一些共识,可进展却困难重重举步维艰。
然而,处于这个呈现二元对立状况的局面里,存在着一位不见踪迹的玩家。究竟是哪一个人在推动理论与实验二者之间的数据进行流动呢?
传统来讲,担当这个角色的是实验物理学家,他们去运行机器,还要审视数据,然而在高能物理学以及许多其他子领域当中,数据量实在是太过庞大了,以至于造成这个过程完全没办法施行。研究者是没办法单凭眼睛看一下加速器里发生的若干事件就得出结论的。比如说,在大型强子对撞机里,每秒大概会发生10亿次粒子对撞,传感器能侦测并处理这些事件,之后存储在大型计算系统里。并且不只是数量惊人,这些数据全部都极为复杂,利用计算机模拟更是难上加难。
也就是说,这些实验生成了海量的数据,海量到超出了任何人运用传统工具所能分析的范围。并且那些工具无论从哪方面看都算不上完美,这就要求研究者将许多复杂事件归纳成若干属性,例如某个给定能量下的光子数量。如此一来,许多科学真相便这样被遗漏掉了。
作为针对这一难题给出的回应,在高能物理学以及其他子领域当中,像是核物理学和天体物理学,呈现出一种壮大的态势,尝试去剖析复杂的完整数据,使得数据能够为自身进行表述。该领域的专家运用前沿的数据科学工具,以此来判定保留哪些数据,舍弃哪些数据,并且从中寻觅模式。

尤其要指出的是,机器学习已然让科学家达成了他们往昔没能力做到的事情。举例来说,在寻觅新粒子(像是那些有可能构成暗物质的粒子)之际,物理学家并非去探寻不太可能出现的单个事件,与之相反的是,他们致力于找寻那些出现频率相较于原本状况更高一些的事件。这可是一项要困难许多的任务,它需要在很庞大规模情形下的数据分析能力 ,而机器学习已经赋予了物理学家一定优势 。
现今,那一些操控粒子加速器控制室的实验物理学家,极少是机器学习工具的开发者。前一类人无疑是专家,毕竟,对撞机是由他们来负责运行的。然而,在这些规模大的项目里,没有人能够负责全部工作,大家依旧是各自有专长,分别专精于某个方面。在粒子加速器运行完毕之后,数据专家就进入场地了。
数据专家并非传统观念里的理论物理学家,也不属于传统的实验物理学家,尽管好多人自认为是理论物理学家或者实验物理学家。只不过他们早就出现了,跨越不同的阵营以及领域,为物理学给予了无比珍贵的东西。
眼下,这一伙拼凑起来的人尚无确切的称呼。他们当中有数据科学家,有专注特定领域的物理学家,还有统计学家,他们惯常跨越多个学科。此刻我们应当明白贝语网校,这群人别具一格,具备一套行事方法、培训机制以及技能。(需要留意的是,数据物理学与计算物理学毫无关联。在计算物理学里,科学家借助计算应对资源局限;在数据物理学中,科学家处理数据的随机性,致使统计学——不妨称作“物理统计学”——在方程式里化为愈加关键的部分。)。
正名会赋予影响力与正统性,这还会对未来物理学家接受教育以及获取资助的方式产生影响,许多学术领域都在努力争取这种认可,像生物物理学,它在过去数十年一直备受冷落,因其两个科学分支难以结合而尴尬存续,如今,它已然成为一个发展完备、充满活力的分支领域 。
现在之时,乃是数据专家们得以充分施展身手的机遇阶段,并且这些专家所需的,是一个清晰明了的身份名曰“数据物理学家”。与传统的实验物理学家有所不同,数据物理学家大概而言不会拥有诸多实际操作仪器的经历。他们大概不会花费时间去把探测器部件焊接成为一个整体,而这乃是受训中的实验物理学家所具备的一种典型经历。他们同样有别于理论物理学家,或许对于课程作业之外的基本物理学计算并不具备多少经验。可是,数据物理学家具备理解数据以及询问数据的关键技能,在数据科学领域有着坚实基础,在统计学方面有稳固根基,在机器学习方面也有扎实功底,并且熟悉研究的计算背景,还清楚理论依据,进而能够将数据与底层的物理学性质相联系 。
鉴于存在大批实验,那些实验处于高能物理学领域内外,产出了海量数据,数据物理学家便有着为他们专门打造的工作。他们付出努力,这努力转而会推动新的实验方法予以研发,在当前这个时候,那些方法常常源自更简单的合成数据集,而那些数据集并非完美地对应于真实世界。然而,要是缺少一批熟练科学家,那些科学家能够运用新工具,好比机器学习,来灵活巧妙地处理问题,那么这些数据就会得不到充分利用。从这个层面来讲的话,我并非单纯仅仅是在为名称认可而进行争辩。我们要去分辨,还要去培育,那尚未出现的下一代从事数据物理相关科研工作的人员,以此来应对当下我们手里所掌握的数据 。
怎样去做呢?首先,我们得具备专业培养路径。大学应当于研究生院制订培养数据物理学家的计划。我所期望的是,数据物理学家拥有扎实的物理学背景,在统计学、数据科学以及机器学习方面接受广泛的训练。以我自己的学术历程来讲:我身为硕士研究生研习了粒子理论的计算方向,在成为博士生时修读了不少门统计学课程,这致使我自然而然地迈入到物理学和统计学/机器学习之间的跨学科研究范畴,进而身处理论物理学家与实验物理学家之间之中。

专业的教育是一个起始点,然而研究领域同样需要设有终身教职的岗位,以及相应的资助。存在一些呈现出希望的迹象,其中包含近期助力学术机构开启“人工智能研究所”的联邦资助,此资助会聚焦于推动该领域的研究。虽说这样的投资对跨学科研究起到了激励作用,可是它们并不支持新的院系物理学家的悲伤,起码不是直接给予支持。倘若你并未身处接受这些资助的大型科研机构之内,那么你便难以获得好运。
这属于小规模资助必然要进入的范畴,涵盖资助单个研究团队物理学家的悲伤,而非对特定实验予以资助。这事讲起来较为轻松,实际操作却颇具难度,缘由在于典型的团队拨款,即首席研究员借助这笔资金去资助自身、学生或者博士后人员,致使申请者需遵循传统的学科划分:要么是理论方面,要么是实验方面,不存在第三种选择的余地。美国能源部颇具声望的青年科学家奖(Early Award)亦是这般状况,申请表格上面没有一个可供勾选“跨学科数据物理学”的方框。
虽说调整资助的方式极为困难,然而它在实现层面或许比态度方面的转变要来得更易些。物理学家因诸多人类最为伟大的发现而声名远扬,可又因对跨学科科学抱有的排斥猜疑态度(若并非全然纯粹主义者的话)而臭名昭著。物理学从其他领域借用工具、汲取灵感,比如生物物理学里的细胞概念或者数据物理学中的机器学习,却常被贬低为“并非真正的物理学”。这无疑是错误的,并且还是个糟糕的策略,失去杰出物理学家的一种途径便是嘲弄他们。
并非所有人都持有怀疑的态度,实际上,更多的人是感到激动的。在美国物理学会的内部,数据科学专题组也就是 GDS,正处于迅速成长的状态。或许在不久之后,它就会转变成为数据科学分部。这反映出该领域在物理学里越来越重要的地位。我自己对于与数据直接进行打交道是感到激动的。这一点激励着我成为一位“实验物理学家”。然而我现在意识到了这个标签存在着局限性。
我们可获取的数据在增长之际,我们对数据物理学家的需求同样在增长。这时候,让我们将他们真正的名字喊出来。随后,让我们着手去做那份辛劳的工作:对全新一代具备卓越才能的物理学家展开教育,进行训练,并给予资助。
资料来源
————————
这儿有位科学家,名叫本杰明·纳赫曼,是劳伦斯伯克利国家实验室的一员,他带领着基础物理学当中的机器学习团队,并且,还是加州大学伯克利分校数据科学研究所里边的兼职科研人员。
