聆听 NASA 气候模拟中心的高性能计算负责人 Laura Carriere 讲述 NASA 如何模拟大气中的气溶胶。Laura 向 Jeniece 讲述了 NASA 如何使用模块化计算基础设施,在有限的预算内使其高性能计算设施与时俱进,确保超级计算资源满足科学研究需求。NASA 从全球卫星和大气探测气球收集的海量数据,需要经过分析与可视化处理,因此存储方案是其核心考量因素之一。
想了解更多 2024 超级计算大会专家访谈,可阅读和收听数据驱动的洞察与发现闪耀 2024 超级计算大会。
Jeniece Wnorowski:欢迎 Laura,很高兴再次见到你!
Laura Carriere:非常感谢。
Jeniece:我们正在参加 2024 超级计算大会,场面十分热闹,能和你在这里交流很开心。你能给我们简单介绍一下你在 NASA 的工作内容吗?
Laura:当然。我是 NASA 气候模拟中心的高性能计算负责人。气候模拟中心是 NASA 的两个超级计算设施之一,位于马里兰州格林贝尔特,坦白说,我们是这两个设施中较小的一个。地球科学是我们的核心研究领域,同时也涵盖天体物理学、太阳物理学和行星科学。这些领域的所有相关研究工作,都是在我们的超级计算机上开展的。
Jeniece:太厉害了。你们在超级计算机上完成所有工作。你能否简要讲讲你们目前究竟在研究什么,或者说当下最热衷的项目是什么吗?
Laura:地球科学的主要目标是气候研究,既包括部分气候变化相关工作,也涉及像全球建模与同化办公室——也叫 GMAO——那样的团队专注的气溶胶研究。他们会运行气候模型,重点关注气溶胶在大气中的传输过程,比如空气污染颗粒物、碳、硝酸盐或硫酸盐等物质的扩散。他们还会制作非常精美的可视化图像,大家可以通过科学可视化工作室的作品看到这一点,这些作品充分展现了他们的出色工作。
Jeniece:真的很神奇。我被这些气溶胶深深吸引住了。能通过模型看到它们一路渗透到大气层的全过程吗?
Laura:是的。由于这是一个三维模型,你能看到气溶胶的移动轨迹,比如撒哈拉沙漠的沙尘穿过大西洋,最终沉降到佛罗里达州;能看到它们在飓风系统中旋转聚集;还能看到极地附近海洋表面的海盐通常会被扬起,成为气溶胶的一部分。他们通过可视化技术呈现这些现象,做得非常出色。另外,你还能看到发电厂等设施的排放物以及火灾产生的污染物融入大气的过程。
Jeniece:哇,太厉害了。你提到的所有这些工作都是在超级计算机上完成的。你能给我们简单介绍一下这台超级计算机吗? 它有专属名称吗?
Laura:我们的超级计算机名为“探索者”,于 2006 年设计建成。实际上,它的工作方式使我们面临电力紧张问题。我们的电力毕竟有限。我们每年都会获得资金,所以我们不断扩建超级计算机,直到电力耗尽。后来,等来年拿到新的资金,就必须淘汰超算中最老旧的部分,再接入新的计算单元。这些年来,我们一直在不断增加我们称之为可扩展计算单元的东西。我们现在的情况是:我们的计算单元从 14 增加到 16 个、17 个……目前有 18 个供我们的科学家使用。我们最初使用的是英特尔芯片,现在已经转为使用 AMD 芯片。探索者的核心是 CPU 集群,只配备了一小部分 GPU,用于测试、技术学习和新功能研发。我们还有一个规模更大的 GPU 设施,名为 Prism,那里同样投入了大量研发工作,也产出了许多极具价值的科研成果。
Jeniece:太赞了。那么存储方面呢? 你对存储层的情况了解多少?
Laura:我们所有系统都配有对应的存储方案。我们有传统的高性能计算设施,也就是“探索者”,它有大约 60PB 的存储容量。我们有集中存储设备,专门用于存储特定的 NASA 数据产品。这些都是像 MODIS 数据、Landsat 数据、MERRA-2 数据之类的东西,都是通俗易懂的 NASA 数据产品。这些数据也可以通过我们的本地云环境(包括 Prism)获取。因此,所有这些数据都可以通过所有这些系统访问。我们认为,这样做可以减少系统中重复的数据,从而为开展新的科学研究腾出更多空间——希望我们这种想法是对的。
Jeniece:确实,随着大量数据从四面八方涌入,越来越多的科学研究也开始关注气候变化。你们如何确保能及时处理传来的数据? 你们在日常工作中会关注什么? 我之前和 NASA 高端计算助理部门主管 Bill Thigpen 聊过,我听他说,他们会将所有数据都存档。你们也是这样做的吗?
Laura:我们没有做到这种程度的存档,实际上,我们借助 Bill 所在部门的 AMES 设施进行一些存档。但我们希望将这些数据保存在旋转磁盘上,也就是硬盘上,方便科学家随时用于科研工作,我们正在为此而努力。我们的经费并非用于数据归档,归档工作其实会占用大量资源,影响超级计算的算力投入。但我们有一位非常专业的数据管理人员,负责制定数据管理方案。因此,我们与用户合作,让他们告诉我们他们的输入数据、他们的中间数据(这些数据有一天会被删除)以及他们的最终数据产品是什么,数据有多大,数据增长速度有多快。这样一来,我们就可以规划存储需求,并在合适的时间部署合适的存储设备。
Jeniece:要是我跟你说……你提到了旋转磁盘,Bill 之前也聊过这个。我们 Solidigm 刚刚研发出一种称为固态硬盘的设备,这么小一个,容量就有 122TB。来感受一下它有多轻。
Laura:这也太酷了吧。
Jeniece:确实很轻。纯粹好奇问问,我知道你不算专门的存储领域专家,但既然系统里现在用的都是旋转磁盘……
Laura:我们会把它们换掉吗? 会的,如果经费允许的话肯定会换。旋转磁盘有两个优势,首先是可靠,其次是不太贵。当然,可靠性也是有限度的。所以我们很喜欢使用这种存储设备,我们熟悉它们,用着也顺手,各方面表现都还可以,但它们确实特别耗电。我之前也说过,我们受到电力供应的限制,所以任何能减少电力消耗的办法都非常有价值。SSD,或者叫固态硬盘什么的,这种存储设备并非完全不耗电,而是耗电量较低。所以,所以我的目标之一一直是,找到我们能够负担得起的合适解决方案,逐步转向更多使用固态硬盘。我们面临的挑战之一是,用于气候研究的数据是 NetCDF 数据,这些数据本身已经高度压缩,很多固态硬盘的成本模型都会说“我们能把你的数据压缩得更厉害,从成本角度来看很划算”,但我的数据根本无法再压缩了,所以这真的非常非常困难。不过出于性能考虑,我们仍在朝着这个方向努力。而且对于现在这些更快的芯片来说,要让模型顺利运行,部分关键存储确实离不开固态硬盘。如果没有 SSD 技术,我们会举步维艰。所以答案是肯定的,我们会逐步转换。
Jeniece:那我们换个话题,不说数据了,来谈谈 AI 怎么样? 我知道你们肯定也在做相关工作…… 毕竟我在这儿跟不少人聊过,大家都或多或少涉及 AI 领域,你能跟我们说说你们的情况吗?[what you are doing]
Laura:我们具体在做什么呢? 正如我刚才所说,四年前我们推出 Prism 时,大家都还在摸索,只是想着 “先试试水,看看效果”。一开始只开放白天时段供大家使用,大家主要是研究怎么让自己的系统适配它。久而久之,就开始真正在上面运行各类任务了。不管是训练模型,还是做推理计算,现在它的使用率比刚开始高多了。我们正在为 Prism 扩容,我们实际上打算购买 NVIDIA 的 Grace Hopper 节点,大概有 60 个。我们用 GPU 主要做两方面工作。一方面是机器学习领域,我们正在开发一些地球科学的基础模型。而另一方面是,将气候代码转换为可以在 GPU 上运行的代码。这部分由专门的团队负责。我想讲一个有趣的故事。这是我最喜欢的故事之一,是关于结合使用高性能计算与机器学习的故事。这大概是两年前的事了,我们的一位用户前来对我们说:“我这里有一些来自凌日系外行星巡天卫星的测试数据。” 这个客户当时想要寻找双星系统。要做的就是生成光变曲线,通过曲线观察星体亮度随时间的变化规律。大多数星体的光变曲线都会呈现特定模式,而双星系统的模式很容易识别,一看就能判断“这是个双星系统”!所以他们用我们的超级计算机进行计算,具体数据我现在记不太清了,大概生成了一百万条甚至更多的光变曲线,耗费了超级计算机好几个小时的算力。之后,他们把所有光变曲线导入 Prism,用机器学习技术进行分析,找出其中的异常数据。结果不仅发现了大量双星系统,还找到了一些特殊的星体系统,包括由双星组成的复合双星系统,还有一个被他们称为“六星系统”的天体,这个系统由六颗恒星受引力束缚,形成三对双星,围绕彼此旋转。之所以能够获得这一发现,全因为我们结合使用了高性能计算与机器学习,前者用于生成光变曲线,后者用于确切地找出异常情况,从而使他们能够重点关注那些看起来特别有趣的异常情况。
Jeniece:太厉害了。这是新近的发现吗?
Laura:不是。这大概发生在两年前,确切地说是两年半。
Jeniece:原来如此。不过从全局来看,依然算是很新的发现了,真的太酷了。我还有一个问题想问你,因为这张黑洞图片非常酷,你刚才说它也是由“探索者”生成的。
Laura:是的,这实际上也是由同一个团队完成的。虽然我有一些天文学背景,但这有点超出了我的理解范围。我无法用技术术语来解释,但相关计算都是在“探索者”上实现的。定要去看看他们做的视频,特别震撼,你会感觉自己仿佛被拉入了黑洞的事件视界——你绝对不想这么做,因为一旦进去就出不来了!这段视频传到社交媒体后,瞬间就火得一塌糊涂,因为画面实在太迷人了。而这背后所有的计算工作,都是靠“探索者”完成的。
Jeniece:非常感谢你和你所在组织的辛勤付出,感谢你们所做的一切。成果太令人惊叹了。Laura,很高兴见到你。真的非常感谢。
Laura:非常感谢。