如果开启“天眼”,可以看到怎样神奇的画面?
由中国科学院国家天文台李迪教授和王培博士领导的国际研究小组在《自然》杂志最新的一篇论文显示,FAST累计发现1652次快速射电暴,超过以往文献记载数量总和。从2011年3月25日“中国天眼”开工建设再到2020年通过国家验收,投入正式运行。这不仅仅是天文科学的进步,也是建设数字基础架构的标志性事件。那么,它海量的数据是怎么存储的?
中国天眼结缘浪潮存储
中国科学院国家天文台FAST数据中心组组长黄梦林经历了数据中心从无到有。
她告诉第一财经,2005年前后,FAST先跟当地的大学合作建了早期科学数据中心,“那时候的技术肯定没有现在这么发达,建一个2PB的集群得摆三个机柜”。等到FAST在2016年建成,再被称作数据中心的现场,其实是集装箱,带有实验的性质。“真正开始考虑数据中心要做大规模的时候,是在2019年试运行”。
天眼搜集的数据可是大得惊人,每秒采集的数据量最多可达38G,每年新增数据量达到10PB,灵活、可弹性扩展的数据基础设施成为中国天眼的刚需,首先要解决的就是存储问题。
“一个是容量要大,因为我们机房面积有限,所以需要高密度存储。而且需要稳定性,因为我们的数据量大,要是异地备份需要的成本就更高。我们现在存数据,希望它的稳定性非常好,非常高,保证我们只有一份数据但是也不会丢。” 黄梦林说。
在建设自己的数据中心之前,FAST还曾经租用过别人的机房。但是解决问题的响应速度不好跟上,而且成本也在水涨船高。“我们也要考虑硬件和软件的结合和以后的服务、运维方面,是一家公司协调起来更简单,可能工作起来效率会更高,就是这样。” 黄梦林说。也正是基于这样的考虑,FAST项目开始招标建立自己的数据中心
“我们看到用户在使用的时候,刚开始这么大的一个集群,也是面临一种新的场景,总归是会有需要,问题的解决处理,这个时候本土化的厂商是非常重要的。”浪潮信息首席架构师叶毓睿介绍,FAST的数据是非结构化数据,对存储的考验很大,一方面是存储的扩展性,另一方面,当数据到达一定量的时候,运维管理的挑战也会凸现出来,“管理人员还是有限的,但那么多的存储怎么样更好地管理,我们有一些相应的手段”。
“装得下”也要“用得好”
天文研究是典型的大数据场景,数据存储不仅需要让中国天眼“装得下”数据,更要成为全球科学家天文大数据研究的加速引擎,让科学家们“用得好”。
黄梦林介绍,接收下来的数据都会经过预处理,这是个自动的流程。对于进一步的数据处理,根据天文研究项目负责人的意愿来决定,如果项目负责人有需要,数据中心也可以提供处理。如果不做要求,FAST就直接提供观测数据。
为了满足这些需求,浪潮存储以高性能节点提升天文大数据存储、处理和分析的效率,以高密度节点“海纳”天文级数据,基于智能IO均衡、智能资源调度、智能元数据管理等软件栈算法让百万级IO均衡落盘且路径更短,从而实现数据在不同层级存储之间能够根据天文业务需求实现数据自由流动。
具体来说,浪潮存储基于超大规模分布式存储平台,在一个存储平台内部署高性能和高密度两种节点,提供53PB容量、100G聚合带宽和AIOps智能管理,为中国天眼FAST的IT基础设施建设提供了支撑,完成了计算性能超两千万亿次/秒、带宽达100GB/秒,冷热数据分层存储可以容量达53PB的自有数据中心平台建设。中国天眼采用了60余台高密度节点AS13000G5-M60,单节点容量接近一个PB,节省了数据中心物理空间,运营成本节省了65%。
要想用得好,前路亦有挑战。以AI为例,数据的采集、模型的训练、应用的推理还有长期的存档让整个存储行业都在面临挑战:数据吞吐能力,也就是每秒的操作数要求很高,存储介质也有变化,甚至有可能利用内存的池化去应对更高的存储需求。这导致整个IT的基础架构都在根据场景的需求不断衍生、迭代。
“在分布式存储里其实还有很多可探索的空间,像天眼是我们看到的其中一种。”叶毓睿说,随着需求增长,需要有更多的算力, “其实就是朝着一切皆计算机的方向去发展”。