快资讯:青云QingCloud EHPC超算平台:为实现高性能算力配置更优找到新路径

时间:2022-11-28 17:50:17       来源:砍柴网

风驰电掣的F1赛车,可以说是速度与激情的完美结合。

不过,为了具备更强的竞赛能力,在每一场F1比赛开始之前,你知道车队都会为赛车做哪些检测工作吗?你可能知道的是:车队每换到一条新赛道或者是每次遇到天气变化时,都必须对F1赛车进行仔细的调校。这种调校需要结合赛道特性和车手的驾驶风格,并且涉及方向盘、轮胎、引擎、尾翼等各个车身部件。


(资料图片)

然而你可能不知道的又是什么呢?在每一场比赛之前,车队都会根据下一场比赛赛道的特定环境进行模拟实验,包括使用虚拟风洞来优化空气动力学;模拟电源散热系统,让赛车能够发挥最大功率;模拟碰撞优化车身结构,让赛车可以符合比赛的安全法规。利用超算平台的算力,这些针对性的模拟和优化工作能够在 7 天内完成,从而保证F1车手的每一场比赛都能拥有最大的优势。

从中可以看出,F1赛车“背后”的这些事儿都离不开一项关键技术——超算平台,而超算平台背后依托的又是高性能计算。青云QingCloud表示,高性能计算指的是通过大量服务器并行运算,用来解决工程和科学上的问题。它的用途很多,宏观上可以将卫星图像、遥感数据、气象数据等,利用高性能计算模拟出地球、海洋和气侯环境;微观上,能够模拟分子和原子原理,使药物研发更快速、更精确。

新场景下机遇与挑战的角力

如今,随着技术的迭代和应用需求的增加,高性能计算的应用触角正快速延伸。除了已有的应用场景,青云QingCloud看到高性能计算这一领域又涌现出了新的场景:大数据和人工智能与超算融合。

呈现大数据和人工智能与超算融合的新场景,一方面是因为数据量的增加和数据类型的多样化驱使数据中心与算力中心互相融合,另一方面是因为人工智能进入深度学习阶段需要进行大量的浮点运算,为了达到足够的算力,就需要更多的 GPU 节点。

以具体的应用场景为例,在医药领域,新冠肺炎疫情加速了大数据在医药和生命科学领域的应用,促进了核酸疫苗和核酸药物的研发。例如BioNTech公司基于病毒基因序列,通过超算平台,只用了4个小时就设计出 mRNA 新冠肺炎疫苗。在金融领域,大数据和人工智能与超算相结合,对各种层面和维度的数据进行分析,通过深度学习技术训练出模型,并且应用在风控上,可以让坏账率降低35%。

如此看来,新场景所带来的机遇已毋庸置疑,不过此时往往挑战也是如影随形。在各种业务场景下,因数据处理量、计算任务关联关系等不同,对计算能力、存储效率、网络带宽及时延要求有各自侧重。较早的超算中心都是围绕计算资源而建,存储上基本只有 Lustre 并行文件存储,并且容量有限,难以支撑大数据的场景。而新一代的超算中心虽然配备了足够大的容量,可以承接仿真建模类等大数据业务,但由于超算中心本身提供的服务比较单一,也无法承载 MapReduce 这种纯粹的大数据业务。另外,人工智能应用的爆发,则要求超算中心有充足的GPU资源,并且还要提供对应的软件框架。这些业务往往还希望用云原生的方式来部署和运行。

需求的多样化自然带来的是挑战性的急剧增加。用户都希望有无限的存储容量、最高的性能,还要很便宜。“既要、又要、还要”肯定是无法同时满足的。所以超算中心需要对不同的业务提供合适的存储类型。此时,融合的超算平台就成了一个绝佳的选择。

QingCloud EHPC超算平台的应对

云端高性能计算应该是未来的主要发展趋势,因为企业级高性能计算经常会遇到不可预测的算力波峰,云端恰好可以在短时间内获取海量计算资源,而且即开即用、用完就关,可以实现现有计算资源的优化配置。

青云EHPC产品是基于青云公有云IaaS平台、PaaS平台的云基础设施,主要为青云用户提供公有云服务,为部分客户提供专属云和混合云等多种形态的产品。

从技术架构上来讲,QingCloud EHPC主要分为三层:资源层、管理层和用户端。

资源层主要包含青云的计算、存储和网络资源,以及相应的后台调度器、调度管理平台以及可视化服务平台。

管理层主要提供SaaS化的服务,从开始作业到作业运行结束,系统将自动进行折扣信息计算、计量计费和作业监控服务,能够保证用户进来之后,对团队项目、团队项目权限等相应的管理。

用户端是用户控制台,用户可以进行创建集群、管理集群、弹性伸缩、作业提交、作业编排、作业性能分析。通过用户控制台,用户可以很方便地操作作业。

QingCloud EHPC可以全面地支持各种新的业务场景。对于超算最常见的仿真和建模业务,青云提供了低延时、高带宽的InfiniBand网络,高速并行文件存储以及CPU/GPU的算力组合,不仅能支持大规模求解运算,还能提供 GPU 桌面进行图形前后处理,完成一个闭环的业务场景。

对于大数据业务,QingCloud云平台提供的对象存储容量达 245PB,跟计算节点结合,可以用于大规模的数据处理和分析。计算节点到对象存储的网络带宽有1.6T,能够保证大数据计算的超高性能。

对于人工智能训练业务,青云提供算力达850PFlops的A100 GPU资源池和全闪并行文件存储,并且能够结合容器平台,提供性能极致优化、轻量便捷、开源开放的人工智能平台。

有了云平台的多种存储服务,用户可以按照自己的业务来选择合适的存储类型,包括冷热类型的对象存储、全闪并行文件存储或者块存储等。有了虚拟化技术的加持,青云可以快速为不同业务构建其所需的运行环境,随时可以切换 MPI、TensorFlow 或者 MapReduce 软件平台,充分利用超算中心的硬件资源满足各种业务场景的需求。

搭建算力交互的连接平台

QingCloud EHPC会向用户提供两种服务集群:第一种形式是青云作为平台方,提供 400 多个节点的共享队列,采用传统超算的形式,用户进来提交作业,按照核心数和作业运行时间进行计费。第二种形式是用户自己构建EHPC集群,通过购买节点进行定制化安装,支持root权限,可以对集群进行最高权限的配置。这种形式构造了用户自己专属的计算节点,通过计算节点的配置和计算节点的使用时长进行计费。

灵活多样、低成本的高性能计算服务模式让用户的选择更自由。这样看来,青云科技作为一家企业级云服务商,提供一个基于云模式的综合企业服务平台,始终致力于探索为行业应用提供丰富多样、灵活便捷、低成本的算力服务模式。

不仅如此,在日趋商业化、生态化的高性能计算领域,面对日益复杂的应用需求,青云也在探索一条能够实现算力最优配置的新路径,致力于搭建起算力交互的连接平台。青云QingCloud的愿景就是,希望与超算中心合作共建算力共享的算力网格。一方面作为算力中心的供应方,帮助用户建设、运营算力中心。另一方面对于算力需求方,例如分子动力学、新能源/新材料、医药和工业仿真等不同行业的用户,青云可以协调空置算力,帮助其完成任务。

关键词: 青云qingcloud 为实现高性能 最新消息 科技资讯挖掘