計世網

青云QingCloud EHPC:超算商業化新勢力
作者:宋辰 | 來源:計算機世界
2021-11-26
大數據和人工智能與超算融合的場景對超算提出了一定的挑戰。

 

科學家通過分析過去20年的全球衛星圖像,就能獲得每年森林的流失情況。為了得到這個數據,科學家使用Google Earth Engine超算平臺,動用了1萬臺服務器,分析了 65萬張遙感影像。借助超算的算力,整個計算時間只要4個小時。

中科院研究員商紅慧通過模擬拉曼光譜,結合量子的擾動,設計了全電子精度的第一性原理計算理論算法,能夠通過量子力學的方法對所有原子做模擬,從而得到蛋白質分子的信息,使藥物的研發更快速、更精確。在這個辦法的背后,支撐運行的是一套468 PFlops 算力的太湖之光超級計算機,能夠模擬多達3006個原子。

F1賽道上的紅牛車隊在比賽之前會根據下一場比賽賽道的特定環境做模擬,包括使用虛擬風洞來優化空氣動力學;模擬電源散熱系統,讓賽車能發揮最大功率;模擬碰撞優化車身結構,讓賽車可以符合比賽的安全法規。利用超算平臺的算力,紅牛車隊這種針對性的模擬和優化能夠在 7 天內完成,保證他們每一場比賽都能擁有最大的優勢。

不僅僅是科研領域,如今,隨著大數據經濟的崛起、訓練人工智能(AI)算法和運行模擬所需的計算能力,以及云計算的增長,使業界對高性能計算的需求與日俱增。但與此同時,大數據和人工智能與超算融合的場景對超算也提出了一定的挑戰。

首先是大數據應用對存儲的需求比以前大很多,第二,不同類型的業務對存儲的要求也不一樣。用戶都希望有無限的存儲容量、最高的性能,還要很便宜,這就需要超算中心對不同的業務提供合適的存儲類型。

早期,超算中心都是圍繞計算資源建的,存儲上基本只有并行文件存儲,并且容量有限,難以支撐大數據的場景。新一代的超算中心有些已經配備了足夠大的容量,可以承接仿真建模類大數據業務,但由于超算中心本身提供的服務比較單一,也無法承載這種純粹的大數據業務。

而人工智能應用的爆發,則要求超算中心有充足的GPU資源,還要提供對應的軟件框架,比如 TensorFlow。這些業務往往還希望用云原生的方式來部署和運行。這對以 Slurm 調度器為主的超算中心也是一個很大的挑戰。

QingCloud EHPC,融合的超算云平臺

近日,青云科技推出了EHPC超算云平臺—— QingCloud EHPC,可以全面地支持各種新的業務場景。

對于超算最常見的仿真和建模業務,青云提供了低延時、高帶寬的InfiniBand網絡,高速并行文件存儲以及CPU/GPU的算力組合,不僅能支持大規模求解運算,還能提供 GPU 桌面進行圖形前后處理,完成一個閉環的業務場景。

對于大數據業務,QingCloud云平臺提供的對象存儲容量達 245PB,跟計算節點結合,可以用于大規模的數據處理和分析。計算節點到對象存儲的網絡帶寬有1.6T,能夠保證大數據計算的超高性能。

對于人工智能訓練業務,青云提供算力達850PFlops的A100 GPU資源池和全閃并行文件存儲,并且能夠結合容器平臺,提供性能極致優化、輕量便捷、開源開放的人工智能平臺。

有了云平臺的多種存儲服務,用戶可以按照自己的業務來選擇合適的存儲類型,包括冷熱類型的對象存儲、全閃并行文件存儲或者塊存儲等。

有了虛擬化技術的加持,青云可以快速為不同業務構建其所需的運行環境,隨時可以切換 MPI、TensorFlow 或者 MapReduce 軟件平臺,充分利用超算中心的硬件資源滿足各種業務場景的需求。

傳統超算中心的使用及運營痛點如何解決?

用戶在使用傳統的超算中心時,需要提交一個申請,并且有人工審批的環節,當他得到審批通過后,還需要自己安裝VPN客戶端連接超算中心提供的登錄節點。

青云EHPC超算云帶來的一個最大的變化是,把傳統的審批制度變成用戶自服務的形式,用戶隨時可以自己到云平臺注冊賬號,并且充值購買他需要的計算資源。

青云能讓高性能計算“自服務”得以實現是因為“安全”做了三個改進: 計算、網絡跟存儲的租戶隔離。因為云計算的虛擬化技術,青云天然就把計算、網絡、存儲對于每個租戶在物理上及邏輯上做了很強的隔離。 青云管理節點跟計算節點分離。租戶可以使用完全獨享的登錄節點,不必像以前那樣跟別人共享。 除了傳統的VPN接入,青云還能提供零信任客戶端,讓用戶登錄到超算中心的時候更便捷和安全。 青云保障安全的同時,還能讓超算使用更靈活,這是由于青云提供了兩種不同類型的超算集群:

偏傳統的共享型超算集群。雖然青云的計算集群是共享的,但給用戶的登錄節點是獨享的,所以用戶自己軟件的安裝、執行、操作還是在自己的節點上,跟別的用戶是沒有關聯的。

除了共享集群之外,青云還提供一種新的獨享EHPC集群。這種EHPC集群能給用戶一個root賬號,用戶使用會非常方便。一是不僅能自由地安裝自己需要的系統軟件,甚至切換超算平臺的各種軟件,比如前面提到AI相關的TensorFlow,或是大數據相關的Hadoop、MapReduce,用戶可以自行安裝。二是EHPC集群的節點是用戶獨享,使用時不需要排隊,可以合理安排使用時間。三是EHPC集群的計算、存儲和網絡類型,用戶可以根據自身特定的業務場景自由搭配。

以工業場景為例。青云在平臺上也集成了工業仿真軟件,能提供一站式的使用體驗。求解集群能夠提供彈性的算力,很快地完成求解運算,此外,青云還能提供桌面虛擬應用,讓用戶完成圖形的前后處理,這樣就可以覆蓋到工業仿真軟件的全流程。

超算中心在運營上有一個痛點,就是超算的業務都是短期、大規模的方式,比如1萬個節點使用4個小時,這就會導致兩個問題:一是經常出現突發業務,導致計算資源短缺,其他用戶要用的時候需要長時間排隊;二是業務少的時候會出現大量資源空置,造成成本浪費。

“青云的愿景是希望跟超算中心合作共建算力共享的算力網絡。青云的EHPC平臺不僅可以為超算中心私有化部署超算云平臺,還可以為其連接全網算力提供外部資源支撐突發業務。當超算中心的資源空置時,也可以對外出售算力增加運營收入。”青云QingCloud 云平臺&服務部高級總監陳海泉表示。

 

責任編輯:宋辰

欧美性生活,欧美性爱综合网,欧美性情生活片免费