ICC訊 今年來,生成式AI所需的超算集群開始有云計算服務的形態,成為了云基礎設施和光互聯產品的新增長引擎。相比通用彈性計算服務器集群所發生的變化。AI訓練的云基礎設施也在火熱的建設中。數據中心光互聯技術在AIGC時代發生了什么變化,如何才能更好的適應AI數據中心基礎設施的要求。在iFOC 2023上,云智能網絡研發事業部光網絡架構師 陸睿發表了《AIGC時代對數據中心光互聯的新要求》的演講。
服務器方面,X86為核心的通用計算服務器升級為以GPU為核心的高性能計算服務器,功率更高、算力更強、集成度更高。網絡方面,數據中心以太網網絡基于RoCE的以太網或者IB的高性能網絡,高吞吐、超低時延和高可靠性。
AI超算網絡的互聯架構包含以太網、Infiniband、NVLink。陸睿對比了三種互聯架構之間的有點。以太網成本低、供應豐富,適合多租戶共享的超算基礎設施;Infiniband相對封閉,適合單一用戶建立獨享的超算基礎設施;NVLink用于GPU之間的高速互聯,開銷更小,帶寬更大,但最大256個節點。
陸睿表示:AI超算網絡的光模塊選擇傾向于選擇4通道QSFP光模塊,4通道激光器數量更少,有利于可靠性、光模塊內部面積更寬裕,設計和制造難度小、光模塊功耗更低,系統散熱設計更容易。不同數據中心客戶根據自己的網絡架構特點選擇不同的光互聯技術方案(Form factor、光電通道數、通道速率)。技術本質基本一樣:單通道25G/56G/112G/224G。
AI需要更大的互聯需求量,接入方案已經從DAC/AOC線纜變成了光模塊。每GPU卡和對應的同帶寬光模塊數量比例達到1:4~1:6。在Nvidia的DGX H100和GH200的網絡架構里加入了NVLink switch架構,進一步提升GPU之間的互聯帶寬。H100/H800的8卡服務器的對外NVLink帶寬是14.4T,每卡和光模塊(按400G算)數量比例達到1:9。
AI的發展有更高速率要求,傳統云計算市場在發生變化,對更高速率光模塊的需求在變緩,基礎設施投入進入精細化管控階段 。目前超算集群性能的瓶頸仍在網絡帶寬,會成為新一代高速光模塊產品的主要需求推動力。
隨著交換機Serdes速率和數量的增加,現今,光模塊功耗占設備總功耗高達1/3。低功耗、低時延的光互聯技術更適合超算,陸睿對比了LPO/CPO/NPO技術的對比和選擇,他認為LPO優點是兼顧可插拔和CPO的優點,但系統集成難度大,技術約束多。CPO/NPO優缺點都很明顯,尚待觀察。
光互聯在超算網絡中數量多且物理底層,對網絡整體穩定性有關鍵性影響。光互聯如何滿足更高可靠性要求。陸睿提出研發引入階段:1.加強光芯片的可靠性認證測試。2.加強光模塊在研發和測試引入階段的可靠性認證測試。批量部署階段:1.嚴格執行研發測試——小批量灰度測試——大批量部署的流程;2.加強光模塊在批量生產時的可靠性數據監控;3.結合網絡監控數據平臺、自動化運維監控光模塊的運行情況;4.建立優勝劣汰機制,選擇可靠性更優的模塊技術、型號和廠家。
最后,在持續優化的要求方面,陸睿講到目前IDC機房供電功率和散熱能力設計是為傳統云計算X86服務器設計的,不滿足GPU服務器的高密部署,低密度部署導致光纖連接距離變長,需要升級浸沒式液冷技術或其他效率更高的散熱技術。另外還提到新型光纖技術—空芯光纖,空芯光纖可做到3.3ns/m時延,相比普通光纖的5ns/m時延降低了33%,按照3跳交換機、每段鏈路平均距離50m計算,空芯光纖可縮短約單向0.34us時延,是一個值得期待的技術。