ICC訊 Oriole Networks近日榮幸地接待了Gazettabyte的Roy Rubenstein到訪其倫敦辦公室。Roy與公司多位高管進行了會面,深入了解了全球首個面向AI的全光網絡解決方案PRISM。作為他對OFC 2025行業觀察的一部分,Roy撰寫了一篇精彩的訪問報道——以下是該報道全文。
初創公司Oriole Networks開發出一種光子網絡,用于連接人工智能數據中心內的眾多加速器芯片。這種快速光子網絡每100納秒可重構一次,旨在取代多層電交換機。Oriole表示其光子網絡可顯著節省電力,并確保網絡不再成為計算瓶頸。
Oriole Networks CTO Georgios Zervas
在倫敦一間沐浴著春日陽光的辦公室里,來自Oriole Networks的團隊詳細闡述了他們對AI和高性能計算(HPC)數據中心的愿景。
Oriole開發了一種名為Prism的網絡解決方案,該方案使用快速可重構的光路開關來替代數據中心中用于連接AI處理器機架的傳統電包交換機層級。
電交換機在數據中心中起著關鍵作用,使由數千個加速器芯片組成的AI計算機得以擴展。這些芯片包括圖形處理器(GPU)、張量處理器(TPU)或更通用的xPU,它們被用來處理大型AI計算任務。這些任務包括將學習印刻到大型AI模型上,或者在AI模型訓練完成后進行推理,即在提示時分享知識。
Oriole的新網絡基于光路開關,能夠根據工作負載的變化迅速切換,按需分配xPU資源。雖然電交換機已經能很好地做到這一點。
技術淵源
Oriole成立于2023年,建立在Georgios Zervas及其UCL研究團隊十多年的研究成果之上。該公司已籌集了3500萬美元資金,其中包括由投資公司Plural的Ian Hogarth領投的2200萬美元A輪融資。Ian Hogarth是一名技術企業家,也是英國AI安全研究所的主席。
目前50人的團隊分布在倫敦、佩恩頓和帕洛阿爾托三地,匯聚了包括Paignton前Lumentum相干收發器團隊和西倫敦前英特爾Altera部門的光子學以及針對超大規模企業需求的可編程邏輯設計專家。
AI數據中心指標
電力是限制AI數據中心生產力的關鍵因素之一。
Oriole副總裁Joost Verberk指出:"數據中心的電力供給有限,系統和網絡必須盡可能高效,才能將電力集中供給GPU。"
Oriole提到了Nvidia的Jensen Huang在其最近GTC活動上使用的兩個指標來量化AI數據中心的效率。一個是每兆瓦每秒生成的token數(tokens/s/MW)。Token是指數據元素,例如單詞的一部分或圖像像素條帶,這些會被輸入或由AI模型生成。生成的token越多,數據中心的生產力越高。第二個指標是響應速度,以每秒生成的token數(tokens/s)衡量,用于評估延遲(響應速度)。
Oriole指出這兩個指標并不總是同步的,但目標是用更少的電力生產更多的token并更快地完成。
討論token意味著數據中心的硬件用于推理。然而,Oriole強調,減少訓練AI模型所需電力也是一個目標。Oriole的光網絡解決方案既可用于推理也可用于訓練。
展望未來,只有少數幾家公司,如超大規模企業,會訓練最大的AI模型。許多較小規模的AI集群將被部署并用于推理。
“到2030年,80%的AI將是推理?!監riole首席執行官James Regan說道。
網絡影響
推理本質上意味著呈現的AI任務不斷變化。一個含義是,連接AI處理器的網絡必須是動態的:為特定任務抓取處理器并在任務完成后釋放它們。
Oriole首席技術官George Zervas指出,盡管Nvidia使用相同的GPU進行訓練和推理,但Google最新的TPU Ironwood具有推理增強功能。Google還擁有專用于推理工作的AI計算集群。與此同時,AWS則使用不同的加速器芯片分別進行推理和訓練。這兩種處理器的互連帶寬要求(輸入-輸出,或I/O)不同,推理處理器的要求較低。
對于訓練來說,根據任務的并行化方式,處理器/xPUs之間的數據交換高度可預測?!澳憧梢詣摻ㄒ幌盗卸虝r存在的光學電路,以最小化集體通信時間,”Zervas說。然而,開關必須是確定性和同步的?!澳悴粦撚衃數據包]隊列,”他說。
推理過程可能訪問許多AI“專家混合”模型,因此需要一個更加動態的系統?!安煌膖oken將前往分布在xPUs上的不同專家集,”Zervas說?!坝袝r,一些xPUs會對查詢進行批處理然后一次性發送出去?!?
結果是非確定性流量,這與傳統云數據中心的流量模式更為接近。在這里,網絡必須在幾百納秒內快速重新配置。
“我們說的是,納米級速度的光路開關可以在任何電包交換機出現的地方發揮作用,”Zervas說。他強調即使在如此快的切換速度下,它仍然是一個電路交換機,因為兩點之間有保證的路徑。這不同于傳統電交換機中的“盡力而為”的流量,其中數據包可能會被丟棄。
“在我們的情況下,這個鏈接可以持續的時間就像一個數據包一樣短,”Zervas說?!拔覀兊拈_關可以在每100納秒重新配置一次?!?
一旦建立了鏈接,數據就會被發送到另一端而不遇到排隊問題?;蛘哒鏩ervas所說,這種切換匹配了數據包的粒度,但卻提供了只有電路才能保證的交付。
光學在數據中心網絡中的日益增長的角色
目前,諸如Infiniband或Ethernet等協議被用來連接xPU機架,通常被稱為橫向擴展網絡。為了使xPU相互通信,通常使用包含多層電交換機的傳統Clos或“胖樹”架構。
由于數據中心的距離跨度較大,插拔式收發器通過網絡接口卡將xPU連接到交換網絡,從而連接到目標網絡接口卡和xPU。
博通(Broadcom)和英偉達(Nvidia)宣布推出將光學器件與硅交換機集成的電交換機,這是一個較新的發展方向。使用這種共封裝光學器件可以繞過在電交換機平臺前面板上安裝插拔式光收發器的需求。
谷歌(Google)也開發了自己的數據中心架構,用光路開關代替頂層的大電交換機。在這種混合網絡中,電交換機仍然主導整個網絡。然而,使用光層可以節省成本和電力,并允許谷歌在移動工作負載時重新配置TPU機架之間的互連。不過,谷歌的光路開關的配置速度遠不如Oriole的快,肯定不是納秒級別的。
通過其Prism架構,Oriole采取了一個激進的步驟,即替換所有的電交換機,而不是僅僅替換頂層。結果是一個平面無源光網絡。(見下圖)
“切換發生在網絡邊緣,核心完全是無源的;它僅由玻璃組成,”Verberk說。由此產生的網絡零數據包丟失且高度同步。消除電交換機減少了整體功耗和系統復雜性,同時提供直接的xPU到xPU高速連接。
Prism架構
Oriole的首次發布是Prism架構,該架構基于三個系統組件:
1. 基于PCIe的800G網絡接口卡:集成ARM處理器的FPGA支持NVIDIA NCCL和AMD RCCL協議
2. XTR可插拔模塊:集成收發與交換功能,采用可調諧激光器實現波長-空間-時間三維交換
3. 無源光子路由器:基于陣列波導光柵(AWG),零功耗實現波長路由
“你可以從GPU直接通過光學方式連接到另一個GPU,唯一發生的[光電]轉換是在每個GPU旁邊的網絡接口卡上,”Verberk說。
基于PCIe的網絡接口卡使用800Gbps光通信技術,并與標準軟件生態系統集成。該網卡圍繞一個包含ARM處理器的FPGA構建,支持通過插件實現Nvidia的NCCL(Nvidia集合通信庫)和AMD的RCCL(Radeon開放計算集合通信庫)等協議,確保與現有AI軟件框架兼容。
該網絡接口卡作為確定性數據傳輸設備,將用于AI計算的集合操作(例如消息傳遞接口操作如all-reduce、scatter-gather)映射到具有最小延遲的光路徑上。
網卡的調度器將訓練使用的確定性模式直接映射到波長和光纖上。同時,它根據工作負載需求動態重新配置,使用標準的直接內存訪問(DMA)引擎進行推理。
XTR可插拔模塊是Prism交換能力的核心?!霸谝粋€可插拔外形尺寸單元中,我們實現了傳輸、接收和交換,”Zervas說。
光子網絡結合了三種維度的交換:光波長、空間交換和時隙(時分復用)。所選波長顏色由快速可調激光器決定。
XTR可插拔模塊內的空間交換指的是所選光纖路徑?!澳阌幸皇饫w,你可以選擇要連接哪根光纖,”Regan說。
時間方面指的是100納秒的時隙,即可調激光器調整到新波長所需的時間??傮w而言,快速改變顏色可用于將數據路由到特定節點。
“調制通道可以決定你要連接哪個通信組或集群,光纖路徑可以決定你要連接的邏輯機架,而你攜帶的光的顏色則可以決定機架內的節點ID,”Zervas說。
光子路由器由無源陣列波導光柵組成,構成了Prism的核心?!八鼈冎皇遣A?,這意味著它們是非熱的,”Regan說,強調了其可靠性和零功耗。這些N×N陣列波導光柵根據波長和光纖選擇路由光線,作用類似于棱鏡。
“在一個端口,比如說輸入端口,我們有紅色光;如果是紅色,它會到達第一個輸出端,如果是藍色,到第二個,如果是紫色,到第三個,等等,”Zervas說。
多層堆疊的多個陣列波導光柵機架可以處理大規模集群,保持單一光跳以維持一致的信噪比和插入損耗。
“每個節點與其他每個節點僅通過一次此過程,確保數千個GPU之間的一致性能,”Zervas說。
Prism的功率與計算效率
以一個包含8000個GPU的集群為例,Prism消除了128個葉交換機和64個脊交換機,減少了60%的光收發器數量。對于超過16000個GPU的更大AI集群,通常需要第三層交換。這可減少77%的收發器數量。
使用Prism不僅減少了光收發器的功耗,還通過去除電交換機及其相關冷卻需求降低了整體功耗。與以太網包交換不同,Prism的光電路保證無排隊的數據傳輸,每100納秒重新配置一次,與數據包持續時間匹配。
在訓練方面,Prism將通信開銷降低至1%以下。而在現有網絡中,這一數值通常為百分之幾十。這意味著GPU很少等待數據,而是將時間用于處理任務。
市場與部署策略
Oriole的目標市場包括三類:金融交易企業、汽車制造商等HPC用戶、交換機廠商以及超大規模服務商。
“我們的潛在客戶群要廣泛得多,”Regan指出,這與專注于特定芯片廠商和超大規模服務商的芯片級光I/O廠商形成對比。
Prism還包括一個以太網網關,允許其與現有數據中心集成,避免完全替換原有系統?!澳憧梢栽跀祿行闹行枰牡胤绞褂盟?,或者在新建部分使用它,”Regan說。
Oriole的路線圖包括今夏的實驗室演示、2026年初的Alpha硬件、2026年底的可部署產品以及2027年的量產爬坡。制造外包給高產量合同制造商。
挑戰與展望
說服超大規模服務商采用非標準軟件棧仍是一個障礙?!斑@需要合作,”Zervas指出,超大規模服務商使用專有協議。
Oriole的全棧方法——涵蓋從Nvidia的CUDA庫到光子電路——使其與眾不同。
“你很少能遇到一家公司在[光子學和計算]兩個領域都擁有深厚專業知識,”Regan說,這與只專注于光子學或計算的競爭對手形成鮮明對比。
“我們正在打造一些東西,”Regan說?!拔覀冋诖蛟煲粋€面向未來的歐洲主要網絡公司,服務于AI和任意工作負載?!?
原文:https://www.gazettabyte.com/home/2025/5/21/orioles-fast-optical-reconfigurable-network.html
新聞來源:訊石光通訊網
相關文章