近年來,人工智能、虛擬/增強現實、物聯網等新興技術的涌現都離不開云計算的支持。云計算是數百萬臺分布在全球各地數據中心的服務器通過網絡連接在一起組成的大型分布式計算平臺。今天,數據中心不再是一座孤立的機房,而是一個建筑群。一個數據中心可以包含很多個分支數據中心,它們所處的位置不同,卻可以通過網絡互聯起來,共同完成相應的業務部署。
而實現這些數據中心間互通的紐帶就是——數據中心間互聯技術(注,下文簡稱DCI)
根據Cisco發布的云指數報告,過去五年,數據中心間的互聯帶寬保持了近33%的年增長率,互聯帶寬達到了~100Tb/s量級。
圖 1 Cisco發布的數據中心年流量增長趨勢
當把若干個數據中心用光纖連接起來,并且采用光通信技術承載他們之間相互的信息傳遞,這就組成了數據中心間互聯光網絡(注,后面簡稱DCI網絡)。
從不同角度分析,DCI網絡有一些明顯特征:
1、網絡拓撲以點到點和簡單組網為主,復雜度較低。
2、城域數據中心間互聯距離較短,單位傳輸成本的降低對數據中心很有吸引力。
3、更加關心網絡時延,小的設備時延可以減輕數據中心選址的困難。
4、互聯業務種類相對單一,以100G的以太網為主,電層設備復雜度較低。
5、結合流量的快速增長,模塊化的設備以及靈活可擴張的組網方式更受歡迎。
6、特殊的硬件要求,例如容納在服務器機柜中,滿足前后出風、高壓直流供電方式等。
為了更好的建設和維護數據中心間互聯網絡,適配快速增加的數據中心間流量,DCI技術應運而生。
從黑盒封閉到開放解耦
在過去的網絡運營體系中,系統廠商提供整套解決方案,包括設備安裝、系統調試、運維支持等,系統整體類似于封閉的黑盒,不同廠家的硬件、軟件均不具備兼容互通的可能。
其次,成本問題。受益于相干光傳輸技術的不斷演進,單波速率從100Gb/s增長到了800Gb/s,由于電層設備的主要成本來自于光學器件,因此單波速率提高有利于降低單位成本。不過,過去10年,很少有一家系統廠家持續保持產品上的領先優勢。這意味著,如果繼續采用封閉系統構建網絡,將無法第一時間享受到技術發展的紅利。
圖 3 電層單波速率和單纖容量的演化圖
另外,封閉系統中的私有網管軟件無法與用戶已有資源管理、權限管理、建設流程和日常維護系統打通,難以提升端到端的自動化水平,從而縮短業務開通時間。
DCI技術的第一個突破點就是打開封閉的系統,讓用戶可以按需定制自己的網絡,規避獨家綁定,確保供應安全。
阿里云基礎設施光網絡團隊,研究提出開放解耦DCI技術的概念,并和行業合作伙伴一起推進了DCI技術生態的形成和壯大,突破了傳統封閉式的系統理念。
DCI網絡可以看成由底層硬件設備和上層管控軟件共同組成,其中設備分為光層設備和電層設備,兩者的角色類比于城市的交通設施,光層設備類似基礎道路,電層設備則是路上的交通工具。同電層技術的快速演化相比,光層設備屬于基礎設施中的基礎設施,技術演進相對較慢,往往都會超期服役。所以,解耦的第一刀就切在這里,把公路和交通工具分割開,把光層和電層解耦。光層設備和電層設備來自不同廠家,同時在一套光層設備組成的“公路”上,可以支持來自不同電層設備廠家的“交通工具”。
圖 4 日常生活中的道路上可以自由的行駛來自不同廠家的不同類型的交通工具,開放解耦DCI網絡也擁有類似的能力
同時,需要設備提供統一接口能力。軟件定義網絡(Software defined networks)的發展,Netconf協議得到了大多數設備廠家的共識。阿里巴巴也在早期加入了OpenConfig組織,參與光網絡相關的數據模型定義?;贜etconf協議和OpenConfig模型,可以采用第三方云軟件平臺直接對接廠家設備實現管控,這種完全解耦的系統減少了管控路徑上的環節,對響應新增網絡級功能需求有更好的主動性和自由度。
圖 5 開放解耦的DCI網絡
靈活架構支持網絡可擴張
封閉系統打開后,下一步就可選擇更合適的硬件來構建可靈活擴張的DCI網絡。
在較長一段時間內,光層設備的合分波單元僅支持固定通道間隔,實際上,隨著單波速率不斷提升,電層設備需要的頻譜寬度也不斷增加。為了兼容不斷發展的單波速率,固定間隔的合分波單元要升級到基于波長選擇開關(Wavelength Selective Switch,WSS)的靈活合分波單元。
圖 6 靈活合分波單元與靈活柵格頻譜,為了支持更多的上下路端口,需要將兩個WSS進行合并
在規模大的DCI網絡中,業務分布更復雜,需要考慮基于ROADM(Reconfigurable Optical Add Drop Multiplexer)的Mesh網絡架構。在數據中心較為分散的城市,往往會采用星型架構。如果主站不具備光層穿通能力,那么衛星站之間的流量需要在主站進行光-電-光轉換,不僅增加額外成本,還會增加站點間的傳輸時延。當主站是ROADM時,衛星站之間的業務可以在主站穿通直達對端,并且穿通的波長和路由都可通過網管軟件進行配置,大大減少DCI網絡的人工運維成本,提升業務開通效率。
點到點場景下,光層在第一天就已經建設完畢,光電解耦是合理的。在Mesh DCI網絡中,考慮到后續站點的增加和網絡規模的擴大,光層需要進一步解耦。我們推薦將ROADM按照方向進行解耦,同時確保光復用段(Optical Multiplex Section,OMS)內的設備都來自于同一個廠家。這樣的方式即可將DCI網絡中的光層部分有效切割,同時又避免陷入過多的設備之間協議的約定細節中。網絡建設的第一天只有站點A和B之間的連接,設備來自于供應商M。第二天增加了一個新的站點C,那么站點C與站點B之間的連接,站點C與站點A之間的連接分別由供應商T1和T2承建。為了應對不同廠商設備連接頭不同導致的無法互通的問題,我們設計了一款支持靈活插卡的萬能連纖盒,由全連接背板以及方向適配插卡組成。每個方向的適配板卡可以匹配廠家的接頭規格,并將廠家的線序“翻譯”成通用線序。這樣,任意兩個方向之間通過萬能連纖盒實現了全連接??梢哉f,萬能連纖盒以四兩撥千斤的方式實現了光層異構,為DCI網絡規模的擴大打開了自由之門。
圖 8 基于萬能連纖盒的異構ROADM和光層解耦方案示意
管控自動化提升網絡效率
同IP數字通信系統相比,光網絡中依然保留了大量的模擬屬性,例如光功率如何調整,放大器的增益、斜率如何配置等。為了應對這樣的挑戰,需要能實現可供第三方使用的開放光網絡設計工具。通過抽象出多層級模型,描述不同廠家設備的行為和功能,廠家的差異性體現則在模型的關鍵規格參數中。結合實際組網拓撲數據、業務資源數據等信息,規劃器求解端到端最優化問題,可以計算獲得所有設備上的目標配置值以及此時的性能余量。
在已有網絡中新增業務或者做配置優化時,需要像一個攀巖高手一樣,小心的選擇從當前配置到目標配置的調節路徑。受限于光放大器非線性、光纖Kerr非線性以及受激拉曼散射效應的影響,不僅當前調節的業務通道需要關注,相鄰的通道以及附近相關OMS上的通道同樣需要監測。在配置器中引入了實時狀態檢查單元,實時采集的設備性能數據經過定制的檢查邏輯,判斷當前調節路徑是否存在風險,不斷更新。如此反復,最終安全的實現預設的調節目標。
圖 9 可供第三方使用的開放光網絡設計工具和自動化配置流程
發展和挑戰
不斷涌現的互聯網服務以及快速演進的云計算,推動了DCI網絡在過去的十年里蓬勃發展。開放解耦的系統,簡單且靈活的架構體系以及軟件自動化是DCI的主要創新點。在可預見的未來里,5G網絡,物聯網(IoT),增強現實技術(AR)和虛擬現實(VR),以及邊緣云計算將繼續推動DCI網絡快速增長。一個開放的DCI生態將會更有利于新技術的發展和引入、推動技術創新和業界繁榮,更好滿足客戶和業務的需求,并最終推動云計算邁向新的階段!