4月24日,在2025年云網(wǎng)智聯(lián)大會(huì)智算中心網(wǎng)絡(luò)分論壇,中國(guó)移動(dòng)研究院攜手中國(guó)信息通信研究院、北京郵電大學(xué)、華為、中興、新華三、銳捷、思博倫、盛科、新易盛、橙科微電子、云脈芯聯(lián)等合作伙伴,聯(lián)合發(fā)布《面向新型智算中心的以太網(wǎng)彈性通道(FlexLane)技術(shù)白皮書(shū)》,中國(guó)移動(dòng)研究院副院長(zhǎng)段曉東出席發(fā)布儀式。

中國(guó)移動(dòng)研究院發(fā)布面向新型智算中心的以太網(wǎng)彈性通道(FlexLane)技術(shù)白皮書(shū)  第1張

《面向新型智算中心的以太網(wǎng)彈性通道(FlexLane)技術(shù)白皮書(shū)》是繼中國(guó)移動(dòng)發(fā)布首個(gè)物理層安全PHYSec技術(shù)之后,又一次提出從物理層入手提升智算中心互聯(lián)鏈路可靠性的技術(shù)方案,旨在提出以太網(wǎng)彈性通道FlexLane高可靠技術(shù)的需求、愿景、技術(shù)架構(gòu)和部署建議。希望能夠?yàn)橹撬惝a(chǎn)業(yè)、通信產(chǎn)業(yè)在規(guī)劃設(shè)計(jì)網(wǎng)絡(luò)互聯(lián)技術(shù)、產(chǎn)品和解決方案時(shí)提供參考和指引。

隨著以ChatGPT、Deepseek為代表的AI大模型崛起,算力需求呈指數(shù)級(jí)增長(zhǎng),全球正加速建設(shè)新型智算中心。AI推訓(xùn)任務(wù)依賴(lài)大量服務(wù)器并行計(jì)算,形成了以東西向流量為主的交互模式,網(wǎng)絡(luò)互聯(lián)成為集群可靠性的關(guān)鍵環(huán)節(jié),任何互聯(lián)鏈路故障都可能導(dǎo)致AI任務(wù)發(fā)生小時(shí)級(jí)或更長(zhǎng)時(shí)間中斷(依賴(lài)故障定位和修復(fù)、Checkpoint間隔、重啟等),嚴(yán)重影響算效并造成算力資源浪費(fèi)。如何提升大規(guī)模集群組網(wǎng)的可靠性,是智算網(wǎng)絡(luò)技術(shù)演進(jìn)的重要方向,受到全球?qū)W界和產(chǎn)業(yè)界的高度關(guān)注。

基于傳統(tǒng)網(wǎng)絡(luò)冗余保護(hù)機(jī)制,例如LAG等技術(shù)可以提升互聯(lián)鏈路的可靠性,但考慮智算中心的建設(shè)成本、能耗以及運(yùn)維復(fù)雜度,需要探索低成本、低代價(jià)技術(shù)路徑。中國(guó)移動(dòng)研究院主導(dǎo)提出的面向新型智算中心的以太網(wǎng)彈性通道(FlexLane)技術(shù),基于鏈路自身挖潛,引入靈活多通道架構(gòu),隔離故障通道降速工作,不增加額外器件,以低成本方式將鏈路可靠性大幅提升,和重傳技術(shù)配合可實(shí)現(xiàn)“零”丟包,保障AI訓(xùn)練和推理業(yè)務(wù)不受影響。

后續(xù)中國(guó)移動(dòng)將聯(lián)合產(chǎn)業(yè)合作伙伴,繼續(xù)完善FlexLane技術(shù)方案,加快國(guó)際國(guó)內(nèi)標(biāo)準(zhǔn)化進(jìn)程,加速推動(dòng)產(chǎn)業(yè)生態(tài)成熟,形成完整的生態(tài)鏈,推動(dòng)商用進(jìn)。