近日,西北農(nóng)林科技大學(xué)信息工程學(xué)院智能計(jì)算與農(nóng)業(yè)信息系統(tǒng)團(tuán)隊(duì)劉斌教授攜其課題組在國際計(jì)算機(jī)體系結(jié)構(gòu)領(lǐng)域權(quán)威期刊《IEEE Transactions on Computers》(TC,CCF A類期刊)上發(fā)表研究論文。
該論文由西北農(nóng)林科技大學(xué)攜手美國紐約州立大學(xué)和云南大學(xué)聯(lián)合發(fā)表。西北農(nóng)林科技大學(xué)信息工程學(xué)院教授劉斌擔(dān)任第一作者,紀(jì)澤宇老師與云南大學(xué)副教授何臻力共同擔(dān)任通訊作者,紐約州立大學(xué)教授李克勤(歐洲科學(xué)院院士,并行與分布式計(jì)算領(lǐng)域公認(rèn)的頂尖學(xué)者,國家特聘教授)作為重要合作者,使本次研究成果更具國際影響力。
論文針對(duì)當(dāng)前大規(guī)模深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)大模型訓(xùn)練中負(fù)載不均衡和高通信開銷的難題,提出了一種創(chuàng)新的混合并行訓(xùn)練方法——GroPipe。該方法首次將流水線模型并行與數(shù)據(jù)并行相融合,構(gòu)建“組內(nèi)流水線+組間數(shù)據(jù)并行”的分層訓(xùn)練架構(gòu),并通過自動(dòng)模型劃分算法(AMPA)實(shí)現(xiàn)計(jì)算負(fù)載的動(dòng)態(tài)均衡調(diào)度,大幅提升GPU資源利用率。
GroPipe方法整體框架圖。西北農(nóng)林科技大學(xué)供圖
為了進(jìn)一步降低數(shù)據(jù)并行同步通信代價(jià),GroPipe在反向傳播階段引入“基于分組的延遲異步通信”策略,延遲梯度同步操作,有效減輕全局通信帶寬壓力,顯著提升訓(xùn)練吞吐量。實(shí)驗(yàn)證明,在ImageNet數(shù)據(jù)集上,GroPipe方法相較于主流方案(如DP、Torchgpipe、DAPPLE和DeepSpeed)表現(xiàn)出卓越優(yōu)勢(shì):ResNet系列平均加速比達(dá)42.2%,VGG系列達(dá)79.2%;在BERT-base模型訓(xùn)練中,性能提升最高可達(dá)51%。該成果展示了GroPipe在圖像與文本領(lǐng)域的廣泛適用性。
這一成果的發(fā)表標(biāo)志著西北農(nóng)林科技大學(xué)在計(jì)算機(jī)體系結(jié)構(gòu)領(lǐng)域的A類國際頂級(jí)學(xué)術(shù)期刊——《IEEE Transactions on Computers》(創(chuàng)刊于1952年)上實(shí)現(xiàn)了歷史性突破。