近日,管理學院管理科學與工程專業(yè)博士生汪勝的最新研究成果 “基于圖的異構(gòu)GPU集群多維資源批次作業(yè)負載均衡調(diào)度”(Graph-Based Batch Job Load Balancing Scheduling for Multi-Dimensional Resources in Heterogeneous GPU Clusters)發(fā)表在《IEEE計算機匯刊》(IEEE Transactions on Computers)上。上海理工大學為論文第一作者單位,管理學院博士生汪勝為第一作者,陳世平教授為通訊作者。
異構(gòu)GPU集群由不同型號和規(guī)格的GPU設(shè)備組成,已成為高性能計算領(lǐng)域的關(guān)鍵支柱,其多元化的資源配置能滿足深度學習、科學計算等批次作業(yè)的算力需求。然而,在批次作業(yè)調(diào)度場景中,作業(yè)請求的多樣性、多維資源的異構(gòu)性,使得集群負載均衡面臨嚴峻挑戰(zhàn)。針對這一難題,論文以提升集群狀態(tài)全局感知與動態(tài)自適應(yīng)能力為突破口,創(chuàng)新性地提出了一種融合圖神經(jīng)網(wǎng)絡(luò)(GNN)與雙重深度Q網(wǎng)絡(luò)(DDQN)的多目標優(yōu)化調(diào)度模型。
模型通過融合圖神經(jīng)網(wǎng)絡(luò)捕捉虛擬機節(jié)點間復(fù)雜的資源依賴關(guān)系,構(gòu)建集群全局狀態(tài)表征;針對傳統(tǒng)雙重深度Q網(wǎng)絡(luò)目標網(wǎng)絡(luò)更新滯后的問題,引入負載感知的動態(tài)更新機制,顯著提升模型對異構(gòu)資源環(huán)境變化的響應(yīng)速度。最終構(gòu)建了兼顧負載均衡、作業(yè)延遲與調(diào)度公平性的多目標優(yōu)化框架,為異構(gòu)GPU集群的高效治理提供了系統(tǒng)性解決方案。研究成果不僅豐富了云計算資源調(diào)度的理論體系,也為構(gòu)建下一代高效、自治的數(shù)據(jù)中心調(diào)度系統(tǒng)提供了重要的技術(shù)范式與管理啟示。
《IEEE計算機匯刊》(IEEE Transactions on Computers)由IEEE計算機協(xié)會主辦,創(chuàng)刊于1952年,長期致力于刊載計算機系統(tǒng)、硬件、軟件及算法設(shè)計理論等領(lǐng)域的原創(chuàng)性高水平研究成果,每年全球僅發(fā)表200余篇,以嚴格的遴選標準著稱。該刊屬于中國計算機學會(CCF)認定的A類期刊,是云計算領(lǐng)域公認的頂級期刊。
GNN-DDQN調(diào)度模型架構(gòu)
GPU、CPU以及內(nèi)存三維資源負載均衡訓練效果
論文鏈接:https://ieeexplore.ieee.org/document/11298438








