近日,光電學(xué)院控制科學(xué)與工程專業(yè)2022級博士生曾入的最新研究論文《基于一致性感知與差異導(dǎo)向的GLOM模型》(Agreement aware and dissimilarity oriented GLOM)被2025國際計(jì)算機(jī)視覺大會(International Conference on Computer Vision, ICCV)錄用。該論文第一作者為曾入博士,宋燕教授為唯一通訊作者,上海理工大學(xué)為第一作者單位。
隨著人工智能和計(jì)算機(jī)視覺技術(shù)的快速發(fā)展,如何實(shí)現(xiàn)圖像中“部分-整體”結(jié)構(gòu)的有效表達(dá)與可解釋建模,成為近年來視覺任務(wù)中的前沿課題。由圖靈獎(jiǎng)與諾貝爾獎(jiǎng)得主Geoffrey Hinton教授提出的GLOM深度網(wǎng)絡(luò)架構(gòu),憑借其獨(dú)特的“部分-整體”層級表達(dá)方式,展現(xiàn)出良好的直觀性和可解釋性,受到學(xué)界和工業(yè)界的高度關(guān)注。圍繞這一架構(gòu),論文創(chuàng)新性地提出了一種基于對比一致性增強(qiáng)的優(yōu)化方法。該方法引入對比學(xué)習(xí)機(jī)制,有效提升正樣本嵌入之間的一致性,同時(shí)明確區(qū)分負(fù)樣本,促使模型內(nèi)部自然形成結(jié)構(gòu)清晰、穩(wěn)定可靠的“島狀”一致區(qū)域,從而優(yōu)化了GLOM架構(gòu)在復(fù)雜視覺場景下的表達(dá)能力。該成果為高效、可解釋的“部分-整體”結(jié)構(gòu)建模提供了重要技術(shù)路徑,具備廣泛應(yīng)用前景,可為自動駕駛、智慧醫(yī)療、遙感影像、工業(yè)檢測等領(lǐng)域的智能視覺系統(tǒng)提供關(guān)鍵支撐。


“部分-整體”可解釋的預(yù)測一致性GLOM網(wǎng)絡(luò)原理圖
自入學(xué)以來,曾入博士在宋燕教授的指導(dǎo)下,長期專注于計(jì)算機(jī)視覺和人工智能領(lǐng)域的研究工作,取得了一系列優(yōu)異的成績。截止目前,發(fā)表論文14篇,其中以第一作者發(fā)表論文10篇,包括IEEE Trans. Industrial Informatics等SCI一區(qū)論文4篇;會議論文5篇,包括CCF A類論文1篇和CCF C類論文1篇。曾榮獲博士國家獎(jiǎng)學(xué)金,國家留學(xué)基金委(CSC)公派留學(xué)資格,國際會議2023ICUIC最佳學(xué)生論文獎(jiǎng)等榮譽(yù)。
據(jù)了解,ICCV是計(jì)算機(jī)視覺領(lǐng)域全球公認(rèn)的頂級會議之一,也是中國計(jì)算機(jī)學(xué)會(CCF)推薦的A類國際學(xué)術(shù)會議。該會議每兩年舉辦一次,由美國電氣和電子工程師學(xué)會(IEEE)與計(jì)算機(jī)視覺基金會(CVF)聯(lián)合主辦。會議今年收稿總量11239,錄用文章數(shù)2698,錄用率24%。



曾入博士榮獲CSC留學(xué)資格、國家獎(jiǎng)學(xué)金、2023ICUIC最佳學(xué)生論文獎(jiǎng)








