国产6699视频在线观看_女人爽到喷水的视频大全_亚洲欧美日韩国产视频亚洲欧美综合日韩久久_中文字幕无码久久东京热_av电影中文一区

 
首頁(yè) > 綜合 >
 
 

CVPR 2023 | 神經(jīng)網(wǎng)絡(luò)超體?新國(guó)立LV lab提出全新網(wǎng)絡(luò)克隆技術(shù)

2023-05-20 07:42:48  來(lái)源:機(jī)器之心Pro

機(jī)器之心報(bào)道


【資料圖】

編輯:王強(qiáng)

神經(jīng)網(wǎng)絡(luò)開發(fā)到 100% 會(huì)發(fā)生什么?神經(jīng)網(wǎng)絡(luò)的究極形態(tài)又是什么?何為網(wǎng)絡(luò)超體?上述問(wèn)題的答案可能可以在電影超體(Lucy)中找到。

在電影中,隨著女主角 Lucy 腦力的逐漸開發(fā),她獲得了以下能力:

10%:能夠控制身體的自主神經(jīng)系統(tǒng),提高身體協(xié)調(diào)能力和反應(yīng)速度。 30%:能夠預(yù)測(cè)未來(lái)并預(yù)測(cè)人們的行動(dòng),提高洞察力和判斷力。 50%:能夠通過(guò)感知周圍環(huán)境的微小變化來(lái)預(yù)測(cè)未來(lái)的變化。 70%:能夠控制身體和物體的運(yùn)動(dòng),擁有超凡的運(yùn)動(dòng)和戰(zhàn)斗技能。 90%:能夠與宇宙和時(shí)間相連,擁有靈感和直覺(jué)的力量。 100%:能夠?qū)崿F(xiàn)超自然的力量,超越了人類的認(rèn)知極限。

在電影的結(jié)尾,女主逐漸消失并變成了一種純粹的能量形態(tài),最終消失在宇宙中,與宇宙和時(shí)間融為一體。人類超體的實(shí)現(xiàn)即為連通外界,以獲取無(wú)限值的能力。將此思想遷移到神經(jīng)網(wǎng)絡(luò)域,若能建立與整個(gè)網(wǎng)絡(luò)的連通, 即也可實(shí)現(xiàn)網(wǎng)絡(luò)超體, 理論上將獲得無(wú)邊界的預(yù)測(cè)能力 。

即實(shí)體化的網(wǎng)絡(luò)必然會(huì)限制網(wǎng)絡(luò)性能的增長(zhǎng),而將目標(biāo)網(wǎng)絡(luò)與 Model Zoo 進(jìn)行連通,此時(shí)網(wǎng)絡(luò)不再具備實(shí)體,而是一種建立起網(wǎng)絡(luò)之間的連通超體形態(tài)。

圖上:超體網(wǎng)絡(luò)和實(shí)體網(wǎng)絡(luò)的區(qū)別。超體網(wǎng)絡(luò)無(wú)實(shí)體,是一種網(wǎng)絡(luò)之間的連通形式

該網(wǎng)絡(luò)超體的思想在本文分享 CVPR 2023 論文 《Partial Network Cloning》 ,中得以探索。在該論文中,新加坡國(guó)立大學(xué) LV lab 提出一種全新的網(wǎng)絡(luò)克隆技術(shù)。

鏈接:https://arxiv.org/abs/2303.10597

01 問(wèn)題定義

在該文中,作者提到利用該網(wǎng)絡(luò)克隆技術(shù)實(shí)現(xiàn)網(wǎng)絡(luò)去實(shí)體化可以帶來(lái)以下優(yōu)勢(shì):

弱數(shù)據(jù)依賴:只需要部分修正數(shù)據(jù)對(duì)一些連接模塊進(jìn)行修改 低訓(xùn)練復(fù)雜度:僅需 fine-tune 一些連接模塊和任務(wù)預(yù)測(cè)模塊 低存儲(chǔ)需求:僅需存儲(chǔ)網(wǎng)絡(luò)的連通路徑,無(wú)需存儲(chǔ)整個(gè)網(wǎng)絡(luò) 可持續(xù)可恢復(fù):連通路徑可增可減,不對(duì) Model Zoo 進(jìn)行任何修改 傳輸友好:在網(wǎng)絡(luò)傳輸時(shí)僅需傳輸連通路徑信息,無(wú)需對(duì)整個(gè)網(wǎng)絡(luò)傳輸

超體網(wǎng)絡(luò)的實(shí)現(xiàn)基礎(chǔ)為迅速擴(kuò)張的 Model Zoo,海量預(yù)訓(xùn)練模型可供使用。因此對(duì)于任意任務(wù) T,我們總能找到一個(gè)或多個(gè)模型, 使得這些已有模型的任務(wù)能組成成所需求任務(wù) 。即:

(選擇了三個(gè)網(wǎng)絡(luò)進(jìn)行連通)。

如上圖所示,對(duì)于任務(wù) T,為了構(gòu)建對(duì)應(yīng)的超體網(wǎng)絡(luò) M_c , 本文提出以下的構(gòu)建框架:

步驟一:定位最合適的本體網(wǎng)絡(luò) M_t ,使得本體網(wǎng)絡(luò) M_t 的任務(wù)集 T_t 與所需任務(wù)集 T 的交集 T?T_t 最大,此時(shí)本體網(wǎng)絡(luò)被設(shè)定為主網(wǎng)絡(luò); 步驟二:選擇修正網(wǎng)絡(luò) M_s^1 和 M_s^2,對(duì)本體網(wǎng)絡(luò)中缺失的部分任務(wù)進(jìn)行補(bǔ)充; 步驟三:利用 網(wǎng)絡(luò)克隆技術(shù) 定位和連通部分修正網(wǎng)絡(luò) M_s^1 和 M_s^2 至本體網(wǎng)絡(luò) M_t; 步驟四:利用部分修正數(shù)據(jù)對(duì)網(wǎng)絡(luò)的連通模塊和預(yù)測(cè)模塊進(jìn)行 fine-tune。

綜上所述,本文提出的構(gòu)建網(wǎng)絡(luò)超體所需的網(wǎng)絡(luò)克隆技術(shù)可以被表示為:

其中 M_s 表示修正網(wǎng)絡(luò)集合,因此網(wǎng)絡(luò)超體的連通形式為一個(gè)本體網(wǎng)絡(luò)加上一個(gè)或若干個(gè)修正網(wǎng)絡(luò),網(wǎng)絡(luò)克隆技術(shù)就是克隆所需要的部分修正網(wǎng)絡(luò),嵌入至本體網(wǎng)絡(luò)中。

具體來(lái)說(shuō),本文提出的網(wǎng)絡(luò)克隆框架包括以下兩個(gè)技術(shù)要點(diǎn):

對(duì)于包含有 P 個(gè)修正網(wǎng)絡(luò)的克隆,第一個(gè)技術(shù)要點(diǎn)為 關(guān)鍵部分定位 Local (?) 。由于修正網(wǎng)絡(luò)可能會(huì)含有與任務(wù)集 T 無(wú)關(guān)的任務(wù)信息,關(guān)鍵部分定位 Local (?) 的目標(biāo)為定位修正網(wǎng)絡(luò)中與任務(wù) T?T_s 相關(guān)的部位,定位參數(shù)用 M^ρ 表示,實(shí)現(xiàn)細(xì)節(jié)在第 2.1 小節(jié)中給出。第二個(gè)技術(shù)要點(diǎn)為網(wǎng)絡(luò)模塊嵌入 Insert (?),需選擇合適的網(wǎng)絡(luò)嵌入點(diǎn) R^ρ 嵌入所有的修正網(wǎng)絡(luò),實(shí)現(xiàn)細(xì)節(jié)在第 2.2 小節(jié)中給出。

02 方法總覽

在網(wǎng)絡(luò)克隆的方法部分,為了簡(jiǎn)化敘述,我們?cè)O(shè)定修正網(wǎng)絡(luò)的數(shù)量 P=1(因此省略了修正網(wǎng)絡(luò)的上標(biāo) ρ),即我們連通一個(gè)本體網(wǎng)絡(luò)和一個(gè)修正網(wǎng)絡(luò)來(lái)搭建所需的超體網(wǎng)絡(luò)。

如上文所述,網(wǎng)絡(luò)克隆包含關(guān)鍵部分定位和網(wǎng)絡(luò)模塊嵌入。在這里,我們引入中間的可遷移模塊 M_f 用以輔助理解。即,網(wǎng)絡(luò)克隆技術(shù)在修正網(wǎng)絡(luò)中定位關(guān)鍵部位形成可遷移模塊 M_f,再將可遷移模塊通過(guò)軟連接嵌入至本體網(wǎng)絡(luò) M_t。因此, 網(wǎng)絡(luò)克隆技術(shù)的目標(biāo)為定位和嵌入具有可遷移性和局部保真性的可遷移模塊 。

2.1 網(wǎng)絡(luò)關(guān)鍵部位定位

網(wǎng)絡(luò)關(guān)鍵部位定位的目標(biāo)是學(xué)習(xí)選擇函數(shù) M,選擇函數(shù) M 在這里被定義為作用于網(wǎng)絡(luò)每一層 filter 的 mask。此時(shí)的可遷移模塊可以被表示為:

在上式中,我們將修正網(wǎng)絡(luò) M_s 表示為 L 層,每一層表示為

。已知可遷移模塊的提取不對(duì)修正網(wǎng)絡(luò)做任何修改。

為了得到合適的可遷移模塊 M_f,我們定位修正網(wǎng)絡(luò) M_s 中對(duì)最終預(yù)測(cè)結(jié)果做出最大貢獻(xiàn)的顯式部分。在此之前,考慮到神經(jīng)網(wǎng)絡(luò)的黑盒特性,且我們只需要網(wǎng)絡(luò)的部分預(yù)測(cè)結(jié)果,因此我們利用 LIME 擬合修正網(wǎng)絡(luò)在所需任務(wù)的局部建模(具體細(xì)節(jié)請(qǐng)查看論文正文)。

局部建模結(jié)果用

來(lái)表示,其中 D_t 是所需的部分預(yù)測(cè)結(jié)果對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)集(小于原始網(wǎng)絡(luò)的訓(xùn)練集)。

因此選擇函數(shù) M 可以通過(guò)以下目標(biāo)函數(shù)進(jìn)行優(yōu)化:

在該式中,定位的關(guān)鍵部分?jǐn)M合局部建模的 G。

2.2 網(wǎng)絡(luò)模塊嵌入

在修正網(wǎng)絡(luò)中定位可遷移模塊 M_f 時(shí),使用擇函數(shù) M 直接從 M_s 中提取,無(wú)需修改其權(quán)重。下一步是決定在本體網(wǎng)絡(luò) M_t 中可遷移模塊 M_f 的嵌入位置,以獲得最佳的克隆性能。

網(wǎng)絡(luò)模塊的嵌入由位置參數(shù) R 控制。遵循大多數(shù)模型重用設(shè)置,網(wǎng)絡(luò)克隆將本體模型的前幾層保留為通用特征提取器,網(wǎng)絡(luò)嵌入過(guò)程被簡(jiǎn)化為查找最佳嵌入位置(即在第 R 層嵌入可遷移模塊 M_f)。查找嵌入的過(guò)程可以表示為:

詳細(xì)的公式解釋請(qǐng)查詢正文??傮w來(lái)說(shuō),基于搜索的嵌入包括以下要點(diǎn):

最佳位置參數(shù) R 搜索的過(guò)程從網(wǎng)絡(luò)的深層到淺層; 在第 R 層進(jìn)行可遷移性模塊嵌入后的超體網(wǎng)絡(luò)后,還需額外引入嵌入位置的 Adapter A 和重新 finetune F_c 層(對(duì)于分類網(wǎng)絡(luò)來(lái)說(shuō)),但兩者的參數(shù)量相較于整個(gè) model zoo 可以忽略不計(jì); 當(dāng)從網(wǎng)絡(luò)的第 L-1 層至第 0 層建立起連接后,我們粗略的根據(jù)每一次 fine-tune 的 loss 收斂值估計(jì)嵌入的性能,選取最小收斂值點(diǎn)作為最終的網(wǎng)絡(luò)嵌入點(diǎn)。

03 網(wǎng)絡(luò)克隆技術(shù)的實(shí)際應(yīng)用

本文提出的網(wǎng)絡(luò)克隆技術(shù)的核心為建立起預(yù)訓(xùn)練網(wǎng)絡(luò)之間的連通路徑,不需要對(duì)預(yù)訓(xùn)練網(wǎng)絡(luò)進(jìn)行任何參數(shù)的修改,它除了可以用作搭建網(wǎng)絡(luò)超體的關(guān)鍵技術(shù),也能被靈活的運(yùn)用到各種實(shí)際場(chǎng)景中。

場(chǎng)景一:網(wǎng)絡(luò)克隆技術(shù)使得 Model Zoo 在線使用成為可能。在一些資源有限的情況下,用戶可以在不下載預(yù)訓(xùn)練網(wǎng)絡(luò)到本地的情況下靈活地利用在線的 Model Zoo。

注意到克隆后的模型是由

確定的,其中 M_t 和M_s 在整個(gè)過(guò)程中都是固定且不變的。模型克隆對(duì)預(yù)訓(xùn)練模型上沒(méi)有進(jìn)行任何修改,也沒(méi)有引入新模型。模型克隆使得 Model Zoo 中任何功能組合都成為可能,這也有助于維護(hù) Model Zoo 的良好生態(tài)環(huán)境,因?yàn)榻⑦B接使用 M 和 R 是一種簡(jiǎn)單的 mask 和定位操作,易于撤銷。因此,提出的網(wǎng)絡(luò)克隆技術(shù)支持建立一個(gè)可持續(xù)的 Model Zoo 在線推理平臺(tái)。

場(chǎng)景二:經(jīng)由網(wǎng)絡(luò)克隆生成的網(wǎng)絡(luò)具備更好的信息傳輸形式。當(dāng)進(jìn)行網(wǎng)絡(luò)傳輸時(shí),該技術(shù)可以減少傳輸延遲和損失。

在進(jìn)行網(wǎng)絡(luò)傳輸時(shí),我們只需要傳輸集合

,結(jié)合公共 Model Zoo,接收方可以恢復(fù)出原始網(wǎng)絡(luò)。與整個(gè)克隆后的網(wǎng)絡(luò)相比,

非常小,因此可以減少傳輸延遲。如若 A 和 F_c 仍然存在一些傳輸損失,接收方可以通過(guò)在數(shù)據(jù)集上進(jìn)行 fine-tune 來(lái)輕松修復(fù)。因此,網(wǎng)絡(luò)克隆為高效傳輸提供了一種新形式的網(wǎng)絡(luò)。

04 實(shí)驗(yàn)結(jié)果

我們?cè)诜诸惾蝿?wù)上進(jìn)行了實(shí)驗(yàn)驗(yàn)證。為了評(píng)估可遷移模塊的局部性能表征能力,我們引入了條件相似性指標(biāo):

其中 Sim_cos (?) 表示余弦相似性。

上表中給出了在 MNIST,CIFAR-10,CIFAR-100 和 Tiny-ImageNet 上的實(shí)驗(yàn)結(jié)果,可以看出網(wǎng)絡(luò)克?。≒NC)得到的模型的性能提升最為顯著。且若進(jìn)行整個(gè)網(wǎng)絡(luò)的 fine-tune(PNC-F)并不會(huì)帶來(lái)網(wǎng)絡(luò)性能的提升,相反,它會(huì)增加模型的 bias。

除此之外,我們對(duì)可遷移模塊的質(zhì)量進(jìn)行了評(píng)估(如上圖)。從圖(左)可以看出,從每個(gè)子數(shù)據(jù)集中學(xué)習(xí)的每個(gè)功能或多或少是相關(guān)的,這顯示出從修正網(wǎng)絡(luò)中提取和定位局部功能的重要性。對(duì)于可遷移模塊,我們計(jì)算其相似度 Sim (?)。圖(右)顯示,可遷移模塊與待克隆的子數(shù)據(jù)集在相似性上很高,其與其余子數(shù)據(jù)集的關(guān)系被削弱(非對(duì)角線區(qū)域用比源網(wǎng)絡(luò)的矩陣圖淺的顏色標(biāo)記)。因此,可以得出結(jié)論,可遷移模塊成功地模擬了要克隆的任務(wù)集上的局部性能,證明了定位策略的正確性。

05 總結(jié)

本文研究了一種新的知識(shí)轉(zhuǎn)移任務(wù),稱為部分網(wǎng)絡(luò)克?。≒NC),它以復(fù)制粘貼的方式從修正網(wǎng)絡(luò)中克隆參數(shù)模塊并將其嵌入到本體網(wǎng)絡(luò)中。與以往的知識(shí)轉(zhuǎn)移設(shè)置不同(它們依賴于更新網(wǎng)絡(luò)的參數(shù))我們的方法保證所有預(yù)訓(xùn)練模型的參數(shù)不變。PNC 的技術(shù)核心為同時(shí)進(jìn)行網(wǎng)絡(luò)關(guān)鍵部位定位和可遷移模塊嵌入操作,兩個(gè)步驟相互加強(qiáng)。

我們?cè)诙鄠€(gè)數(shù)據(jù)集上展示了我們的方法在準(zhǔn)確性和可遷移性指標(biāo)的突出結(jié)果。

關(guān)鍵詞:

  
相關(guān)新聞
每日推薦
  • 滾動(dòng)
  • 綜合
  • 房產(chǎn)