云開·全站apply體育官方平臺(tái) 深度學(xué)習(xí)訓(xùn)練tricks總結(jié)(均有實(shí)驗(yàn)支撐)
作者:Jones@Zhihu
來源
編輯丨集市平臺(tái)
極端市場(chǎng)指南
本文作者模擬并復(fù)現(xiàn)了深度學(xué)習(xí)訓(xùn)練過程中可能遇到的各種情況,并嘗試解決這些問題。文章重點(diǎn)討論了學(xué)習(xí)率、動(dòng)量、學(xué)習(xí)率調(diào)整策略、L2正則化和優(yōu)化器。>>
深度模型是個(gè)黑盒子,而且我們這次也沒有嘗試超深超寬網(wǎng)絡(luò),所以結(jié)論只能提供先驗(yàn),而不是標(biāo)準(zhǔn)答案!同時(shí)不同的任務(wù)也可能得出不同的結(jié)果,比如分割,所以要具體問題具體分析!
摘要;關(guān)鍵詞;動(dòng)機(jī)
前段時(shí)間參加了幾個(gè)CV比賽,發(fā)現(xiàn)如下問題:雖然理論知識(shí)理解的很好,也跑過實(shí)驗(yàn)、論文代碼,但是實(shí)際實(shí)現(xiàn)的時(shí)候總是會(huì)出現(xiàn)一些奇怪的問題,有點(diǎn)難以解決,于是打算盡量模擬復(fù)現(xiàn)一下情況,嘗試解決并解釋(但解釋只能是自洽的,畢竟是黑箱實(shí)驗(yàn)),以免以后遇到類似情況沒有解決,只能另想辦法。
這個(gè)黃金周,我乖乖的在研究所做了幾天實(shí)驗(yàn),主要圍繞以下幾個(gè)關(guān)鍵詞:
學(xué)習(xí)率;動(dòng)量;學(xué)習(xí)率調(diào)整策略;L2正則化;優(yōu)化器
(所有結(jié)論都有實(shí)驗(yàn)支持,但我丟失了部分實(shí)驗(yàn)數(shù)據(jù)....555)
思維
根據(jù)這些實(shí)驗(yàn)以及一些資料(主要是Andrew Ng的《機(jī)器學(xué)習(xí)向往》),總結(jié)出以下幾個(gè)基本原則:
影響模型性能的因素:
2.影響模型過擬合的因素:
稍微解釋一下:模型的表達(dá)能力對(duì)于模型是否過擬合確實(shí)有一定的影響,但是選擇合適的正則化強(qiáng)度可以有效緩解這種影響!所以我并沒有把模型的表達(dá)能力作為過擬合的影響因素。而且Andrew Ng的書(機(jī)器學(xué)習(xí)向往)也表達(dá)了類似的想法(很開心自己和大佬有同樣的想法)。
實(shí)驗(yàn)室環(huán)境
Resnet-18
Cifar-10
細(xì)節(jié)
學(xué)習(xí)率和動(dòng)量
我會(huì)把學(xué)習(xí)率和動(dòng)量放在一起說,因?yàn)??我發(fā)現(xiàn)這兩個(gè)東西是天生一對(duì)。熟悉深度學(xué)習(xí)的朋友應(yīng)該知道,學(xué)習(xí)率過大或者過小都會(huì)存在問題:
學(xué)習(xí)率過大,會(huì)導(dǎo)致模型無法進(jìn)入局部最優(yōu),甚至導(dǎo)致模型爆炸(無法收斂)
學(xué)習(xí)率太小會(huì)導(dǎo)致模型訓(xùn)練緩慢,浪費(fèi)時(shí)間
有沒有辦法讓模型快速訓(xùn)練并收斂?有的!
經(jīng)過四次實(shí)驗(yàn),我得出以下結(jié)論:
使用較大的學(xué)習(xí)率+較大的動(dòng)量可以加快模型訓(xùn)練并快速收斂
實(shí)驗(yàn)設(shè)計(jì)如下(忘記保存實(shí)驗(yàn)圖了,抱歉!):
實(shí)驗(yàn)一:
小學(xué)習(xí)率+小動(dòng)量
結(jié)果:模型訓(xùn)練速度慢,雖然收斂,但是收斂速度很慢,在驗(yàn)證集上的表現(xiàn)很穩(wěn)定
實(shí)驗(yàn)2:
小學(xué)習(xí)率+大動(dòng)量
結(jié)果:模型訓(xùn)練速度慢,雖然收斂,但是收斂速度很慢,在驗(yàn)證集上的表現(xiàn)很穩(wěn)定
實(shí)驗(yàn)3:
大學(xué)習(xí)率+小動(dòng)量
結(jié)果:模型訓(xùn)練速度快,但收斂困難,驗(yàn)證集上的表現(xiàn)波動(dòng)很大,表明模型很不穩(wěn)定
實(shí)驗(yàn)4:
大學(xué)習(xí)率+大動(dòng)量
結(jié)果:模型訓(xùn)練快速,收斂迅速,在驗(yàn)證集上表現(xiàn)非常穩(wěn)定。
我覺得這個(gè)原因可以從兩個(gè)角度來解釋,一個(gè)是向量加法的特殊性,另一個(gè)是從集成模型的角度來解釋。第一個(gè)角度這里就不說了,因?yàn)槲也幌氘媹D,我先從第二個(gè)角度說一下:
大的學(xué)習(xí)率意味著不穩(wěn)定,但是因?yàn)檫@個(gè)學(xué)習(xí)率也能讓模型往正確的優(yōu)化方向走,所以你可以理解為,大的學(xué)習(xí)率就是弱機(jī)器學(xué)習(xí)模型;當(dāng)你用了很大的動(dòng)量時(shí),意味著這一次的學(xué)習(xí)率對(duì)最終的模型優(yōu)化起到的作用更小,也就是使用大動(dòng)量->單個(gè)損失函數(shù)的比例低,相當(dāng)于我的模型的優(yōu)化就是由這個(gè)+很多過去的學(xué)習(xí)率計(jì)算出來的綜合結(jié)果(弱機(jī)器學(xué)習(xí)模型)構(gòu)成的綜合模型,對(duì)吧?所以,效果比較好。
順便提一下,當(dāng)模型很不穩(wěn)定的時(shí)候,如果某一刻出現(xiàn)了很好的結(jié)果,比如98%的準(zhǔn)確率,并不代表這一刻這個(gè)模型就是一個(gè)好的模型,因?yàn)檫@時(shí)候你的模型很可能是過擬合了驗(yàn)證集!不信你可以試著單獨(dú)分一個(gè)測(cè)試集(我參加腦PET識(shí)別比賽的時(shí)候摔倒過)。
2.學(xué)習(xí)率調(diào)整策略
之前我?guī)缀鯖]用過學(xué)習(xí)率調(diào)整策略,因?yàn)橛X得很可笑而且效果不大,不過前段時(shí)間跟一個(gè)小伙打華錄杯的時(shí)候看到他用余弦退火效果不錯(cuò),就決定試一試,結(jié)論是:真香!
抱歉,我這里也忘記保存實(shí)驗(yàn)圖片了,抱歉!
我嘗試了3種學(xué)習(xí)率調(diào)整策略:1. ReduceLROnPlateau;2.余弦退火;3. StepLR
綜上所述:
圖1
3. L2 正則化
正則化主要有兩種,一種是L1,一種是L2。由于pytorch自帶了L2kaiyun下載app下載安裝手機(jī)版,所以我就用了L2(呵呵)。直接上結(jié)論吧:
圖 2
4. 優(yōu)化器
我保存了優(yōu)化器部分的圖片!
其實(shí)這里我們不僅測(cè)試了優(yōu)化器,還測(cè)試了優(yōu)化器+學(xué)習(xí)率策略+動(dòng)量
其實(shí)我想要做的是找到一個(gè)最優(yōu)解作為我的先驗(yàn)知識(shí)(害處,用人的話來說:我想知道哪種組合更好,然后先嘗試這種組合)
我做了幾個(gè)實(shí)驗(yàn):
結(jié)論(圖3):
圖片 3
第二組:
首先解釋一下ReduceLROnPlateau的兩種模式:min和max
當(dāng)模型為min時(shí),如果指標(biāo)A在一段時(shí)間內(nèi)沒有下降,則學(xué)習(xí)率衰減。
當(dāng)模型處于最大值時(shí),如果指標(biāo)A在一段時(shí)間內(nèi)沒有增加,則學(xué)習(xí)率衰減。
當(dāng)我選擇 ReduceLROnPlateau 的模式為 min 時(shí),指標(biāo)為 acc。有趣的是,它的收斂速度非常快(比 max 的模式還快)。我猜原因應(yīng)該是:
當(dāng)acc增大時(shí),說明優(yōu)化方向正確,優(yōu)化速度應(yīng)該放慢!但是本次實(shí)驗(yàn)中,最優(yōu)解比max模式的模式要差(min模式最優(yōu)解為0.916,max為0.935),原因有兩點(diǎn):
1、是因?yàn)閘r的衰減速度太快,從而導(dǎo)致學(xué)習(xí)率太低,無法進(jìn)行訓(xùn)練;(我后來做了實(shí)驗(yàn),證明是這個(gè)原因?。?/p>
2.因?yàn)橐挥龅娇蓛?yōu)化區(qū)域就降低學(xué)習(xí)率,所以很有可能導(dǎo)致模型過早進(jìn)入局部最優(yōu)(不過后來覺得這個(gè)理由站不住腳,哈哈哈kaiyun體育登錄網(wǎng)頁入口,因?yàn)榫退阌闷渌麅?yōu)化器,也會(huì)有陷入局部最優(yōu)的問題,所以這一點(diǎn)并不重要,但為了保留從實(shí)驗(yàn)到筆記的思考過程,我還是沒有刪除這一點(diǎn)。)
對(duì)于原因1,我后來做了實(shí)驗(yàn)來驗(yàn)證,實(shí)驗(yàn)的思路是通過減小學(xué)習(xí)率衰減周期和衰減系數(shù)的值/設(shè)置最小學(xué)習(xí)率來保證后面的學(xué)習(xí)率不會(huì)太小云開·全站apply體育官方平臺(tái),最終解決了最優(yōu)解的問題。
圖 4
結(jié)論(圖4):
第三組:
圖 5
圖 6
綜上所述:
對(duì)了:我也試過模擬退火+Adam,但是因?yàn)橥嘶鸱忍螅Ч睿ㄎ业腻e(cuò))。下次試試正常幅度退火。
經(jīng)驗(yàn):
從上面的實(shí)驗(yàn)可以看出,紀(jì)念碑很重要,它讓本來有點(diǎn)垃圾的SGD一飛沖天(怪不得論文都喜歡用這對(duì))。這時(shí)候加入一些學(xué)習(xí)率調(diào)整策略(annealing/ReduceLROnPlateau)能使Adam確實(shí)比SGD好很多,但是比最優(yōu)組合(SGD+momentum+學(xué)習(xí)率調(diào)整策略)要弱一點(diǎn)點(diǎn)。(在Char Siu師兄的群里,有高通高手告訴我可以試試用nadam,因?yàn)閚adam可以理解為Adam+紀(jì)念碑,但是因?yàn)閜ytorch沒有對(duì)應(yīng)的API,所以懶得去試,不過相信應(yīng)該會(huì)很猛?。?/p>
我要評(píng)論