欧美真实性交欧美综合图片,一本色道久久亚洲AV蜜桃小说

深度學(xué)習(xí)的學(xué)習(xí)率調(diào)節(jié)實踐

2020-09-04 09:49

多層感知器多層感知器（MLP）是由一個輸入層、一個或多個隱藏層和一個稱為輸出層的最終層組成的人工神經(jīng)網(wǎng)絡(luò)（ANN）。通常，靠近輸入層的層稱為較低層，靠近輸出層的層稱為外層，除輸出層外的每一層都包含一個偏置神經(jīng)元，并與下一層完全相連。當一個ANN包含一個很深的隱藏層時，它被稱為深度神經(jīng)網(wǎng)絡(luò)（DNN）。

在本文中，我們將在MNIST數(shù)據(jù)集上訓(xùn)練一個深度MLP，并通過指數(shù)增長來尋找最佳學(xué)習(xí)率，繪制損失圖，并找到損失增長的點，以達到85％以上的準確率。對于最佳的實踐過程，我們將實現(xiàn)早期停止，保存檢查點，并使用TensorBoard繪制學(xué)習(xí)曲線。你可以在這里查看jupyter Notebook：https：／／github．com／lukenew2／learning＿rates＿and＿best＿practices／blob／master／optimal＿learning＿rates＿with＿keras＿api．ipynb指數(shù)學(xué)習(xí)率學(xué)習(xí)率可以說是最重要的超參數(shù)。一般情況下，最佳學(xué)習(xí)速率約為最大學(xué)習(xí)速率（即訓(xùn)練算法偏離的學(xué)習(xí)速率）的一半。找到一個好的學(xué)習(xí)率的一個方法是訓(xùn)練模型進行幾百次迭代，從非常低的學(xué)習(xí)率（例如，1e－5）開始，逐漸增加到非常大的值（例如，10）。這是通過在每次迭代時將學(xué)習(xí)速率乘以一個常數(shù)因子來實現(xiàn)的。如果你將損失描繪為學(xué)習(xí)率的函數(shù)，你應(yīng)該首先看到它在下降，但過一段時間后，學(xué)習(xí)率會變得很高，這時損失會迅速回升：最佳學(xué)習(xí)率將略低于轉(zhuǎn)折點，然后你可以重新初始化你的模型，并使用此良好的學(xué)習(xí)率對其進行正常訓(xùn)練。Keras模型我們先導(dǎo)入相關(guān)庫import osimport matplotlib．pyplot as pltimport numpy as npimport pandas as pd

PROJECT＿ROOT＿DIR ＝＂．＂IMAGES＿PATH ＝ os．path．join（PROJECT＿ROOT＿DIR，＂images＂）os．makedirs（IMAGES＿PATH， exist＿ok＝True）

def save＿fig（fig＿id， tight＿layout＝True， fig＿extension＝＂png＂， resolution＝300）： path ＝ os．path．join（IMAGES＿PATH， fig＿id ＋＂．＂＋ fig＿extension） print（＂Saving figure＂， fig＿id） if tight＿layout： plt．tight＿layout（） plt．savefig（path， format＝fig＿extension， dpi＝resolution）import tensorflow as tffrom tensorflow import keras接下來加載數(shù)據(jù)集（X＿train， y＿train），（X＿test， y＿test）＝ keras．datasets．fashion＿mnist．load＿data（）

X＿train．shape

X＿train．dtype標準化像素X＿valid， X＿train ＝ X＿train［：5000］／ 255．0， X＿train［5000：］／ 255．0y＿valid， y＿train ＝ y＿train［：5000］， y＿train［5000：］ X＿test ＝ X＿test ／ 255．0讓我們快速看一下數(shù)據(jù)集中的圖像樣本，讓我們感受一下分類任務(wù)的復(fù)雜性：class＿names ＝［＂T－shirt／top＂，＂Trouser＂，＂Pullover＂，＂Dress＂，＂Coat＂，＂Sandal＂，＂Shirt＂，＂Sneaker＂，＂Bag＂，＂Ankle boot＂］

n＿rows ＝ 4n＿cols ＝ 10plt．figure（figsize＝（n＿cols ＊ 1．2， n＿rows ＊ 1．2））for row in range（n＿rows）： for col in range（n＿cols）： index ＝ n＿cols ＊ row ＋ col plt．subplot（n＿rows， n＿cols， index ＋ 1） plt．imshow（X＿train［index］， cmap＝＂binary＂， interpolation＝＂nearest＂） plt．a(chǎn)xis（＇off＇） plt．title（class＿names［y＿train［index］］， fontsize＝12）plt．subplots＿adjust（wspace＝0．2， hspace＝0．5）save＿fig（＇fashion＿mnist＿plot＇， tight＿layout＝False）plt．show（）

我們已經(jīng)準備好用Keras來建立我們的MLP。下面是一個具有兩個隱藏層的分類MLP：model ＝ keras．models．Sequential（［ keras．layers．Flatten（input＿shape＝［28，28］）， keras．layers．Dense（300， activation＝＂relu＂）， keras．layers．Dense（100， activation＝＂relu＂）， keras．layers．Dense（10， activation＝＂softmax＂）］）讓我們一行一行地看這個代碼：首先，我們創(chuàng)建了一個Sequential模型，它是神經(jīng)網(wǎng)絡(luò)中最簡單的Keras模型，它只由一堆按順序連接的層組成。接下來，我們構(gòu)建第一層并將其添加到模型中。它是一個Flatten層，其目的是將每個輸入圖像轉(zhuǎn)換成一個1D數(shù)組：如果它接收到輸入數(shù)據(jù)X，則計算X．reshape（－1，1）。由于它是模型的第一層，所以應(yīng)該指定其輸入形狀。你也可以添加keras．layers．InputLayer作為第一層，設(shè)置其input＿shape＝［28，28］下一步，我們添加一個300個神經(jīng)元的隱藏層，并指定它使用ReLU激活函數(shù)。每一個全連接層管理自己的權(quán)重矩陣，包含神經(jīng)元與其輸入之間的所有連接權(quán)重，同事它還管理一個偏置向量，每個神經(jīng)元一個。然后我們添加了第二個100個神經(jīng)元的隱藏層，同樣使用ReLU激活函數(shù)。最后，我們使用softmax激活函數(shù)添加了一個包含10個神經(jīng)元的輸出層（因為我們的分類任務(wù)是每個類都是互斥的）。使用回調(diào)在Keras中，fit（）方法接受一個回調(diào)參數(shù)，該參數(shù)允許你指定Keras在訓(xùn)練開始和結(jié)束、每個epoch的開始和結(jié)束時，甚至在處理每個batch處理之前和之后要調(diào)用對象的列表。為了實現(xiàn)指數(shù)級增長的學(xué)習(xí)率，我們需要創(chuàng)建自己的自定義回調(diào)。我們的回調(diào)接受一個參數(shù)，用于提高學(xué)習(xí)率的因子。為了將損失描繪成學(xué)習(xí)率的函數(shù)，我們跟蹤每個batch的速率和損失。請注意，我們將函數(shù)定義為on＿batch＿end（），這取決于我們的目標，當然也可以是on＿train＿begin（）， on＿train＿end（）， on＿batch＿begin（）。對于我們的用例，我們希望在每個批處理之后提高學(xué)習(xí)率并記錄損失：K ＝ keras．backend

class ExponentialLearningRate（keras．callbacks．Callback）： def ＿＿init＿＿（self， factor）： self．factor ＝ factor self．rates ＝［］ self．losses ＝［］ def on＿batch＿end（self， batch， logs）： self．rates．a(chǎn)ppend（K．get＿value（self．model．optimizer．lr）） self．losses．a(chǎn)ppend（logs［＂loss＂］） K．set＿value（self．model．optimizer．lr， self．model．optimizer．lr ＊ self．factor）現(xiàn)在我們的模型已經(jīng)創(chuàng)建好了，我們只需調(diào)用它的compile（）方法來指定要使用的loss函數(shù)和優(yōu)化器，或者你可以指定要在訓(xùn)練和評估期間計算的額外指標列表。首先，我們使用“稀疏的分類交叉熵”損失，因為我們有稀疏的標簽（也就是說，對于每個實例，只有一個目標類索引，在我們的例子中，從0到9），并且這些類是互斥的）；接下來，我們指定使用隨機梯度下降，并將學(xué)習(xí)速率初始化為1e－3，并在每次迭代中增加0．5％：model．compile（loss＝＂sparse＿categorical＿crossentropy＂， optimizer＝keras．optimizers．SGD（lr＝1e－3）， metrics＝［＂accuracy＂］）expon＿lr ＝ ExponentialLearningRate（factor＝1．005）現(xiàn)在讓我們訓(xùn)練模型一個epoch：history ＝ model．fit（X＿train， y＿train， epochs＝1， validation＿data＝（X＿valid， y＿valid）， callbacks＝［expon＿lr］）我們現(xiàn)在可以將損失繪制為學(xué)習(xí)率的函數(shù)：plt．plot（expon＿lr．rates， expon＿lr．losses）plt．gca（）．set＿xscale（＇log＇）plt．hlines（min（expon＿lr．losses）， min（expon＿lr．rates）， max（expon＿lr．rates））plt．a(chǎn)xis（［min（expon＿lr．rates）， max（expon＿lr．rates）， 0， expon＿lr．losses［0］］）plt．xlabel（＂Learning rate＂）plt．ylabel（＂Loss＂）save＿fig（＂learning＿rate＿vs＿loss＂）