PyTorch中的torch.nn.Parameter() 詳解

LibraryPKU 2021-11-07

展開全文

今天來聊一下PyTorch中的torch.nn.Parameter()這個函數(shù)，筆者第一次見的時候也是大概能理解函數(shù)的用途，但是具體實(shí)現(xiàn)原理細(xì)節(jié)也是云里霧里，在參考了幾篇博文，做過幾個實(shí)驗(yàn)之后算是清晰了，本文在記錄的同時希望給后來人一個參考，歡迎留言討論。

分析

先看其名，parameter，中文意為參數(shù)。我們知道，使用PyTorch訓(xùn)練神經(jīng)網(wǎng)絡(luò)時，本質(zhì)上就是訓(xùn)練一個函數(shù)，這個函數(shù)輸入一個數(shù)據(jù)（如CV中輸入一張圖像），輸出一個預(yù)測（如輸出這張圖像中的物體是屬于什么類別）。而在我們給定這個函數(shù)的結(jié)構(gòu)（如卷積、全連接等）之后，能學(xué)習(xí)的就是這個函數(shù)的參數(shù)了，我們設(shè)計一個損失函數(shù)，配合梯度下降法，使得我們學(xué)習(xí)到的函數(shù)（神經(jīng)網(wǎng)絡(luò)）能夠盡量準(zhǔn)確地完成預(yù)測任務(wù)。

通常，我們的參數(shù)都是一些常見的結(jié)構(gòu)（卷積、全連接等）里面的計算參數(shù)。而當(dāng)我們的網(wǎng)絡(luò)有一些其他的設(shè)計時，會需要一些額外的參數(shù)同樣很著整個網(wǎng)絡(luò)的訓(xùn)練進(jìn)行學(xué)習(xí)更新，最后得到最優(yōu)的值，經(jīng)典的例子有注意力機(jī)制中的權(quán)重參數(shù)、Vision Transformer中的class token和positional embedding等。

而這里的torch.nn.Parameter()就可以很好地適應(yīng)這種應(yīng)用場景。

下面是這篇博客的一個總結(jié)，筆者認(rèn)為講的比較明白，在這里引用一下：

首先可以把這個函數(shù)理解為類型轉(zhuǎn)換函數(shù)，將一個不可訓(xùn)練的類型Tensor轉(zhuǎn)換成可以訓(xùn)練的類型parameter并將這個parameter綁定到這個module里面(net.parameter()中就有這個綁定的parameter，所以在參數(shù)優(yōu)化的時候可以進(jìn)行優(yōu)化的)，所以經(jīng)過類型轉(zhuǎn)換這個self.v變成了模型的一部分，成為了模型中根據(jù)訓(xùn)練可以改動的參數(shù)了。使用這個函數(shù)的目的也是想讓某些變量在學(xué)習(xí)的過程中不斷的修改其值以達(dá)到最優(yōu)化。

ViT中nn.Parameter()的實(shí)驗(yàn)

看過這個分析后，我們再看一下Vision Transformer中的用法：

...

self.pos_embedding = nn.Parameter(torch.randn(1, num_patches+1, dim))
self.cls_token = nn.Parameter(torch.randn(1, 1, dim))
...

我們知道在ViT中，positonal embedding和class token是兩個需要隨著網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)的參數(shù)，但是它們又不屬于FC、MLP、MSA等運(yùn)算的參數(shù)，在這時，就可以用nn.Parameter()來將這個隨機(jī)初始化的Tensor注冊為可學(xué)習(xí)的參數(shù)Parameter。

為了確定這兩個參數(shù)確實(shí)是被添加到了net.Parameters()內(nèi)，筆者稍微改動源碼，顯式地指定這兩個參數(shù)的初始數(shù)值為0.98，并打印迭代器net.Parameters()。

...

self.pos_embedding = nn.Parameter(torch.ones(1, num_patches+1, dim) * 0.98)
self.cls_token = nn.Parameter(torch.ones(1, 1, dim) * 0.98)
...

實(shí)例化一個ViT模型并打印net.Parameters()：

net_vit = ViT(
        image_size = 256,
        patch_size = 32,
        num_classes = 1000,
        dim = 1024,
        depth = 6,
        heads = 16,
        mlp_dim = 2048,
        dropout = 0.1,
        emb_dropout = 0.1
    )

for para in net_vit.parameters():
        print(para.data)

輸出結(jié)果中可以看到，最前兩行就是我們顯式指定為0.98的兩個參數(shù)pos_embedding和cls_token：

tensor([[[0.9800, 0.9800, 0.9800,  ..., 0.9800, 0.9800, 0.9800],
         [0.9800, 0.9800, 0.9800,  ..., 0.9800, 0.9800, 0.9800],
         [0.9800, 0.9800, 0.9800,  ..., 0.9800, 0.9800, 0.9800],
         ...,
         [0.9800, 0.9800, 0.9800,  ..., 0.9800, 0.9800, 0.9800],
         [0.9800, 0.9800, 0.9800,  ..., 0.9800, 0.9800, 0.9800],
         [0.9800, 0.9800, 0.9800,  ..., 0.9800, 0.9800, 0.9800]]])
tensor([[[0.9800, 0.9800, 0.9800,  ..., 0.9800, 0.9800, 0.9800]]])
tensor([[-0.0026, -0.0064,  0.0111,  ...,  0.0091, -0.0041, -0.0060],
        [ 0.0003,  0.0115,  0.0059,  ..., -0.0052, -0.0056,  0.0010],
        [ 0.0079,  0.0016, -0.0094,  ...,  0.0174,  0.0065,  0.0001],
        ...,
        [-0.0110, -0.0137,  0.0102,  ...,  0.0145, -0.0105, -0.0167],
        [-0.0116, -0.0147,  0.0030,  ...,  0.0087,  0.0022,  0.0108],
        [-0.0079,  0.0033, -0.0087,  ..., -0.0174,  0.0103,  0.0021]])
...
...

這就可以確定nn.Parameter()添加的參數(shù)確實(shí)是被添加到了Parameters列表中，會被送入優(yōu)化器中隨訓(xùn)練一起學(xué)習(xí)更新。

from torch.optim import Adam
opt = Adam(net_vit.parameters(), learning_rate=0.001)

其他解釋

以下是國外StackOverflow的一個大佬的解讀，筆者自行翻譯并放在這里供大家參考，想查看原文的同學(xué)請戳這里。

我們知道Tensor相當(dāng)于是一個高維度的矩陣，它是Variable類的子類。Variable和Parameter之間的差異體現(xiàn)在與Module關(guān)聯(lián)時。當(dāng)Parameter作為model的屬性與module相關(guān)聯(lián)時，它會被自動添加到Parameters列表中，并且可以使用net.Parameters()迭代器進(jìn)行訪問。
最初在Torch中，一個Variable（例如可以是某個中間state）也會在賦值時被添加為模型的Parameter。在某些實(shí)例中，需要緩存變量，而不是將它們添加到Parameters列表中。
文檔中提到的一種情況是RNN，在這種情況下，您需要保存最后一個hidden state，這樣就不必一次又一次地傳遞它。需要緩存一個Variable，而不是讓它自動注冊為模型的Parameter，這就是為什么我們有一個顯式的方法將參數(shù)注冊到我們的模型，即nn.Parameter類。

舉個例子：

import torch
import torch.nn as nn
from torch.optim import Adam

class NN_Network(nn.Module):
    def __init__(self,in_dim,hid,out_dim):
        super(NN_Network, self).__init__()
        self.linear1 = nn.Linear(in_dim,hid)
        self.linear2 = nn.Linear(hid,out_dim)
        self.linear1.weight = torch.nn.Parameter(torch.zeros(in_dim,hid))
        self.linear1.bias = torch.nn.Parameter(torch.ones(hid))
        self.linear2.weight = torch.nn.Parameter(torch.zeros(in_dim,hid))
        self.linear2.bias = torch.nn.Parameter(torch.ones(hid))

    def forward(self, input_array):
        h = self.linear1(input_array)
        y_pred = self.linear2(h)
        return y_pred

in_d = 5
hidn = 2
out_d = 3
net = NN_Network(in_d, hidn, out_d)

然后檢查一下這個模型的Parameters列表：

for param in net.parameters():
    print(type(param.data), param.size())

""" Output
<class 'torch.FloatTensor'> torch.Size([5, 2])
<class 'torch.FloatTensor'> torch.Size([2])
<class 'torch.FloatTensor'> torch.Size([5, 2])
<class 'torch.FloatTensor'> torch.Size([2])
"""

可以輕易地送入到優(yōu)化器中：

opt = Adam(net.parameters(), learning_rate=0.001)

另外，請注意Parameter的require_grad會自動設(shè)定。

各位讀者有疑惑或異議的地方，歡迎留言討論。

參考：

https://www.jianshu.com/p/d8b77cc02410

https:///questions/50935345/understanding-torch-nn-parameter

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： LibraryPKU > 《機(jī)器學(xué)習(xí)》

舉報/認(rèn)領(lǐng)