AAAI 2019 論文解讀：卷積神經(jīng)網(wǎng)絡(luò)繼續(xù)進步

taotao_2016 2019-02-02

展開全文

機器之心原創(chuàng)

作者：Joshua Chou

編輯：Haojin Yang

卷積神經(jīng)網(wǎng)絡(luò)（CNN）近年來已經(jīng)取得了很大的成功，但研究者仍在進一步推進研究前沿，提出新的思路和方法。在本文中，技術(shù)分析師 Joshua Chou 將解讀三篇有關(guān)卷積神經(jīng)網(wǎng)絡(luò)的 AAAI 2019 論文。其中第一篇提出了一種 dropout 改進方法，第二篇和第三篇則是圖卷積網(wǎng)絡(luò)方面的研究。

分析師簡介：Joshua 已于 2018 年取得多倫多大學(xué)應(yīng)用科學(xué)碩士（MASc）學(xué)位。他的研究重心是格形碼（lattice codes）、低密度奇偶校驗（LDPC）碼以及編碼理論的其它方面。他也對凸優(yōu)化和隨機過程感興趣。Joshua 目前在高通工作，是一位機器學(xué)習(xí)工程師，專注對推理的優(yōu)化。

前言

我在本文中介紹了選出的三篇 AAAI 2019 論文。所有這三篇論文都是眾所周知的卷積神經(jīng)網(wǎng)絡(luò)的變體。第一篇論文是 Weighted Channel Dropout for Regularization of Deep Convolutional Neural Network，利用了一個簡單的觀察來提升 CNN 的表現(xiàn)。第二篇論文 Graph Convolutional Networks for Text Classification 研究了 CNN 的一種擴展——圖卷積神經(jīng)網(wǎng)絡(luò)（GCNN）。GCNN 是直接操作圖，是基于近鄰節(jié)點和它們的屬性推導(dǎo)節(jié)點的嵌入向量。第三篇論文 Bayesian Graph Convolutional Neural Networks for Semi-supervised Classification 討論了貝葉斯框架下的 GCNN。也就是說，因為現(xiàn)實生活應(yīng)用中使用的圖有時候源自有噪聲的數(shù)據(jù)或建模假設(shè)，所以圖自身含有不確定性。因此，第三篇論文是通過向 GCNN 中引入概率和統(tǒng)計學(xué)來解決這種不確定性。下面我們開始詳細解讀。

Weighted Channel Dropout for Regularization of Deep Convolutional Neural Network
地址：http://home.ustc.edu.cn/~saihui/papers/aaai2019_weighted.pdf

引言

近年來卷積神經(jīng)網(wǎng)絡(luò)（CNN）實現(xiàn)了很大的發(fā)展，這已經(jīng)顯著提升了很多不同應(yīng)用的性能表現(xiàn)。深度 CNN 的成功原因很大程度上是其多個非線性隱藏層的結(jié)構(gòu)，其中包含數(shù)以百萬計的參數(shù)，因此能夠?qū)W習(xí)輸入和輸出之間的復(fù)雜關(guān)系。

這項工作由 Hou 和 Wang 完成，受到了以下觀察的啟發(fā)。在一個 CNN 的卷積層的堆棧內(nèi)，所有的通道都是由之前的層生成的，并會在下一層中得到平等的對待。這就帶來了一個想法：這樣的「分布」可能不是最優(yōu)的，因為事實可能證明某些特征比其它特征更有用。當(dāng)特征仍然可追溯時，對于更高層（更淺）來說尤其如此。Zhang et al. 2016 更進一步表明了這一點，他們表明，對于每張輸入圖像，更高層中僅有少量通道被激活，同時其它通道中的神經(jīng)元響應(yīng)接近于零。

由此，作者提出了一種根據(jù)激活的相對幅度來選擇通道的方法，并可以進一步作為一種建模通道之間的依賴關(guān)系的特殊方法。他們這項工作的主要貢獻是為 CNN 中卷積層的正則化提出了加權(quán)式通道丟棄（Weighted Channel Dropout/WCD）方法。

加權(quán)式通道丟棄

基本思想和一些注解

WCD 背后的主要思想如下：

首先，對前一層輸出的通道進行評級，并為每個通道分配一個分數(shù)。這個分數(shù)是使用全局平均池化（GAP）操作得到的。
其次，會生成一個二元掩碼來指示每個通道是否被選中，分數(shù)相對更高的通道有更高的概率得到保留。
最后，使用一個額外的隨機數(shù)生成器來進一步為下一層過濾通道。這可以被視為上述步驟中選擇性 dropout 之上的隨機選擇 dropout。

相對而言，常規(guī) dropout 是以隨機方式掩蔽通道。下面的圖 1 給出了傳統(tǒng) dropout 流程的示意圖。

圖 1：dropout 示意圖

還有幾點值得一提：

WCD 不依賴任何參數(shù)，僅用一些（少量）的計算成本就可被添加到訓(xùn)練階段的網(wǎng)絡(luò)中。
因為 WCD 僅能加入訓(xùn)練階段，所以不影響推理。

方法

如前所述，WCD 的目標是為 CNN 中的卷積層堆棧提供正則化。這篇論文的標注方式如下。令 X = [x_1, x_2, ..., x_N] 表示層 I 的輸出，X^ = [x^_1, x^_2, ..., x^_N^] 表示下一層的輸入。N 和 N^ 表示通道的數(shù)量，x_i 和 x^_i 表示第 i 個通道。這篇論文考慮了以下情況。

此外，假設(shè) N^ = N 成立。

第一步：通道評級

這一步涉及到為每個通道分配一個分數(shù)。這是使用 GAP 完成的。對于每個通道 i，它的分數(shù)可使用（2）式計算得到。

其中 W 和 H 分別是所有通道共享的寬度和高度。

第二步：通道選擇

要決定一個通道是否被選中，方法是構(gòu)建一個二元掩碼。其中 mask_i 要么為 1，要么為 0，分別表示選擇或不選擇通道 i。為了構(gòu)建這個掩碼，首先要計算出一個概率 p_i 并將其分配給每個通道使用，以確定 mask_i。保留通道的概率 p_i 使用（3）式計算。

因為 P(mask_i = 1) = p_i，所以我們得出結(jié)論：有更高分數(shù)的通道更可能得到保留。

可以觀察到，上述基于分數(shù)向量構(gòu)建掩碼向量的過程是加權(quán)式隨機選擇（WRS）的一種特例。由此可以實現(xiàn)這一步驟。算法 1 展示了 WRS 算法。更多信息請參閱 Efraimidis and Spirakis, 2006。

對于分數(shù)為 score_i 的每個通道 x_i，生成介于 0 和 1 之間的一個隨機數(shù) r_i，從而得到一個鍵值 key_i。接下來，選擇其中 M 個最大的鍵值并將對應(yīng)的 mask_i 設(shè)置為 1。

第三步：隨機數(shù)生成器

這一步可被視為一個可選步驟，因為這更面向于更小的數(shù)據(jù)集。這是為了應(yīng)對以下情況。在某個預(yù)訓(xùn)練模型的更高的卷積層，通道之間的差異大于更深卷積層中的情況。也就是說，僅有少量通道被分配了較大的激活值，其它激活值很小。如果網(wǎng)絡(luò)僅根據(jù)這些層中的分數(shù)選擇通道，那么有可能對于每張圖像，被選擇的通道序列在每次前向通過時都一樣。因此，通過添加隨機數(shù)生成器，即使 mask_i 已被設(shè)置為 1，對應(yīng)的 x_i 仍有可能不被選擇。

總體方法

新提出的方法可總結(jié)為圖 2 的形式。

圖 2：加權(quán)式通道 dropout 示意圖

應(yīng)用和評估 WCD

實驗和設(shè)置

理論上，WCD 可以插入任意 CNN 中任意的兩個連續(xù)層之間。作者提出將 WCD 用于正則化卷積層的堆棧。作者進行了一些實驗，將 WCD 整合進了 VGGNet (Simonyan and Zisserman 2014)、ResNet (He et al. 2016) 和 Inception (Szegedy et al. 2016) 等著名的網(wǎng)絡(luò)中。

所有的模型都是使用 Caffe（Jia et al. 2014）在 Titan-X GPU 上實現(xiàn)。WCD 被添加到了訓(xùn)練階段的網(wǎng)絡(luò)中，原有的層保持不變。正如前面提到的，在早期卷積層中的通道更容易辨別和更好理解，因此作者在每個網(wǎng)絡(luò)的更高、更淺層之后部署了 WCD。

實驗使用了以下數(shù)據(jù)集：

CUB-200-2011（Wah et al. 2011）：一個使用廣泛的細粒度數(shù)據(jù)集，收集了 200 種鳥類的圖像。每一類有大約 30 張圖像可供訓(xùn)練。
Stanford Cars（Krause et al. 2013）：一個專注于汽車分類的數(shù)據(jù)集，包含品牌、型號和年份
Caltech-256：一組目標類別數(shù)據(jù)集的集合，通過從谷歌圖片搜索下載樣本，然后人工去除不符合該類別的圖像而得到。

圖 3 展示了一些用作網(wǎng)絡(luò)輸入的數(shù)據(jù)集中的樣本圖像。

圖 3：(a) CUB-200-2011、(b) Stanford Cars 和 (c) Caltech-256 中的圖像示例

結(jié)果

下面展示了被測網(wǎng)絡(luò)（VGGNet、ResNet 和 Inception）的表現(xiàn)。此外，其中加入了基準表現(xiàn)（沒有集成 WCD）以便比較。

可以看到，整合了 WCD 的模型總是優(yōu)于基準。但是，這并不意味著整合了 WCD 的網(wǎng)絡(luò)的表現(xiàn)接近當(dāng)前最佳，比如 RA-CNN（Fu, Zheng, and Mei 2017）和 MA-CNN（Zheng et al. 2017）。這是因為 WCD 是一種相當(dāng)通用的方法，可用于在小數(shù)據(jù)集上微調(diào) CNN 時緩解過擬合問題，其可以整合進這些已有的模型中。

下面展示了在 Caltech-256 數(shù)據(jù)集上的結(jié)果。

前兩行是在一個更大的測試集上得到的基準水平以及使用了 WCD 時的表現(xiàn)，而后兩行是在一個包含 20 張圖像的精簡測試集（與訓(xùn)練集不重疊）上得到的基準水平以及使用了 WCD 時的表現(xiàn)?？梢钥吹剑琖CD 在 Caltech-256 上也表現(xiàn)良好，能幫助實現(xiàn)優(yōu)于基礎(chǔ)模型的表現(xiàn)。

進一步討論

現(xiàn)在讀者可能會問：除了額外的計算，在使用 WCD 時還需要什么權(quán)衡？答案是 WCD 在收斂之前會造成更高的訓(xùn)練（樣本中）誤差。換句話說，使用 WCD 時的收斂速度更慢。作者提供了使用 VGGNet-16 作為基礎(chǔ)模型在 CUB-200-2011 上的結(jié)果。圖 4 展示了其表現(xiàn)

圖 4：WCD 對網(wǎng)絡(luò)訓(xùn)練的影響，這是使用 VGGNet-16 作為基礎(chǔ)模型在 CUB-200-2011 上的結(jié)果

如圖中描述的那樣，使用 WCD 時的訓(xùn)練誤差曲線下降更慢，同時所得到的測試誤差更低。這個實驗發(fā)現(xiàn)支持這一說法：WCD 可以降低訓(xùn)練階段中的過擬合。

總結(jié)

在這篇論文中，作者提出了一種修改版的 dropout 作為一種 CNN 正則化方法。他們提出的方法 WCD 可用于卷積層的堆棧。這是一種輕量級的組件，僅需在訓(xùn)練階段引入可忽略的少量計算成本，就能將其整合進任意已有模型中。

我認為這篇論文的有趣之處在于其采用了一個非常簡單的觀察，即更高 (更淺) 的卷積層通常更可解釋；另一個觀察是之前一層所生成的當(dāng)前所有通道都會在下一層中得到平等對待。作者利用了這兩個觀察來取得更優(yōu)的表現(xiàn)。

隨著深度學(xué)習(xí)的持續(xù)提升，現(xiàn)在更優(yōu)的表現(xiàn)往往是通過實現(xiàn)更復(fù)雜的算法或使用更多資源而「擠」出來的。看到有人使用這些簡單的觀察來低成本地提升表現(xiàn)，著實讓人眼前一亮。這種類型的改進可能在機制上并不困難，但也確實需要一些運氣和靈感才能想出來。因此，我認為這是一個值得討論的有趣主題。

Graph Convolutional Networks for Text Classification
地址：https:///pdf/1809.05679.pdf

引言

圖神經(jīng)網(wǎng)絡(luò)（Graph Neural Networks/GNN）近年來越來越受歡迎。一些作者已經(jīng)總結(jié)出了一些成熟的神經(jīng)網(wǎng)絡(luò)模型，比如一個用于處理結(jié)構(gòu)化圖的卷積神經(jīng)網(wǎng)絡(luò)（CNN）。Kipf 和 Welling 在 2017 年提出了圖卷積網(wǎng)絡(luò)（GCN），其在一些基準圖數(shù)據(jù)集上取得了當(dāng)前最佳的分類結(jié)果。

簡而言之，GCN 是直接操作圖的多層神經(jīng)網(wǎng)絡(luò)，并可基于近鄰節(jié)點及它們的屬性推導(dǎo)節(jié)點的嵌入向量。這是一種很有趣的網(wǎng)絡(luò)模型，正在快速發(fā)展，因此我的目標是幫助讀者進一步理解如何使用 GCN 以及討論它們在文本分類中的一些應(yīng)用。

方法

術(shù)語和表示方法

GCN 本質(zhì)上是操作圖的 CNN。我們首先來看看一些所需的符號和術(shù)語。

圖表示為 G=(V, E)，其中 V 和 E 分別是節(jié)點和邊的集合。假設(shè)每個節(jié)點都與自己相連。
鄰接矩陣 A 定義為一個 |V| x |V| 的方形矩陣，用于表示 V。A 中的元素表示頂點對是否是鄰接的，還是不在圖中。（|V| 是節(jié)點的數(shù)量，后面將用 n 表示。）
X 是一個特征矩陣，其維度為 R^(n x m)，其中 n = |V| 是節(jié)點的數(shù)量，m 是特征的數(shù)量。
D 是度矩陣（degree matrix）。這是一個 n x n 的對角矩陣，其中元素 D_ii 表示每個節(jié)點的度。

GCN 操作的是這些信息，因此可以使用一層卷積自然地獲取有關(guān)每個節(jié)點的直接近鄰節(jié)點的信息。這篇論文的重點不是 GCN 的底層機制，而是如何構(gòu)建要輸入 GCN 的適當(dāng)輸入。

為文本 GCN構(gòu)建圖

現(xiàn)在我們進入這篇論文的核心。異構(gòu)文本圖既包含詞節(jié)點，也含有文檔節(jié)點。節(jié)點之間的邊可分為兩大類。

文檔中的詞出現(xiàn)

這是連接詞節(jié)點和文檔節(jié)點的邊。詞-文檔邊的權(quán)重是詞-文檔的詞頻-逆文檔頻率（TF-IDF）。詞頻是指詞在文檔中出現(xiàn)的次數(shù)，逆文檔頻率（IDF）是指包含該詞的文檔數(shù)量的對數(shù)尺度的逆向分數(shù)。

在計算 TF-IDF 時需要注意幾點。在總結(jié)文本時，難點是尋找顯著突出的 token。直觀地看，人們可能會認為最常出現(xiàn)的 token 最重要。但是，很多文檔中最常出現(xiàn)的詞往往不能提供較多重要信息，比如 the、to、with、have（而不只是我們關(guān)注的詞）。顯著的 token 往往在多個不同文檔中有較低的數(shù)量，而在某個文檔中數(shù)量較大。TF-IDF 分數(shù)可以使用下列公式進行計算。

在這里 t 表示詞，d 表示單個文本，D 為文本的集合。對此公式的理解如下:

它的第一部分 tf(t，d) 是用來計算每個詞在單個文本中出現(xiàn)的次數(shù)。公式第二部分的詳細表達如下，

上式中分子 D 表達文本集合，它也可被表示為 D=d_1, d_2, ... ,d_n，這里 n 是集合 (corpus) 中文本的數(shù)量。

分母的部分| {d ∈ D : t ∈ d} |表示詞 t 出現(xiàn)在多少文本 d 中 (d ∈ D 限制 d 要屬于文本集合 D 中). 這里需要指出的是，無論詞 t 在某一個文本里出現(xiàn)了多少次，都只會被記錄一次，因為我們只是要統(tǒng)計它是否出現(xiàn)過。分母加 1 的部分是為了避免分母為 0。

詞共現(xiàn)

這是連接一個詞節(jié)點與另一個詞節(jié)點的邊。連接兩個詞節(jié)點的邊的權(quán)重使用逐點互信息（PMI）計算。PMI 度量非常類似信息論中的互信息，可以很好地直觀理解。

以英語中文本分類或與文本相關(guān)的語言處理為例，這往往涉及到尋找簡單的短語或?qū)ふ铱偸浅霈F(xiàn)在一起（共現(xiàn)/ co-occurrence）的 token 對。可以直觀地認為，如果兩個 token 出現(xiàn)在一起的頻率高于「隨機」情況，則它們就是共現(xiàn)的。PMI 是一種描述這一情況的數(shù)學(xué)方法。因此，語言模型可能為任意的 token 序列分配一個概率 P(x_1, x_2, ..., x_k)，其中更常見的序列有更高的概率。比如 P(「Los Angeles」) 是英語中「Los」和「Angeles」出現(xiàn)在一起的概率。語言模型可能包含不同長度的序列。

現(xiàn)在考慮一個能夠讀取「詞袋（bag of words）」的 unigram（長度僅為 1 的序列）模型，P(「Los」) x P(「Angeles」) 是「Los Angeles」在這個（隨機）unigram 模型中出現(xiàn)在一起的概率。然后可用下式計算 PMI。

PMI 為正表示詞存在共現(xiàn)，也就是會出現(xiàn)在一起；PMI 為負則說明詞沒有出現(xiàn)在一起。

進一步解讀 GCN

構(gòu)建圖之后，將其輸入 Kipf and Welling (2017) 描述的 Text GCN 中。我們介紹的這篇論文關(guān)注的重點不是 GCN 的工作方式，而是要輸入 Text GCN 中立即使用的圖的構(gòu)建。但是，我認為為了更好地理解這篇論文的結(jié)果，仍然需要對 GCN 進行一些介紹。我將在這里稍做停頓，稍微深度地討論一下 GCN 以及它們實際計算的內(nèi)容。有關(guān) GCN 的更多細節(jié)可參考 Kipf 和 Welling 的另一篇論文：https:///pdf?id=SJU4ayYgl

近似圖卷積和逐層信息傳播

GCN 的核心可寫成下列等式：

式（3）。GCN 的逐層傳播規(guī)則。

l+1 表示 l 層之后一層。在 l=0 層，H 矩陣是輸入的圖矩陣 G。W 是權(quán)重，A 和 D 分別是鄰接矩陣和度矩陣。激活函數(shù) σ 可根據(jù)情況選擇，比如 ReLU 函數(shù)。

因此，每當(dāng)信息運動到下一層時，網(wǎng)絡(luò)都會通過等式（3）傳遞所有信息。取自 Kipf 和 Welling 的論文的下圖 2 展示了這一過程。

圖 2：用于半監(jiān)督學(xué)習(xí)的多層圖卷積網(wǎng)絡(luò)（GCN）的示意圖，其中有 C 個輸入通道，輸出層中有 F 個特征圖。

從圖 2 中可以看到，輸入層由輸入特征圖的「堆?！箻?gòu)成（注意圖中的層疊）。圖的數(shù)量與特征的數(shù)量一樣多，其中每個圖都是又一個堆疊了所有屬性的矩陣。GCN 的輸出是特征圖。

下圖 3 是一個可視化 GCN 的簡單示例。

圖 3：GCN 結(jié)構(gòu)的簡單可視化

圖 3 展示了一個簡單的 GCN，其中有兩個卷積層，帶有 dropout 正則化和 ReLU 激活函數(shù)，輸出位置是一個 softmax 分類器。

現(xiàn)在我們已經(jīng)更清楚地理解了 GCN，下面會介紹實驗結(jié)果。但在我們了解結(jié)果之前，我想簡單談?wù)勎业囊稽c看法。作者沒有提到如何組織圖的結(jié)構(gòu)，即如何在鄰接矩陣中為節(jié)點排序。我提到這一點的原因是節(jié)點可以代表文檔、文本和單個詞。我們馬上就能看出，不同的節(jié)點類型似乎會帶來額外的分析度。但是，給定一個鄰接矩陣 A，以不同的節(jié)點順序構(gòu)建一個新的鄰接矩陣 A'，則 A 和 A' 是同構(gòu)的。

因此，這讓我相信（3）式中的輸入圖是旋轉(zhuǎn)不變的（作者沒有提到這一點，但我相信是這個情況）。其更新規(guī)則并不在意鄰接矩陣，因為 1）它們與任意其它鄰接矩陣是同構(gòu)的，2）它們由度矩陣歸一化，3）存在一個參數(shù)可訓(xùn)練的權(quán)重矩陣 W。直觀地看，我認為 W 會「學(xué)習(xí)輸入圖的旋轉(zhuǎn)」，并由此得到相同的結(jié)果。

測試 Text GCN

實驗

作者評估了 Text GCN 執(zhí)行文本分類的能力。

作者用于比較的基準水平是當(dāng)前最佳的文本分類和嵌入方法，比如 CNN、LSTM、Bi-LSTM、 PV-DM、fastText、SWEM 以及使用多種過濾器的不同 GCN。

實驗中使用的數(shù)據(jù)集是 20-Newsgroups（20-NG）、Ohsumed 語料庫、Reuters 21578 的 R52 和 R8、Movie Review（MR）。每個數(shù)據(jù)集的數(shù)據(jù)統(tǒng)計情況和詳細描述請參閱下面的表格和鏈接。

20NG - http:///?jason/20Newsgroups/
Ohsumed 語料庫 - http://disi./moschitti/corpora.htm
R52 和 R8 - https://www.cs./?smimarog/textmining/datasets/
MR - http://www.cs./people/pabo/movie-review-data/

實驗設(shè)置如下。第一個卷積層的嵌入大小為 200，窗口大小為 20。窗口大小用于 TF-IDF 的計算?；貞浺幌?，詞頻率是詞出現(xiàn)在文檔中的次數(shù)。在使用窗口的情況下，文檔是根據(jù)窗口大小部分地讀取。如果一個詞出現(xiàn)在給定的窗口中，則計數(shù)增加。學(xué)習(xí)率設(shè)置為 0.02、dropout 率設(shè)置為 0.5，保留 10% 的訓(xùn)練集作為驗證集。

結(jié)果

實驗結(jié)果見下表：

可以看到，除了一個數(shù)據(jù)集外，Text GCN 的準確度在其它所有數(shù)據(jù)集上都優(yōu)于其它模型。作者文中并沒有提供相應(yīng)的解釋，為何 Text GCN 在 MR 數(shù)據(jù)集上性能有所落后，我覺得可以從數(shù)據(jù)集的統(tǒng)計數(shù)字略窺倪端，MR 文本平均篇幅較短，可能因此導(dǎo)致其生成的圖包含過少的信息量，影響了圖網(wǎng)絡(luò)的整體性能。

此外，通過改變窗口大小，作者也能得到不同水平的表現(xiàn)。因此，窗口大小可以被視為一個超參數(shù)，我們可以根據(jù)驗證測試結(jié)果對其進行調(diào)整。圖 4 給出了其表現(xiàn)上的差異。

圖 4：不同窗口大小的準確度，（a）R8 數(shù)據(jù)集，（b）MR 數(shù)據(jù)集

根據(jù)實驗結(jié)果，我們可以看到新提出的 Text GCN 實現(xiàn)了很好的文本分類結(jié)果。

總結(jié)

在這篇論文中，作者提出了一種全新的文本分類方法，即文本圖卷積網(wǎng)絡(luò)（Text GCN）。Text GCN 能獲取全局詞共現(xiàn)信息以及使用有限標注的文檔來執(zhí)行所需任務(wù)。Text GCN 在多個基準數(shù)據(jù)集上都優(yōu)于多種當(dāng)前最佳方法，表現(xiàn)出色。

我認為這篇論文能幫助讀者了解越來越流行的圖卷積神經(jīng)網(wǎng)絡(luò)，這也是我介紹這篇論文的原因。卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)出現(xiàn)了一些時日了，現(xiàn)在已經(jīng)相當(dāng)成熟，現(xiàn)在也正得到不斷的擴展和改進。我認為即使最少量的改進也值得關(guān)注。

Bayesian Graph Convolutional Neural Networks for Semi-supervised Classification
地址：https:///pdf/1811.11103.pdf

引言

我要介紹的第三篇論文基于圖卷積神經(jīng)網(wǎng)絡(luò)（我們將使用該論文的表示方法，將其寫成 GCNN）。如上一篇論文介紹的那樣，GCNN 已被用于解決節(jié)點和圖的分類問題，并且相當(dāng)成功。但是，當(dāng)前的實現(xiàn)將不確定性整合進圖結(jié)構(gòu)的能力有限，也就是說，GCNN 雖然理解圖的節(jié)點和邊，因為這是其中關(guān)系的基本真值描述，但應(yīng)用中使用的圖本身往往源自有噪聲的數(shù)據(jù)或建模假設(shè)，得到的圖有更高的熵。

當(dāng)我們處理不確定性時，我們自然會想到概率。而當(dāng)我們想到概率時，我們會想到貝葉斯法則。將貝葉斯框架整合進 GCNN 是這篇論文的重心。這篇論文針對的是某些隨機圖參數(shù)和節(jié)點標簽的聯(lián)合后驗的推斷。作者提出了貝葉斯 GCNN 框架，并開發(fā)了一種迭代式的學(xué)習(xí)流程來到達最終圖。

方法

表示方法和術(shù)語

這篇論文的表示方法和術(shù)語類似于前一篇論文（也有些許不同），這里我們簡要介紹一下。我們觀察到的圖為 G_obs = (V, E)，由 N 個節(jié)點的集合 V 與邊集合 E 構(gòu)成。對于每個節(jié)點 i，都有一些相關(guān)的度量數(shù)據(jù)（或?qū)С鎏卣鳎硎緸?x_i。對于節(jié)點的某個子集 L ? V, 存在度量標簽 Y_L = {y_i : i ∈ L}。在分類任務(wù)中，標簽 y_i 可以意味著類別；在回歸任務(wù)中，y_i 可以是實數(shù)值。這篇論文的任務(wù)目標是使用特征 x 和觀察到的圖結(jié)構(gòu) G_obs 來估計無標簽節(jié)點的標簽。

GCNN 執(zhí)行這一任務(wù)的方式是在神經(jīng)網(wǎng)絡(luò)架構(gòu)中執(zhí)行圖卷積運算。收集到的特征向量將作為矩陣 X 的行，即 GCNN 的層。在每個卷積層，前向傳播都根據(jù)等式（1）和（2）定義。

等式 (1) 和 (2)。GCNN 的逐層傳播規(guī)則。

等式（1）和（2）是和前一篇論文一致的公式，只有一點不同——沒有度矩陣與 A_G 相乘。但是，解讀仍然是一樣的。一個 L 層網(wǎng)絡(luò)的最后一層輸出表示為 Z = H^(L)。神經(jīng)網(wǎng)絡(luò)權(quán)重的訓(xùn)練通過反向傳播執(zhí)行，目標是最小化被觀察的標簽 Y 和網(wǎng)絡(luò)預(yù)測 Z 之間的誤差度量。

考慮以下設(shè)定。

訓(xùn)練輸入 X = {x_1, x_2, ... x_n}
對應(yīng)于輸入的輸出 Y = {y_1, y_2, ..., y_n}
網(wǎng)絡(luò)試圖學(xué)習(xí)的函數(shù) y = f(x)
存儲在權(quán)重矩陣 W 中的權(quán)重

在這里，權(quán)重被建模為貝葉斯方法中的隨機變量，并且有基于它們的一個先驗分布。因為這些權(quán)重是隨機變量，輸出 f(x) 也是一個隨機變量。在這一框架下，新輸入 x 的輸出可被視為給定 x、X、Y 并整合了 W 的后驗分布。這可以表示為下面的等式（3）。

p(y|x, W) 這一項可被視為一個似然；在分類任務(wù)中，可通過將 softmax 函數(shù)應(yīng)用于神經(jīng)網(wǎng)絡(luò)的輸出，使用類別分布來建模這一項。

現(xiàn)在，我們將后驗計算表示為等式（5），等式（5）的目標是計算節(jié)點標簽的后驗概率。

其中 W 是一個隨機變量，表示貝葉斯 GCNN 在圖 G 上的權(quán)重，λ 表示特征化一系列隨機圖的參數(shù)。在下一節(jié)，我們將會看到貝葉斯 GCNN 執(zhí)行半監(jiān)督節(jié)點分類任務(wù)的方式。

實驗結(jié)果

實驗設(shè)置和數(shù)據(jù)集

下面我們來看使用貝葉斯框架的 GCNN 在半監(jiān)督節(jié)點分類上的表現(xiàn)。這個實驗測試的是貝葉斯 GCNN 預(yù)測未知文檔標簽的能力。這類似于上面的論文 Graph Convolutional Networks for Text Classification 中討論的文本分類。使用的數(shù)據(jù)集包括引用數(shù)據(jù)集（Sen, Namata, and others 2008），比如 Cora、CiteSeer 和 Pubmed。在這些數(shù)據(jù)集中，每個節(jié)點表示一個文檔，并且有與其相關(guān)的稀疏詞袋特征向量。每當(dāng)一個文檔引用另一個文檔時，就會形成邊。忽略引用的方向，并構(gòu)建一個帶有一個對稱鄰接矩陣的無向圖。表 1 給出了這些數(shù)據(jù)集的統(tǒng)計情況。

表 1：實驗中使用的數(shù)據(jù)集的總結(jié)概括

作者將他們的工作與最早的 GCNN（Kipf and Welling 2017）ChebyNet（Defferrard, Bresson, and Vandergheynst 2016）和圖注意網(wǎng)絡(luò)（GAT）（Velickovic et al. 2018）進行了比較。此外，其超參數(shù)設(shè)置和 Kipf and Welling 的 GCNN 一樣。具體來說，這個 GCNN 有兩層，其中隱藏單元數(shù)為 16，學(xué)習(xí)率為 0.01，L2 正則化參數(shù)為 0.0005，dropout 率為每層 50%。除了之前的研究（Kipf and Welling 2017）探索過的每類別 20 個標簽的訓(xùn)練設(shè)置之外，作者還在限制更嚴格的數(shù)據(jù)場景（每類別僅有 10 或 5 個標簽可用）中測試了這些算法的表現(xiàn)。

將數(shù)據(jù)集劃分為訓(xùn)練集和測試集的方式有兩種，第一種是源自（Yang, Cohen, and Salakhutdinov 2016）的固定式數(shù)據(jù)分割。第二種劃分類型是隨機的，其中每一輪的訓(xùn)練集和測試集都是隨機創(chuàng)建的。這能為模型表現(xiàn)提供更為穩(wěn)健的比較，因為特定的數(shù)據(jù)劃分方式會在訓(xùn)練標簽有限的情況中產(chǎn)生顯著的影響。

結(jié)果

下列表 2、3、4 展示了實驗的結(jié)果。

表 2：在 Cora 數(shù)據(jù)集上的預(yù)測準確度（預(yù)測正確的標簽所占百分比）

表 3：在 Citeseer 數(shù)據(jù)集上的預(yù)測準確度

表 4：在 Pubmed 數(shù)據(jù)集上的預(yù)測準確度

可以看到，GCNN 幾乎在所有實驗中都優(yōu)于其它網(wǎng)絡(luò)。值得注意的是，當(dāng)不確定性較高時（即標簽的數(shù)量較少時），更是如此。這一點非常直觀，因為當(dāng)數(shù)據(jù)和標簽更少時，貝葉斯 GCNN 在計算沒有標簽的節(jié)點的最大后驗（MAP）估計以及選擇最優(yōu)近似上有優(yōu)勢。另一方面，其它設(shè)置依賴「基本真值」標簽提供有關(guān)節(jié)點和標簽的信息，在沒有標簽時不會提供任何信息。當(dāng)然，計算節(jié)點的潛在標簽的概率需要額外的計算成本，也就是說，對于有 L 個標簽的每個不確定的節(jié)點，網(wǎng)絡(luò)必須計算出每個標簽的 L 個概率以決定每個不確定節(jié)點應(yīng)該與哪個標簽關(guān)聯(lián)。

但是，可以預(yù)見，隨著給定標簽數(shù)量的增長（圖中「基本真值」更多），其它框架將開始優(yōu)于貝葉斯 GCNN。此外，隨著給定標簽數(shù)量的增長，貝葉斯 GCNN 不僅會失去優(yōu)勢，而且由于計算缺失的標簽的概率需要額外的計算成本，還會具有較大的劣勢。

可以看到，另一個影響結(jié)果的因素是圖復(fù)雜度（graph complexity）。在 Pubmed 數(shù)據(jù)集上尤其如此。在使用 Pubmed 數(shù)據(jù)集時，原始的 GCNN 顯著優(yōu)于貝葉斯 GCNN。Pubmed 數(shù)據(jù)集比 Cora 和 CiteSeer 數(shù)據(jù)集大很多，這會得到更加復(fù)雜的圖。我相信這是由于以下直觀原因。邊的數(shù)量比節(jié)點數(shù)量多很多的圖是「連接很緊密的」的圖。在「基本真值」設(shè)定中，具有標簽的節(jié)點意味著給定的節(jié)點-標簽關(guān)系是絕對確定的。因為邊的數(shù)量遠多于節(jié)點的數(shù)量，所以每個節(jié)點的絕對信息都會被傳播給網(wǎng)絡(luò)中的更多節(jié)點，從而得到「信息更豐富」的圖。我認為這就是貝葉斯 GCNN 在這種情況下優(yōu)勢不再的原因。

總結(jié)

在這篇論文中，作者提出了貝葉斯圖卷積神經(jīng)網(wǎng)絡(luò)，提供了一種通過參數(shù)隨機圖模型整合不確定圖信息的方法。隨著 GCNN 的繼續(xù)普及，我認為值得研究 GCNN 的潛在改進空間。這篇論文本質(zhì)上是通過引入概率來度量不確定性，添加了一個非常自然的層來求解涉及不確定性的問題。

結(jié)語

我選擇評閱的這三篇 AAAI 2019 論文全都與卷積神經(jīng)網(wǎng)絡(luò)這一主題有關(guān)。卷積神經(jīng)網(wǎng)絡(luò)近年來已經(jīng)取得了非常大的成功，并且已經(jīng)發(fā)展出了取決于當(dāng)前任務(wù)的復(fù)雜配置。我會簡單總結(jié)一下我在閱讀這些論文時想到的要點。一般來說，我會談到當(dāng)前的狀態(tài)，什么信息是可用的，我們可以利用這個額外信息嗎，我們要怎么做以及已經(jīng)做了什么？

Weighted Channel Dropout for Regularization of Deep Convolutional Neural Network

dropout 是一種神經(jīng)網(wǎng)絡(luò)中使用的常用的正則化技術(shù)。其中被丟棄的權(quán)重是完全由隨機選擇選出的。
在更高層（淺層），特征仍然是可追蹤的，可以被解釋。特定的特征比其它特征更有用，這能推出以下斷言：我們可以引入一個度量來量化特征的重要性以及影響 dropout 選擇。
上述要點就引出了這篇論文的主要貢獻。其作者提出了一種量化特征的重要性的方法，并且表明通過利用這一信息并將其整合進 dropout 中，卷積神經(jīng)網(wǎng)絡(luò)的表現(xiàn)可以得到提升。

Graph Convolutional Networks for Text Classification

Kipf 和 Welling 引入了圖卷積網(wǎng)絡(luò)，能高性能地解決分類問題。GCN 是一種直接操作圖的多層神經(jīng)網(wǎng)絡(luò)，并能基于近鄰節(jié)點和它們的屬性推導(dǎo)節(jié)點的嵌入向量。
要得到有效的 GCN，輸入圖必須要好。這就涉及到這篇論文的貢獻了。作者提出了一種基于文檔中詞出現(xiàn)和詞共現(xiàn)來構(gòu)建圖的方法；并將該圖用作 GCN 的輸入。
文檔中的詞出現(xiàn)會影響連接詞節(jié)點和文檔節(jié)點的邊的構(gòu)建。詞-文檔邊的權(quán)重是這組詞-文檔的詞頻-逆文檔頻率（TF-IDF）。
詞共現(xiàn)會影響連接一個詞節(jié)點與另一個詞節(jié)點的邊的構(gòu)建。連接兩個詞節(jié)點的邊的權(quán)重使用逐點互信息（PMI）計算。
結(jié)果表明，通過使用一層卷積獲取有關(guān)每個節(jié)點的直接近鄰的信息，GCN 在分類問題有應(yīng)用的潛力。這個信息編碼在構(gòu)造的圖中。

Bayesian Graph Convolutional Neural Networks for Semi-supervised Classification

這篇論文同樣研究的是圖卷積神經(jīng)網(wǎng)絡(luò)（GCNN），但額外考慮了有時候現(xiàn)實生活中使用的圖源自有噪聲的數(shù)據(jù)或建模假設(shè)，這意味著這些圖是「不確定的」。為了建模不確定性，我們自然會想到概率和統(tǒng)計，這也導(dǎo)向了這篇論文的主要重點。
這篇論文將貝葉斯框架引入了 GCNN 來解決不確定性問題。通常而言，GCNN 是使用基本真值信息或完全不使用信息構(gòu)建的，而貝葉斯 GCNN 則會計算有關(guān)圖的不完整或缺失信息的后驗概率，并將其用作可靠的信息。
在多項實驗中的結(jié)果表明貝葉斯 GCNN 優(yōu)于其它網(wǎng)絡(luò)。這是因為貝葉斯 GCNN 在計算沒有標簽的節(jié)點的最大后驗（MAP）估計以及選擇最優(yōu)近似來構(gòu)建輸入圖上有優(yōu)勢。當(dāng)存在大量無標簽節(jié)點時（缺失或不完整信息），這樣的優(yōu)勢最為顯著。
可以推斷出，「不確定節(jié)點」的數(shù)量和圖復(fù)雜度對貝葉斯 GCNN 的表現(xiàn)有貢獻。在某些情況中，原始 GCNN 優(yōu)于貝葉斯 GCNN。此外，這個框架的表現(xiàn)水平和計算成本之間存在權(quán)衡，在使用貝葉斯 GCNN 時需要考慮到這一點。

希望我討論這三篇論文的思路是清晰的。我選擇關(guān)注 GCNN 的原因之一是我們可以看到深度學(xué)習(xí)和傳統(tǒng)分析技術(shù)（這里是基于圖的分析和概率分析）之間的隔離情況正在逐漸消失。這將為不同的領(lǐng)域帶來進一步的合作，并有望在未來創(chuàng)造更激動人心的成果。

本文為機器之心原創(chuàng)，轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)。

?------------------------------------------------

加入機器之心（全職記者 / 實習(xí)生）：hr@jiqizhixin.com

投稿或?qū)で髨蟮溃?strong>content@jiqizhixin.com

廣告 & 商務(wù)合作：bd@jiqizhixin.com