AI眼中的世界是什么樣子？谷歌新研究找到了機(jī)器的視覺概念

長(zhǎng)沙7喜 2019-10-20

展開全文

選自arXiv

作者：Amirata Ghorbani等

機(jī)器之心編譯

參與：魔王

來自斯坦福大學(xué)和谷歌大腦的研究人員為基于概念的解釋方法提出了一些原則和要求，在整個(gè)數(shù)據(jù)集上識(shí)別更高層次的人類可理解概念。此外，研究者還開發(fā)了一種可以自動(dòng)提取視覺概念的新型算法 ACE。

論文地址：https:///pdf/1902.03129.pdf
GitHub 地址：https://github.com/amiratag/ACE

隨著機(jī)器學(xué)習(xí)模型廣泛用于制定重要決策，可解釋性成為研究領(lǐng)域的重要主題。目前大多數(shù)解釋方法通過特征重要性得分來提供解釋，即識(shí)別每個(gè)輸入中重要的特征。然而，如何系統(tǒng)性地總結(jié)和解釋每個(gè)樣本的特征重要性得分是很有難度的。近日，來自斯坦福大學(xué)和谷歌大腦的研究人員為基于概念的解釋提出了一些原則和要求，它們超出了每個(gè)樣本的特征（per-sample feature），而是在整個(gè)數(shù)據(jù)集上識(shí)別更高層次的人類可理解概念。研究者開發(fā)了一種可以自動(dòng)提取視覺概念的新型算法 ACE。該研究進(jìn)行了一系列系統(tǒng)性實(shí)驗(yàn)，表明 ACE 算法可發(fā)現(xiàn)人類可理解的概念，這些概念與神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果一致且非常重要。

機(jī)器學(xué)習(xí)模型的可解釋性

機(jī)器學(xué)習(xí)模型預(yù)測(cè)的可解釋性已經(jīng)成為一項(xiàng)重要的研究課題，在某些案例中更是成為法律要求。工業(yè)界也將可解釋性作為「負(fù)責(zé)任地使用機(jī)器學(xué)習(xí)」的一個(gè)主要組成部分，可解釋性并非屬于「錦上添花」，而是「不可或缺」。

機(jī)器學(xué)習(xí)解釋方法的大部分近期文獻(xiàn)圍繞深度學(xué)習(xí)模型展開。專注于為機(jī)器學(xué)習(xí)模型提供解釋的方法通常遵循以下常規(guī)操作：對(duì)模型的每個(gè)輸入，用移除（zero-out、模糊處理、shuffle 等）或擾動(dòng)的方式改變單個(gè)特征（像素、子像素、詞向量等），以逼近用于模型預(yù)測(cè)的每個(gè)特征的重要性。這些「基于特征」的解釋方法存在多個(gè)缺陷。一些研究嘗試證明這些方法并不可靠 [14, 3, 15]。

因此，近期很多研究開始以高級(jí)人類「概念」的形式提供解釋 [45, 20]。這類方法不為單個(gè)特征或像素分配重要性，它們的輸出就揭示了重要概念。

谷歌大腦的研究貢獻(xiàn)

來自斯坦福大學(xué)和谷歌大腦的研究者列舉了基于概念的解釋方法應(yīng)該滿足的幾項(xiàng)通用原則，并開發(fā)了一種系統(tǒng)框架來自動(dòng)識(shí)別對(duì)人類有意義且對(duì)機(jī)器學(xué)習(xí)模型很重要的高級(jí)概念。該研究提出的新方法叫做 Automated Concept-based Explanation (ACE)，其工作原理是：在不同的數(shù)據(jù)上累積相關(guān)的局部圖像分割部分。研究者將該方法的高效實(shí)現(xiàn)應(yīng)用于一種廣泛使用的目標(biāo)識(shí)別模型，并進(jìn)行量化人類實(shí)驗(yàn)和評(píng)估，結(jié)果證明：ACE 滿足基于概念的解釋方法的原則，且能夠?yàn)闄C(jī)器學(xué)習(xí)模型提供有趣的洞察。

方法

解釋算法通常具備三個(gè)主要組件：訓(xùn)練好的分類模型、來自同一個(gè)分類任務(wù)的測(cè)試數(shù)據(jù)點(diǎn)集合，以及向特征、像素、概念等分配重要性的重要性計(jì)算步驟。

該研究提出了一種新方法 ACE。它是一種全局解釋方法，可在無需人類監(jiān)督的情況下在分類器中解釋整個(gè)類。

ACE 逐步詳解

圖 1：ACE 算法。

(a) 來自同一類別的圖像集。使用多種分辨率分割每個(gè)圖像，形成屬于同一類別的圖像分割部分的集合。(b) 當(dāng)前最優(yōu) CNN 分類器瓶頸層的激活空間被用作相似度空間。在將每個(gè)圖像分割部分的大小重新調(diào)整至模型標(biāo)準(zhǔn)輸入大小后，相似的圖像分割部分被聚集在激活空間中，而異常值則被移除以提升聚類的一致性。(d) 每個(gè)概念的 TCAV 重要性得分基于其樣本分割部分計(jì)算得出。

ACE 使用訓(xùn)練好的分類器和某個(gè)類別的圖像集作為輸入，然后提取該類別呈現(xiàn)出的概念，并返回每個(gè)概念的重要性。在圖像數(shù)據(jù)中，概念以像素組（圖像分割部分）的形式呈現(xiàn)。為了提取類別中的所有概念，ACE 的第一步是分割類別圖像（見圖 1a）。為了從簡(jiǎn)單的細(xì)粒度概念（如紋理和顏色）和更復(fù)雜和粗粒度的概念（如物體部分和物體整體）中捕捉完整的概念層次，每個(gè)圖像都按照多個(gè)分辨率進(jìn)行分割。實(shí)驗(yàn)使用了三種不同的分辨率來捕捉三種層次的紋理、物體部分和物體整體。

ACE 的第二步是，將相似的分割部分歸類為同一個(gè)概念的示例。為了衡量這些圖像分割部分的相似性，研究者使用 [44] 的結(jié)果證明，在大型數(shù)據(jù)集（如 ImageNet）訓(xùn)練出的當(dāng)前最優(yōu)卷積神經(jīng)網(wǎng)絡(luò)中，最后層激活空間中的歐式距離是一種高效的感知相似性度量指標(biāo)。然后將每個(gè)圖像分割部分傳輸?shù)?CNN，并映射至激活空間。執(zhí)行映射后，使用圖像分割部分之間的歐式距離將相似部分聚類為同一個(gè)概念的示例。為了保存概念一致性，移除每個(gè)簇中的異常部分，這些圖像分割部分具備較低的相似性（見圖 1b）。

ACE 的最后一步是從上一步得到的概念集合中返回重要的概念。該研究使用 TCAV [20] 基于概念的重要性得分（見圖 1c）。

實(shí)驗(yàn)和結(jié)果

研究者使用 ACE 解釋在 ILSVRC2012 數(shù)據(jù)集（ImageNet）上訓(xùn)練得到的 Inception-V3 模型。研究者從 1000 個(gè)類別中選出 100 個(gè)類的子集，并對(duì)其應(yīng)用 ACE。

在實(shí)驗(yàn)中，50 張圖像足以提取出足夠多的概念示例，這可能是因?yàn)檫@些概念頻繁出現(xiàn)在圖像中。圖像分割步驟使用 SLIC 來執(zhí)行，因?yàn)槠渌俣群托阅茉谑褂?3 種分辨率進(jìn)行圖像分割時(shí)都表現(xiàn)不錯(cuò)（15、50 和 80）。至于相似性度量，研究者檢測(cè)了 Inception-V3 架構(gòu)多個(gè)層的歐式距離，最終選擇了 mixed_8 層。正如之前研究 [20] 所介紹的那樣，前面的層更擅長(zhǎng)紋理和顏色的相似性度量，后面的層更擅長(zhǎng)物體層次的相似性度量，而 mixed_8 層實(shí)現(xiàn)了最佳的權(quán)衡。聚類時(shí)采用 k 折聚類，并利用歐式距離移除異常部分。

結(jié)果

圖 2：ACE 對(duì)三個(gè) ImageNet 類的輸出。從每個(gè)類別的 top-4 重要概念中隨機(jī)選取了三個(gè)（下面是原圖，上面是從中分割出的示例）。例如，我們可以看到網(wǎng)絡(luò)分類器 police van 使用了警車的輪胎和 logo。

圖 5：對(duì)模型的洞察。每個(gè)圖像上方的文本表示原始類別以及我們對(duì)提取概念的主觀解釋，如「Volcano」類和「Lava」類。a）直觀關(guān)聯(lián)。b）非直觀關(guān)聯(lián)。c）一個(gè)物體的不同部分被作為多個(gè)獨(dú)立卻重要的概念。

圖 6：組合重要概念。

研究者測(cè)試，如果隨機(jī)組合多個(gè)重要概念，分類器會(huì)從中看到哪種類別。結(jié)果發(fā)現(xiàn)，對(duì)于大量類別而言，隨機(jī)組合重要概念后，分類器仍將該圖像預(yù)測(cè)為正確類別。例如，籃球衣、斑馬紋、獅子魚和王蛇的圖像塊足以使 Inception-V3 網(wǎng)絡(luò)正確預(yù)測(cè)其類別。

圖 4：重要性。

從 ImageNet 驗(yàn)證集中隨機(jī)采樣 1000 個(gè)圖像，研究者從最重要的概念中移除或添加概念。如圖所示，top-5 概念足以使分類結(jié)果達(dá)到原始分類準(zhǔn)確率的 80%，而移除 top-5 概念則導(dǎo)致 80% 的正確分類樣本遭到誤分類。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：長(zhǎng)沙7喜 > 《智能技術(shù)》

舉報(bào)/認(rèn)領(lǐng)