發(fā)布方:MIT CSAIL Computer Vision Group 發(fā)布時(shí)間:2016 背景:視覺場景的語義理解是計(jì)算機(jī)視覺的關(guān)鍵問題。盡管社區(qū)在數(shù)據(jù)收集方面做出了努力,但仍然很少有圖像數(shù)據(jù)集涵蓋廣泛的場景和對象類別,而且缺乏具有用于場景理解的逐像素注釋。 簡介:ADE20K涵蓋了場景、對象、對象部分的各種注釋,在某些情況下甚至是部分的部分。有25k張復(fù)雜日常場景的圖像,其中包含自然空間環(huán)境中的各種對象。每個(gè)圖像平均有19.5個(gè)實(shí)例和10.5個(gè)對象類。 1. 標(biāo)注數(shù)據(jù)量 ● 訓(xùn)練集:20210張圖像 ● 驗(yàn)證集:2000張圖像 ● 測試集:3000張圖像 2. 標(biāo)注類別 數(shù)據(jù)集的標(biāo)注包含三種視覺概念: ● 離散對象(discrete object),它是具有明確定義的形狀的事物,例如汽車、人; ● 包含無定形背景區(qū)域的東西(stuff),例如草、天空; ● 對象部分(object part),它是某些具有功能意義的現(xiàn)有對象實(shí)例的組件,例如頭部或腿部。 三種視覺概念共標(biāo)注類別3169類,其中離散對象和無定形背景區(qū)域的東西有2693類。對象部分有476類。 3. 可視化 ![]() 圖1:第一行顯示樣本圖像,第二行顯示對象的標(biāo)注,第三行顯示對象部分的標(biāo)注。顏色方案同時(shí)編碼對象類別和對象實(shí)例,即不同的對象類別具有較大的色差,而來自同一對象類別的不同實(shí)例具有較小的色差(例如,第一張圖像中的不同人實(shí)例具有略微不同的顏色)。 1. 場景解析場景解析是將整個(gè)圖像密集地分割成語義類,其中每個(gè)像素都被分配一個(gè)類標(biāo)簽,例如樹的區(qū)域和建筑物的區(qū)域。 ● 基準(zhǔn) 作者選擇 ADE20K 數(shù)據(jù)集中按其總像素比排名的前150個(gè)類別,并構(gòu)建 ADE20K 的場景解析基準(zhǔn),稱為 SceneParse150。 在150個(gè)類別中,有35個(gè)東西類(即墻壁、天空、道路)和115個(gè)離散對象類(即汽車、人、桌子)。150個(gè)類的標(biāo)注像素占數(shù)據(jù)集所有像素的92.75%,其中無定形背景區(qū)域的東西類占60.92%,離散對象類占31.83%。 結(jié)果以通常用于語義分割的四個(gè)指標(biāo)報(bào)告: - Pixel accuracy(像素精度):表示正確分類的像素的比例; - Mean accuracy(平均準(zhǔn)確度):表示在所有類別中平均正確分類的像素的比例; - Mean IoU(平均 IoU):表示預(yù)測像素和真實(shí)像素之間的交并比,在所有類上平均; - Weighted IoU(加權(quán)IoU):表示按每個(gè)類的總像素比加權(quán)的 IoU。 2. 實(shí)例分割實(shí)例分割是檢測圖像中的對象實(shí)例,并進(jìn)一步生成對象的精確分割掩碼。它與場景解析任務(wù)的不同之處在于,場景解析中沒有分割區(qū)域的實(shí)例概念,而在實(shí)例分割中,如果場景中有三個(gè)人,則需要網(wǎng)絡(luò)對每個(gè)人區(qū)域進(jìn)行分割。 ● 基準(zhǔn) 為了對實(shí)例分割的性能進(jìn)行基準(zhǔn)測試,作者從完整數(shù)據(jù)集中選擇了100個(gè)前景對象類別,將其稱為 InstSeg100。InstSeg100 中對象實(shí)例總數(shù)為 218K,平均每個(gè)對象類別有2.2K個(gè)實(shí)例,每個(gè)圖像有10個(gè)實(shí)例;除船舶外的所有對象都有超過100個(gè)實(shí)例。 結(jié)果以如下指標(biāo)報(bào)告: 一個(gè)總體度量平均精度 mAP,以及不同對象尺度上的度量,用mAP_S(小于32×32像素的對象)、mAP_M(在32×32和96×96像素之間)和 mAP_L(大于96×96像素)。 目錄結(jié)構(gòu):(語言:Python) ADE20K_2021_17_01/ <filename>.json文件格式:
圖2: index_ade20k.pkl 文件用Python打開后的格式 index_ade20k.pkl 里各個(gè)字段含義: 'folder':包含圖像文件夾名稱的長度為 N 的數(shù)組。 'objectIsPart':是對象部分的對象類別. 大小為 [C, N] 的數(shù)組,計(jì)算一個(gè)對象在每個(gè)圖像中成為一部分的次數(shù)。objectIsPart[c,i]=m 如果在圖像 i 中對象類 c 是另一個(gè)對象的一部分 m 次。 'objectPresence':大小為 [C, N] 的數(shù)組,每個(gè)圖像的對象計(jì)數(shù)。objectPresence(c,i)=n 如果在圖像 i 中有 n 個(gè)對象類 c 的實(shí)例。 'objectcounts':長度為 C 的數(shù)組,每個(gè)對象類的實(shí)例數(shù)。 'objectnames':帶有對象類名的長度為 C 的數(shù)組。 'proportionClassIsPart':長度為 C 的數(shù)組,其中 c 類作為一部分的次數(shù)比例。如果 ratioClassIsPart[c]=0 則意味著這是一個(gè)主要對象(例如,汽車、椅子……)。 'scene':長度為 N 的數(shù)組,為每個(gè)圖像提供場景名稱(與 Places 數(shù)據(jù)庫相同的類) 'wordnet_found':長度為 C 的數(shù)組。它表示是否在 Wordnet 中找到了對象名。 'wordnet_level1':長度為C 的列表。WordNet 關(guān)聯(lián)的列表。 'wordnet_synset':長度為 C 的列表。每個(gè)對象名稱的 WordNet 同義詞集。 'wordnet_hypernym':長度為 C 的列表。每個(gè)對象名稱的 WordNet 上位詞列表。 'wordnet_gloss':長度為 C 的列表。存的是WordNet同義詞集合對應(yīng)的定義。 'wordnet_frequency':長度為 C 的數(shù)組。每個(gè)WordNet同義詞集合出現(xiàn)的次數(shù)。 'description':對index ade20k.pkl中每個(gè)字段的描述。 ADE20K 2021數(shù)據(jù)集 https:///120 參考資料: [1]官網(wǎng):https://groups.csail./vision/datasets/ADE20K/ [2]論文:Semantic Understanding of Scenes through ADE20K Dataset. Bolei Zhou, Hang Zhao, Xavier Puig, Tete Xiao, Sanja Fidler, Adela Barriuso and Antonio Torralba. International Journal on Computer Vision (IJCV).[PDF] [3]Github:https://github.com/CSAILVision/ADE20K |
|