本文內(nèi)容來源于《測繪學(xué)報》2024年第10期(審圖號GS京(2024)2165號)
張永軍1, 李彥勝1, 黨博1, 武康1, 郭昕2, 王劍2, 陳景東2, 楊銘2
1.武漢大學(xué)遙感信息工程學(xué)院,湖北 武漢 430079
2.螞蟻集團,浙江 杭州 310013
摘要:遙感對地觀測能力的穩(wěn)步提升為遙感基礎(chǔ)大模型的涌現(xiàn)和發(fā)展奠定了數(shù)據(jù)基礎(chǔ)。針對不同數(shù)據(jù)及任務(wù)類型,設(shè)計不同的深度網(wǎng)絡(luò)骨架及優(yōu)化方法必將浪費大量人力物力。為了解決上述問題,國內(nèi)外研究學(xué)者轉(zhuǎn)入遙感基礎(chǔ)大模型研究,并提出了大量優(yōu)秀統(tǒng)一模型。為提高遙感基礎(chǔ)大模型的泛化性和可解釋性,引入泛在的地學(xué)知識被認為是一項關(guān)鍵技術(shù)。目前,已有相關(guān)工作在遙感基礎(chǔ)大模型的結(jié)構(gòu)設(shè)計或預(yù)訓(xùn)練方法中挖掘或整合了地學(xué)知識,但尚無文獻系統(tǒng)性闡述和總結(jié)地學(xué)知識引導(dǎo)的遙感基礎(chǔ)大模型的研究現(xiàn)狀。因此,本文首先對大規(guī)模遙感基礎(chǔ)模型預(yù)訓(xùn)練數(shù)據(jù)集進行了歸納和總結(jié),并分類回顧了遙感基礎(chǔ)大模型的研究進展;然后,介紹了地學(xué)知識引導(dǎo)的遙感影像智能解譯算法以及面向遙感基礎(chǔ)大模型的地學(xué)知識挖掘與利用進展;最后,針對該領(lǐng)域仍然面臨的挑戰(zhàn)提出了幾點未來研究展望,旨在為遙感基礎(chǔ)大模型的未來研究提供探索方向參考。
關(guān)鍵詞: 預(yù)訓(xùn)練數(shù)據(jù)集; 遙感智能解譯; 遙感基礎(chǔ)大模型; 地學(xué)知識
基金項目
國家自然科學(xué)基金 ( 42030102; 42371321 ) 作者簡介
張永軍(1975—),男,博士,教授,研究方向為航空航天攝影測量與遙感影像智能解譯。E-mail:zhangyj@whu.edu.cn
通信作者: 李彥勝 E-mail:yansheng.li@whu.edu.cn 本文引用格式
張永軍, 李彥勝, 黨博, 武康, 郭昕, 王劍, 陳景東, 楊銘. 多模態(tài)遙感基礎(chǔ)大模型:研究現(xiàn)狀與未來展望 [J]. 測繪學(xué)報, 2024, 53(10): 1942-1954 doi:10.11947/j.AGCS.2024.20240019. ZHANG Yongjun, LI Yansheng, DANG Bo, WU Kang, GUO Xin, WANG Jian, CHEN Jingdong, YANG Ming. Multi-modal remote sensing large foundation models: current research status and future prospect [J]. Acta Geodaetica et Cartographica Sinica , 2024, 53(10): 1942-1954 doi:10.11947/j.AGCS.2024.20240019. 全文閱讀
http://xb./article/2024/1001-1595/1001-1595-2024-10-1942.shtml
在遙感大數(shù)據(jù)時代,爆炸式增長的遙感影像數(shù)據(jù)為地球觀測信息提取及知識發(fā)現(xiàn)帶來了新的挑戰(zhàn)和機遇[ 1 ]。目前,深度學(xué)習(xí)等先進人工智能技術(shù)能夠從海量的多模態(tài)、多尺度、多時相遙感數(shù)據(jù)中自動學(xué)習(xí)特征表達與判別模型,進而提高遙感解譯任務(wù)的效率和準確性。雖然眾多任務(wù)特定的智能遙感解譯算法已經(jīng)被提出并在特定應(yīng)用場景上取得了一定的進展[ 2 - 5 ],但是任務(wù)之間的差異和任務(wù)特定解譯模型的有限泛化能力使得每項任務(wù)都需要投入大量資源構(gòu)建任務(wù)特定,甚至是場景特定的解譯模型,導(dǎo)致算法解譯效率低下和泛化應(yīng)用困難。
近期,隨著各類自然語言大模型、視覺基礎(chǔ)大模型、多模態(tài)基礎(chǔ)大模型的涌現(xiàn)和發(fā)展[ 6 - 8 ],基礎(chǔ)大模型在各個領(lǐng)域的探索成為研究熱點。鑒于任務(wù)特定遙感解譯模型的適用局限,許多學(xué)者開始探索針對地球觀測任務(wù)的遙感基礎(chǔ)大模型構(gòu)建與應(yīng)用。遙感基礎(chǔ)大模型旨在利用大量未標注的遙感數(shù)據(jù)進行預(yù)訓(xùn)練,創(chuàng)建一個任務(wù)通用模型,即從大規(guī)模遙感數(shù)據(jù)中學(xué)習(xí)通用特征表達模型。進一步,通過遷移學(xué)習(xí)提高多種下游遙感解譯任務(wù)的性能和效率[ 9 - 11 ]。然而,在遙感對地觀測這個具有高度復(fù)雜性的領(lǐng)域中,僅依賴深度網(wǎng)絡(luò)非線性映射模型難以全面理解地球的復(fù)雜特征,地學(xué)知識的挖掘與運用顯得愈加關(guān)鍵。地學(xué)知識不僅包括豐富的時空信息、地形地貌等測繪地理信息數(shù)據(jù),還涵蓋了場景先驗知識(如開放街道地圖等)及領(lǐng)域?qū)<抑R(如領(lǐng)域常識等)。
目前,已經(jīng)有一些遙感基礎(chǔ)大模型開始嘗試引入地學(xué)知識。具體來說,早期工作嘗試利用時空信息(如成像時間和地理坐標)進行預(yù)訓(xùn)練算法建模[ 12 - 14 ]。后來,研究學(xué)者將地學(xué)產(chǎn)品嵌入基礎(chǔ)模型預(yù)訓(xùn)練過程,利用公開獲取的土地覆蓋分類產(chǎn)品提供的地學(xué)知識優(yōu)化基礎(chǔ)模型[ 15 - 16 ]。結(jié)合地學(xué)參量約束模型參數(shù)更新也被驗證是有效的[ 17 ]。最近,筆者所在團隊提出的SkySense[ 18 ]通過對地理位置特定的大規(guī)模多模態(tài)時序遙感影像進行無監(jiān)督學(xué)習(xí),可以隱式挖掘時空敏感的地學(xué)知識,輔助提升解譯精度??傮w來說,上述方法涵蓋了多樣化地學(xué)知識整合方式,為提高模型性能和可解釋性提供了有效途徑。隨著地學(xué)知識引導(dǎo)的強化,遙感基礎(chǔ)大模型有望能夠更好地適應(yīng)不同地域、不同地貌、不同尺度、不同模態(tài)的智能遙感解譯需求。
本文首先系統(tǒng)總結(jié)了當前用于遙感基礎(chǔ)大模型預(yù)訓(xùn)練的大規(guī)模數(shù)據(jù)集情況;其次,回顧了遙感視覺基礎(chǔ)大模型、遙感視覺-語言基礎(chǔ)大模型、遙感視覺-地理位置基礎(chǔ)大模型等4個方向的研究進展;然后,分析了當前面向遙感基礎(chǔ)大模型的地學(xué)知識挖掘與利用的研究現(xiàn)狀;最后,給出了遙感基礎(chǔ)大模型發(fā)展面臨的挑戰(zhàn)與未來研究的幾點展望。
張永軍1, 李彥勝1, 黨博1, 武康1, 郭昕2, 王劍2, 陳景東2, 楊銘2
1.武漢大學(xué)遙感信息工程學(xué)院,湖北 武漢 430079
2.
摘要
關(guān)鍵詞:
基金項目
作者簡介
張永軍(1975—),男,博士,教授,研究方向為航空航天攝影測量與遙感影像智能解譯。E-mail:
本文引用格式
全文閱讀
http://xb./article/2024/1001-1595/1001-1595-2024-10-1942.shtml
1 大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)集
大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)是基礎(chǔ)大模型的數(shù)據(jù)引擎。研究表明,在廣泛而多樣化的數(shù)據(jù)上進行預(yù)訓(xùn)練對于模型學(xué)習(xí)判別性通用特征表示具有顯著促進作用[ 19 - 21 ],有助于加速預(yù)訓(xùn)練模型在各種下游任務(wù)的微調(diào)收斂過程,減少對有標簽數(shù)據(jù)的依賴,進而提升任務(wù)性能。這種任務(wù)通用的特征表示為模型在理解和處理不同場景數(shù)據(jù)時提供了堅實的基礎(chǔ),使其具備強大的泛化能力。在遙感領(lǐng)域,已有一系列相關(guān)研究致力于構(gòu)建大規(guī)模預(yù)訓(xùn)練遙感數(shù)據(jù)集。根據(jù)數(shù)據(jù)模態(tài)的不同,接下來對大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)集進行了歸納和總結(jié)。
1.1 遙感視覺預(yù)訓(xùn)練數(shù)據(jù)集
如 表1 所示,目前已經(jīng)涌現(xiàn)出大量各具特色的遙感視覺預(yù)訓(xùn)練數(shù)據(jù)集。在這些數(shù)據(jù)集中,MillionAID[ 22 ]和SatlasPretrain[ 23 ]包含了超高分辨率衛(wèi)星影像,但僅涵蓋可見光波段。通過這些數(shù)據(jù)集訓(xùn)練的遙感基礎(chǔ)模型可能在依賴豐富光譜信息的任務(wù)(如農(nóng)作物識別)等方面存在一定的缺陷。然而,超高分辨率影像所包含的細節(jié)紋理信息使得預(yù)訓(xùn)練模型在基于高分影像的實例分割、目標檢測等下游任務(wù)上具有一定優(yōu)勢。相比之下,fMoW[ 24 ]、SeCo[ 12 ]等數(shù)據(jù)集利用哨兵2號獲得的中分辨率多光譜影像作為數(shù)據(jù)源。眾所周知,遙感觀測數(shù)據(jù)包括多種模態(tài)影像類型,這些數(shù)據(jù)具有獨特的優(yōu)勢和相互補充的特性。如,光學(xué)圖像提供了豐富的光譜信息和紋理細節(jié),但容易受到天氣及云層的影響。合成孔徑雷達傳感器能夠在惡劣的天氣條件下成像。為了滿足更多需要依賴多種模態(tài)信息的下游任務(wù),BigEarthNet-MM[ 25 ]和SSL4EO-S12[ 26 ]數(shù)據(jù)集致力于構(gòu)建成對的合成孔徑雷達-多光譜影像數(shù)據(jù)集。這類數(shù)據(jù)集旨在提供更全面、多樣化的信息,以支持多模態(tài)遙感基礎(chǔ)大模型的訓(xùn)練和性能提升,有望促進多模態(tài)遙感技術(shù)的進步,使其在實際應(yīng)用中更為靈活和有效。
表1 大規(guī)模遙感視覺預(yù)訓(xùn)練數(shù)據(jù)集
Tab.1 Large-scale remote sensing vision pre-training datasets
數(shù)據(jù)集 圖像數(shù)量 圖像大小/像素 空間分辨率/m 圖像類型 圖像數(shù)據(jù)源 覆蓋地理位置 fMoW[24] 1 047 691 — — 多光譜(4/8波段) Digital Globe 全球 SEN12MS[27] 180 662 256 10 合成孔徑雷達-多光譜 哨兵1號、哨兵2號 全球 BigEarthNet-MM[25] 1 180 652 20~120 10~60 合成孔徑雷達-多光譜 哨兵1號、哨兵2號 歐洲 MillionAID[22] 1 000 848 110~31 672 0.5~153 可見光 Google Earth — SeCo[12] 1 000 000 — 10 多光譜 哨兵2號 全球 fMoW-Sentinel[28] 882 779 45~60 10 多光譜(13波段) 哨兵2號 全球 TOV-RS-Balanced[20] 500 000 600 1~20 可見光 Google Earth - SSL4EO-S12[26] 3 012 948 20~120 10~60 合成孔徑雷達-多光譜 哨兵1號、哨兵2號 全球 SSL4EO-L[29] 5 000 000 264 30 多光譜 Landsat4-5,7-9 全球 SatlasPretrain[23] 856 000 512 0.5~2,10 可見光&多光譜 NAIP、哨兵2號 全球
新窗口打開| 下載CSV
表1 大規(guī)模遙感視覺預(yù)訓(xùn)練數(shù)據(jù)集
Tab.1
數(shù)據(jù)集 | 圖像數(shù)量 | 圖像大小/像素 | 空間分辨率/m | 圖像類型 | 圖像數(shù)據(jù)源 | 覆蓋地理位置 |
---|---|---|---|---|---|---|
fMoW[24] | 1 047 691 | — | — | 多光譜(4/8波段) | Digital Globe | 全球 |
SEN12MS[27] | 180 662 | 256 | 10 | 合成孔徑雷達-多光譜 | 哨兵1號、哨兵2號 | 全球 |
BigEarthNet-MM[25] | 1 180 652 | 20~120 | 10~60 | 合成孔徑雷達-多光譜 | 哨兵1號、哨兵2號 | 歐洲 |
MillionAID[22] | 1 000 848 | 110~31 672 | 0.5~153 | 可見光 | Google Earth | — |
SeCo[12] | 1 000 000 | — | 10 | 多光譜 | 哨兵2號 | 全球 |
fMoW-Sentinel[28] | 882 779 | 45~60 | 10 | 多光譜(13波段) | 哨兵2號 | 全球 |
TOV-RS-Balanced[20] | 500 000 | 600 | 1~20 | 可見光 | Google Earth | - |
SSL4EO-S12[26] | 3 012 948 | 20~120 | 10~60 | 合成孔徑雷達-多光譜 | 哨兵1號、哨兵2號 | 全球 |
SSL4EO-L[29] | 5 000 000 | 264 | 30 | 多光譜 | Landsat4-5,7-9 | 全球 |
SatlasPretrain[23] | 856 000 | 512 | 0.5~2,10 | 可見光&多光譜 | NAIP、哨兵2號 | 全球 |
新窗口打開| 下載CSV
1.2 遙感視覺-語言預(yù)訓(xùn)練數(shù)據(jù)集
目前,能夠用于訓(xùn)練遙感視覺-語言基礎(chǔ)大模型的數(shù)據(jù)集較少,其數(shù)據(jù)規(guī)模相對有限。如 表2 所示,多數(shù)預(yù)訓(xùn)練數(shù)據(jù)集集中于提供圖像-文本描述。
表2 大規(guī)模遙感視覺-語言預(yù)訓(xùn)練數(shù)據(jù)集
Tab.2 Large-scale remote sensing vision-language pre-training datasets
數(shù)據(jù)集 數(shù)量 屬性 RSICD[30] 24 333個文本描述、10 921張遙感影像 圖像-文本描述 RSITMD[31] 23 715個文本描述、4743張遙感影像 圖像-文本描述 RSVGD[32] 38 320個語言表達、17 402張遙感影像 視覺定位 RS5M[33] 500萬個圖像文本對 圖像-文本描述 RSICap[34] 2585個圖像文本對 圖像-文本描述 文獻[35] 828 725個圖像文本對 圖像-文本描述 文獻[36] 318 000個圖像指令提示對 圖像-文本描述、定位描述、區(qū)域描述、復(fù)雜對話
新窗口打開| 下載CSV
具體來說,早期的遙感圖像-文本描述數(shù)據(jù)集多為特定任務(wù)構(gòu)建[ 30 - 32 ],其中的文本描述較為簡短,包含的有限語義信息不足以訓(xùn)練泛化性強的基礎(chǔ)模型。RSICap[ 34 ]致力于創(chuàng)建高質(zhì)量圖像-文本描述信息,其中,每幅遙感影像帶有場景、目標形狀、目標絕對位置、相對位置、顏色和數(shù)量等細節(jié)信息的描述。文獻[ 35 ]設(shè)計了“掩碼轉(zhuǎn)定位框”“定位框轉(zhuǎn)文本描述”的轉(zhuǎn)換流程,將遙感領(lǐng)域常用的3個圖像檢索數(shù)據(jù)集、10個目標檢測數(shù)據(jù)集、4個語義分割數(shù)據(jù)集轉(zhuǎn)換為圖像-文本描述數(shù)據(jù)對,有效提升了遙感視覺-語言基礎(chǔ)大模型的預(yù)訓(xùn)練數(shù)據(jù)多樣性。相似地,文獻[ 36 ]整合了一些遙感視覺問答、目標檢測數(shù)據(jù)集,將其重構(gòu)成圖像-文本描述、定位描述和復(fù)雜對話等形式,以滿足多功能對話智能體訓(xùn)練的需求。
表2 大規(guī)模遙感視覺-語言預(yù)訓(xùn)練數(shù)據(jù)集
Tab.2
數(shù)據(jù)集 | 數(shù)量 | 屬性 |
---|---|---|
RSICD[30] | 24 333個文本描述、10 921張遙感影像 | 圖像-文本描述 |
RSITMD[31] | 23 715個文本描述、4743張遙感影像 | 圖像-文本描述 |
RSVGD[32] | 38 320個語言表達、17 402張遙感影像 | 視覺定位 |
RS5M[33] | 500萬個圖像文本對 | 圖像-文本描述 |
RSICap[34] | 2585個圖像文本對 | 圖像-文本描述 |
文獻[35] | 828 725個圖像文本對 | 圖像-文本描述 |
文獻[36] | 318 000個圖像指令提示對 | 圖像-文本描述、定位描述、區(qū)域描述、復(fù)雜對話 |
新窗口打開| 下載CSV
2 遙感基礎(chǔ)大模型
本文將遙感基礎(chǔ)大模型歸納分為4類:遙感視覺基礎(chǔ)大模型、遙感視覺-語言基礎(chǔ)大模型、遙感視覺-地理位置基礎(chǔ)大模型、遙感生成式基礎(chǔ)大模型。 圖1 展示了每種類型的遙感基礎(chǔ)大模型所適應(yīng)的典型下游任務(wù)。后續(xù),本節(jié)將逐個類別回顧相關(guān)研究的前沿進展。
圖1

圖1 遙感基礎(chǔ)大模型分類及典型適用的下游任務(wù)
Fig.1 Classification of remote sensing foundation models and typical downstream tasks
圖1 遙感基礎(chǔ)大模型分類及典型適用的下游任務(wù)
Fig.1 Classification of remote sensing foundation models and typical downstream tasks
2.1 遙感視覺基礎(chǔ)大模型
在計算機視覺領(lǐng)域,視覺基礎(chǔ)模型的研究重點已經(jīng)從早期的利用大量標記數(shù)據(jù)的監(jiān)督學(xué)習(xí)[ 37 - 38 ](如在ImageNet數(shù)據(jù)集上進行預(yù)訓(xùn)練)發(fā)展到最近的對比學(xué)習(xí)范式[ 39 - 41 ](在大規(guī)模未標記圖像上開展無監(jiān)督預(yù)訓(xùn)練)。隨著自然語言處理領(lǐng)域中大語言模型的巨大成功[ 42 ],掩碼圖像建模方法(如MAE[ 43 ]、BEiT[ 44 ]等)受到廣泛關(guān)注。研究指出[ 45 ],基于對比學(xué)習(xí)的模型關(guān)注全局結(jié)構(gòu)和形狀等低頻空間信息,而基于掩碼圖像建模的模型則更加側(cè)重于挖掘高頻空間信息(如局部結(jié)構(gòu)和精細的紋理)。ibot、DINOv2[ 46 - 47 ]成功地結(jié)合了上述兩種范式的優(yōu)勢,取得了先進的性能表現(xiàn)。
相較于自然圖像,遙感影像往往附帶時空地理元信息,并呈現(xiàn)出不同的空間尺度。遙感領(lǐng)域?qū)<覍W(xué)者利用遙感數(shù)據(jù)的時空基準信息改造基礎(chǔ)模型,將其擴展應(yīng)對遙感數(shù)據(jù)分析。如,GASSL[ 48 ]利用地理位置預(yù)測作為MoCo-v2框架中的額外代理任務(wù)。SeCo[ 12 ]和CACo[ 13 ]通過使用時間序列的時空結(jié)構(gòu)來感知影像中地物的短期和長期變化。文獻[ 20 ]使用 自然圖像和遙感圖像作為初步和后續(xù)的預(yù)訓(xùn)練數(shù)據(jù),構(gòu)建正、負樣本對進行對比學(xué)習(xí),試驗結(jié)果表明預(yù)訓(xùn)練數(shù)據(jù)的類別平衡性對于預(yù)訓(xùn)練模型學(xué)習(xí)有效通用表征是十分關(guān)鍵的。MATTER[ 49 ]對照明和視角不變性進行建模,以確保紋理在不變區(qū)域上的一致表示。DINO-MC[ 50 ]則利用不同大小的多個視圖在DINO框架[ 51 ]內(nèi)進行自監(jiān)督學(xué)習(xí)。
此外,許多研究致力于改進基于掩碼圖像建模的框架,或者探索模型規(guī)模擴展[ 52 ]以及模型輕量化部署[ 53 ]。在可見光遙感影像為預(yù)訓(xùn)練數(shù)據(jù)的背景下,文獻[ 54 ]提出了旋轉(zhuǎn)可變大小窗口注意力方法處理遙感圖像中大尺寸和任意方向的地物,并利用MillionAID設(shè)計了遙感億級參數(shù)量的視覺大模型。RingMo[ 55 ]對MAE進行修改,更好地應(yīng)對遙感影像密集目標檢測任務(wù)。Scale-MAE[ 56 ]構(gòu)建了一個帶有尺度感知位置編碼和拉普拉斯金字塔解碼器的框架,實現(xiàn)了多尺度解碼低頻和高頻特征。對于擁有更加豐富光譜信息的多光譜遙感影像數(shù)據(jù),SpectralGPT[ 57 ]將多光譜圖像作為3D張量數(shù)據(jù)進行掩碼圖像建模,提出多目標重建損失,有效捕捉空間光譜耦合特征和光譜順序信息。考慮到衛(wèi)星傳感器能夠以非規(guī)則和一定頻率獲取某一地點的時序多光譜影像,Prithiv[ 58 ]將常規(guī)的2D位置編碼適應(yīng)性改造為3D版本,由于其具有處理遙感時序數(shù)據(jù)的能力,該模型被成功應(yīng)用于洪水檢測、多時相農(nóng)作物分割等場景。相似地,SatMAE[ 28 ]則利用時序多光譜數(shù)據(jù)來提高和驗證基礎(chǔ)模型處理時間序列的表現(xiàn)。為解決多光譜影像引起顯存占用大的問題,現(xiàn)有遙感基礎(chǔ)模型無法應(yīng)對任意波段數(shù)據(jù)輸入的缺陷,USat[ 59 ]首先對光學(xué)遙感影像的每個波段獨立編碼,然后使用光譜組池化操作聚合不同光譜波段的信息,同時保留不同空間分辨率的圖像地理位置對齊位置編碼。文獻[ 17 ]借鑒掩碼圖像建模思想,提出特征引導(dǎo)的掩碼自編碼器,分別利用多光譜和合成孔徑雷達影像重建人工特征描述符(如歸一化指數(shù)、方向梯度直方圖),結(jié)果表明相較于直接重建圖像通過重建抽象特征可以獲得更好的特征學(xué)習(xí)能力。
近期,CMID[ 21 ]、GFM[ 60 ]、Cross-Scale MAE[ 61 ]等研究將對比學(xué)習(xí)范式與掩碼圖像重建范式相結(jié)合,在場景分類、目標檢測、語義分割、變化檢測等眾多圖像級、對象級、像素級的典型遙感解譯任務(wù)中展現(xiàn)出明顯性能優(yōu)勢。類似地,CtxMIM[ 62 ]則在重建掩碼圖像損失的基礎(chǔ)上增加上下文一致性約束,以提供額外的上下文信息。與大多數(shù)基礎(chǔ)模型采用自監(jiān)督預(yù)訓(xùn)練方法不同,SatLas[ 23 ]依托自建的具有豐富標注類型的大規(guī)模數(shù)據(jù)集SatlasPretrain進行有監(jiān)督預(yù)訓(xùn)練,并將模型應(yīng)用于熱帶雨林砍伐檢測、可再生能源基礎(chǔ)設(shè)施檢測等任務(wù)。文獻[ 63 ]面向遙感時空預(yù)測任務(wù)設(shè)計了包含空間、時間、時空建模3個分支的基礎(chǔ)模型,并在雷達回波外推、衛(wèi)星視頻多目標跟蹤和遙感視頻預(yù)測等下游任務(wù)中取得了具有競爭力的結(jié)果。
除了僅依靠單模態(tài)圖像預(yù)訓(xùn)練的工作外,CROMA[ 64 ]和De-CUR[ 65 ]研究了使用靜態(tài)影像進行單模態(tài)和多模態(tài)圖像源的多模態(tài)預(yù)訓(xùn)練。Presto[ 66 ]同時利用時間和地理位置信息,聯(lián)合多光譜、合成孔徑雷達、高程等多模態(tài)信息訓(xùn)練了輕量級基礎(chǔ)模型。遺憾的是,Presto的預(yù)訓(xùn)練數(shù)據(jù)未包含高分辨率衛(wèi)星圖像,且缺乏在基于高分辨率影像的下游任務(wù)上廣泛的測試以驗證模型的泛化性。文獻[ 67 ]則關(guān)注到跨模態(tài)協(xié)同解譯中異構(gòu)模態(tài)特征的空間相關(guān)性問題,采用不同的度量空間(即歐氏空間、復(fù)數(shù)空間和雙曲空間)提取不同模態(tài)圖像的特征,然后采用統(tǒng)一的編碼器進行多模態(tài)特征融合。筆者所在團隊則發(fā)展了目前參數(shù)量規(guī)模最大的多模態(tài)時序遙感基礎(chǔ)大模型——SkySense[ 18 ](20億參數(shù)量),通過時空解耦、時間感知嵌入等機制聯(lián)合高分光學(xué)遙感影像、時序光學(xué)遙感影像、時序合成孔徑雷達影像等多模態(tài)數(shù)據(jù)進行多粒度對比學(xué)習(xí)。值得說明的是,靈活可插拔性和通用特征的強大泛化性使得SkySense在涵蓋單模態(tài)圖像級分類、目標級檢測、像素級分割以及多模態(tài)農(nóng)作物時序分類等8項任務(wù)(共計16個數(shù)據(jù)集)中均取得了最先進的水平。
2.2 遙感視覺-語言基礎(chǔ)大模型
在自然語言處理領(lǐng)域,大型語言基礎(chǔ)模型在自然語言理解、文本生成、智能問答等任務(wù)中取得了顯著的成效[ 68 ]。特別是ChatGPT取得的巨大成功進一步推動了相關(guān)研究的發(fā)展。視覺-語言基礎(chǔ)模型則集成了圖像的視覺感知信息和語言的語義信息,旨在從視覺與語言的相互關(guān)系中學(xué)習(xí)通用特征,以更好地完成復(fù)雜場景的理解任務(wù)[ 11 ]。
在遙感領(lǐng)域,已有學(xué)者開始視覺-語言基礎(chǔ)大模型相關(guān)研究工作。文獻[ 69 ]專注于探索前沿的基礎(chǔ)大模型(如GPT-4V等)在地理空間領(lǐng)域相關(guān)任務(wù)上的表現(xiàn),為后續(xù)的研究提供基準參考。文獻[ 34 ]利用構(gòu)建的RSICap數(shù)據(jù)集微調(diào)了InstructionBLIP模型得到RSGPT模型,并在圖像描述生成、視覺問答任務(wù)中顯示出具有潛力的效果。RemoteCLIP[ 35 ]則采用對比語言-圖像預(yù)訓(xùn)練(CLIP)方法在創(chuàng)建的視覺-語言數(shù)據(jù)集上進行了訓(xùn)練,獲得的預(yù)訓(xùn)練模型在跨模態(tài)檢索、零/少樣本圖像分類、目標計數(shù)等下游任務(wù)中進行了評估。GeoChat[ 36 ]致力于構(gòu)建一個允許用戶對給定的遙感影像視覺內(nèi)容進行對話的多功能視覺-語言基礎(chǔ)模型,能夠完成圖像級、區(qū)域級(指定圖像中的特定區(qū)域)、定位式的對話任務(wù)。遺憾的是,目前GeoChat僅支持高分辨率的可見光影像,局限了其在眾多下游場景的普適性。由于基于衛(wèi)星影像的圖像文本標注過程需要專家知識的干預(yù),成本消耗巨大,目前已有的圖像-文本描述數(shù)據(jù)相較于計算機視覺領(lǐng)域規(guī)模小很多。最近,GRAFT[ 70 ]考慮利用大規(guī)模帶有地理位置信息的互聯(lián)網(wǎng)數(shù)據(jù)作為數(shù)據(jù)中介,通過訓(xùn)練對齊相同地理位置的衛(wèi)星影像和互聯(lián)網(wǎng)圖像的視覺特征,從衛(wèi)星影像中抽取的視覺特征、互聯(lián)網(wǎng)圖像對應(yīng)的視覺特征與已經(jīng)訓(xùn)練好的文本語義特征共享至同一特征空間,從而在不需要文本標注的條件下實現(xiàn)影像編碼與文本編碼的關(guān)聯(lián)。這大大降低了遙感視覺-語言模型訓(xùn)練的數(shù)據(jù)標注成本,為該方向提供了一個思路。此外,筆者所在團隊創(chuàng)建了一個大規(guī)模遙感場景圖數(shù)據(jù)集STAR[ 71 ],并在此基礎(chǔ)上延伸拓展出細粒度視覺-語言指令微調(diào)數(shù)據(jù)集FIT-RS及相應(yīng)的視覺-語言基礎(chǔ)模型SkySenseGPT[ 72 ]。SkySenseGPT具有對實例間關(guān)系的細粒度感知能力,能夠基于用戶指令完成復(fù)雜的圖文交互任務(wù)。
2.3 遙感視覺-地理位置基礎(chǔ)大模型
區(qū)別于遙感視覺基礎(chǔ)大模型以遙感影像為中心,遙感視覺-地理位置基礎(chǔ)模型則以地理位置為核心,旨在從衛(wèi)星影像中學(xué)習(xí)出對應(yīng)于特定地理位置相關(guān)的通用特征表示。考慮到大量遙感數(shù)據(jù)包含了對應(yīng)的地理位置信息,預(yù)訓(xùn)練后的位置編碼器能夠廣泛應(yīng)用于自然環(huán)境和社會經(jīng)濟等任務(wù),如生物群落分類、人口密度回歸等與地理位置相關(guān)的任務(wù)。
在計算機視覺領(lǐng)域中,一些學(xué)者采用了配對的自然圖像和GPS數(shù)據(jù)訓(xùn)練位置編碼器,以解決全球圖像地理定位的挑戰(zhàn)。如,GeoCLIP[ 73 ]設(shè)計了位置編碼器,將GPS坐標映射為高維特征嵌入,并使用經(jīng)過預(yù)訓(xùn)練的CLIP模型[ 6 ]作為圖像編碼器提取圖像特征。隨后,該研究將位置特征與圖像特征映射到共享嵌入空間進行對比學(xué)習(xí)。不同地理位置的遙感影像的視覺特征受到與地理位置相關(guān)的氣候、人口密度等自然環(huán)境和社會因素的密切影響。在這一背景下,CSP[ 74 ]采用多種方式構(gòu)造正負樣本對,并通過遙感數(shù)據(jù)集預(yù)訓(xùn)練后的圖像編碼器與提出的位置編碼器進行對比學(xué)習(xí)。SatCLIP[ 14 ]則致力于捕捉全球不同地區(qū)的哨兵2號衛(wèi)星影像的空間異質(zhì)性,通過對比預(yù)訓(xùn)練的方式學(xué)習(xí)位置編碼特征表示。相關(guān)試驗證明,SatCLIP模型的位置編碼器成功學(xué)習(xí)到了與特定區(qū)域的社會經(jīng)濟與環(huán)境等因素高度相關(guān)的特征表示。上述技術(shù)為進一步深入分析地理位置與遙感影像之間的關(guān)聯(lián)提供了有力支持。
2.4 遙感生成式基礎(chǔ)大模型
遙感影像超分辨率重建、云去除等生成式解譯方法能夠幫助人類更完整、更細致地觀察地表自然環(huán)境和人類活動的變化,吸引了眾多學(xué)者的關(guān)注[ 4 , 75 ]。然而,先前的研究主要集中在為特定生成任務(wù)設(shè)計專用模型上,導(dǎo)致在實際應(yīng)用中靈活性和通用性相對不足。穩(wěn)定擴散模型(stable diffusion)在圖像重建、視頻生成等任務(wù)上取得顯著進展,這使得諸多學(xué)者將其應(yīng)用于多種遙感圖像生成式任務(wù),并取得了一定的進展。文獻[ 76 ]采用文本描述、遙感影像以及附帶的地理元信息(包括地理坐標、成像時間、空間分辨率等)訓(xùn)練了遙感生成式基礎(chǔ)模型DiffusionSat。該模型在單個遙感圖像生成、多光譜圖像超分辨率重建、時序圖像生成和圖像修復(fù)等多個下游任務(wù)上取得了先進的性能表現(xiàn)。文獻[ 77 ]則采用預(yù)訓(xùn)練擴散模型學(xué)習(xí)公開地圖數(shù)據(jù),可以生成視覺效果逼真、地物類別可控的合成衛(wèi)星圖像。該技術(shù)可以為數(shù)據(jù)缺失任務(wù)場景補充額外樣本數(shù)據(jù)。盡管目前遙感生成式基礎(chǔ)大模型仍處于初步發(fā)展階段,研究成果相對較少,但其應(yīng)用潛力巨大,預(yù)計將吸引更多學(xué)者深入研究。未來,我們可以期待這一領(lǐng)域的快速發(fā)展,為遙感生成式解譯提供更為靈活、通用且性能卓越的模型。
3 地學(xué)知識引導(dǎo)的遙感基礎(chǔ)大模型
地學(xué)知識主要包括地表人類活動與自然演變呈現(xiàn)的規(guī)律性時空先驗信息和領(lǐng)域?qū)<抑R[ 78 ]。基于深度學(xué)習(xí)的智能遙感解譯模型往往以數(shù)據(jù)驅(qū)動為主,解譯模型的泛化性較低,同時缺乏足夠的可解釋性。為了彌補這一不足,引入地學(xué)知識成為提升解譯模型性能的有效手段。本節(jié)首先回顧了地學(xué)知識引導(dǎo)的智能遙感解譯技術(shù),然后著重探討了地學(xué)知識在提高智能遙感解譯模型性能和可解釋性等方面的潛在作用,最后對目前遙感基礎(chǔ)大模型挖掘和利用地學(xué)知識的方法進行了分類闡述,旨在為未來相關(guān)研究提供參考和啟示。
3.1 地學(xué)知識引導(dǎo)的遙感智能解譯方法
近年來,面向遙感影像智能解譯的地學(xué)知識引導(dǎo)技術(shù)受到國內(nèi)外研究學(xué)者的廣泛關(guān)注。在這一方向,筆者所在團隊取得了若干研究進展[ 79 - 85 ]。
(1)利用自然語言嵌入模型或知識圖譜表征模型引導(dǎo)的零樣本遙感影像場景分類。如,文獻[ 79 ]創(chuàng)建了遙感知識圖譜SR-RSKG并開展知識圖譜語義表征學(xué)習(xí),進一步提出一種深度對齊網(wǎng)絡(luò)在隱式空間中穩(wěn)健地匹配視覺特征和語義特征,從而實現(xiàn)零樣本遙感圖像場景分類。SR-RSKG包含豐富的顯式關(guān)系信息(即“實體-關(guān)系-實體”或“實體-屬性-屬性值”),有助于更準確地描述復(fù)雜遙感場景。
(2)耦合知識圖譜和深度網(wǎng)絡(luò)的光學(xué)遙感影像語義分割。鑒于數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)技術(shù)在可解釋性方面存在不足,文獻[ 82 ]借助遙感知識圖譜的豐富語義關(guān)系建模與強大推理能力,引入高層次專家知識修正深度網(wǎng)絡(luò)輸出結(jié)果,并將知識推理輸出用于進一步輔助深度學(xué)習(xí)模型的訓(xùn)練。此外,地物空間共生知識[ 8 5 ]也被用于提升遙感影像語義分割精度。
(3)經(jīng)驗知識引導(dǎo)的多模態(tài)遙感影像土地覆蓋分類。通過融合光學(xué)、合成孔徑雷達和高程等多模態(tài)信息,文獻[ 81 ]提出了遙感指數(shù)等領(lǐng)域知識引導(dǎo)的深度協(xié)作融合網(wǎng)絡(luò)(DKDFN)。該網(wǎng)絡(luò)通過多頭編碼器協(xié)作融合多模態(tài)數(shù)據(jù),利用多分支解碼器創(chuàng)建多任務(wù)學(xué)習(xí)策略重建地學(xué)知識,顯著提高了在土地覆蓋分類任務(wù)上的精度和穩(wěn)健性。
(4)多模態(tài)知識圖譜推理驅(qū)動的合成孔徑雷達影像溢油監(jiān)測。文獻[ 83 ]通過整合遙感影像、矢量、文本信息和大氣-海洋模型信息等構(gòu)建了海洋溢油監(jiān)測知識圖譜,結(jié)合規(guī)則推理和圖神經(jīng)網(wǎng)絡(luò)方法可以在數(shù)據(jù)類別極不平衡的條件下得到優(yōu)異的海洋溢油監(jiān)測結(jié)果。通過構(gòu)建多模態(tài)知識圖譜,可以將與溢油監(jiān)測相關(guān)的先驗知識有效地組織在一起,從而克服傳統(tǒng)方法存在的信息孤島問題。在知識推理后,所有推理結(jié)果可以集成到知識圖譜中,使知識圖譜能夠不斷迭代演進,進而實現(xiàn)高精度溢油檢測。
從上述的代表性地學(xué)知識引導(dǎo)的遙感影像解譯算法可以看出,耦合地學(xué)知識的方式是多種多樣的。由于結(jié)構(gòu)化知識圖譜具備可計算、可推理、可進化等優(yōu)勢,耦合地學(xué)知識圖譜和深度學(xué)習(xí)有望成為新一代遙感智能解譯范式[ 84 ],為地學(xué)知識引導(dǎo)的遙感基礎(chǔ)大模型研究提供有益的參考。
3.2 面向遙感基礎(chǔ)大模型的地學(xué)知識挖掘與利用
目前,一些遙感基礎(chǔ)大模型的預(yù)訓(xùn)練或推理已經(jīng)開始探索地學(xué)知識的挖掘與利用??傮w來說,遙感基礎(chǔ)大模型的地學(xué)知識挖掘與利用方法可以大致分為以下4種類型( 圖2 )。
圖2

圖2 面向遙感基礎(chǔ)大模型的地學(xué)知識挖掘與利用的4種方式
Fig.2 Four ways of mining and utilizing geoscience knowledge for remote sensing foundation model
(1)時空結(jié)構(gòu)信息挖掘與利用。遙感影像附帶成像時間、經(jīng)緯度坐標等元信息,這些地學(xué)時空信息能夠有效改善遙感基礎(chǔ)模型預(yù)訓(xùn)練性能。如,拍攝自同一地點但不同成像時間的遙感影像可用于對比預(yù)訓(xùn)練[ 12 - 13 ];地理坐標編碼可作為預(yù)訓(xùn)練的代理任務(wù)[ 48 ];地理坐標、成像時間等時空信息可用作預(yù)訓(xùn)練約束條件[ 76 ];結(jié)合視覺信息學(xué)習(xí)的地理位置編碼器[ 14 ]可進行特定區(qū)域的變量回歸等任務(wù)。
(2)土地覆蓋分類產(chǎn)品嵌入學(xué)習(xí)。土地覆蓋分類產(chǎn)品(如GlobeLand30[ 86 ]、FROM_GLC10[ 87 ]等)蘊含著豐富的地學(xué)先驗知識。這些地學(xué)先驗信息的嵌入建模正成為遙感基礎(chǔ)大模型研究熱點。GeoKR[ 15 ]通過對齊視覺特征與公開地學(xué)產(chǎn)品提取出的知識特征促進骨干網(wǎng)絡(luò)學(xué)習(xí),以緩解遙感影像和地理知識之間的時間與空間分辨率差異的影響。GeCo[ 16 ]根據(jù)地學(xué)產(chǎn)品中“時序變化小”“空間聚合性高”的先驗信息定義可學(xué)習(xí)的糾正矩陣,以學(xué)習(xí)地學(xué)產(chǎn)品中的類別分布特點。此外,利用地學(xué)先驗信息干預(yù)參與預(yù)訓(xùn)練的遙感數(shù)據(jù)的類別平衡,能夠在一定程度上改善基礎(chǔ)模型學(xué)習(xí)到的通用特征的有效性[ 20 ]。結(jié)合地學(xué)先驗知識和生成式基礎(chǔ)模型,文獻[ 77 ]將開放街道圖(OSM)提供的道路、建筑物等地物目標信息作為輸入條件,基于ControlNet[ 88 ]生成內(nèi)容可控的遙感合成影像,有望應(yīng)用于眾多下游任務(wù)的有監(jiān)督數(shù)據(jù)擴展。
(3)地學(xué)參量約束。定量遙感旨在將多源遙感觀測數(shù)據(jù)定量反演或推算為地學(xué)目標參量,形成時空遙感數(shù)據(jù)產(chǎn)品[ 89 ]。相關(guān)地學(xué)參量(如歸一化指數(shù)等)通過物理機理、成像光譜信息反映地表的屬性信息,F(xiàn)G-MAE[ 17 ]結(jié)合經(jīng)典的掩碼圖像建模算法重建相關(guān)地學(xué)參量,從而約束大模型參數(shù)更新。
(4)隱式地學(xué)知識挖掘與融合。地理景觀的形成是氣候、地質(zhì)、水文、生物多樣性和人類活動等多種因素的錯綜復(fù)雜相互作用[ 90 ]。這些因素共同促使地理區(qū)域呈現(xiàn)出特定的地理特征,即不同地區(qū)的遙感影像往往呈現(xiàn)出明顯的地理異質(zhì)性。筆者所在團隊提出的SkySense[ 18 ]發(fā)展了地理空間敏感的上下文學(xué)習(xí)范式,旨在從遙感大數(shù)據(jù)中隱式挖掘與融合地學(xué)知識。具體而言,將全球劃分為眾多子區(qū)域,通過對地理位置特定的大規(guī)模多模態(tài)時序遙感影像進行無監(jiān)督學(xué)習(xí),以隱式挖掘時空敏感的聚類特征,這些聚類特征一定程度上可以較好地反映不同區(qū)域的語義先驗。在推理階段,可以通過注意力機制融合視覺特征和語義先驗來改善遙感影像的解譯性能。
圖2 面向遙感基礎(chǔ)大模型的地學(xué)知識挖掘與利用的4種方式
Fig.2 Four ways of mining and utilizing geoscience knowledge for remote sensing foundation model