常見(jiàn)圖像和視頻分割方法概述
圖像與視頻分割是指按照一定的原則將圖像或視頻序列分為若干個(gè)特定的、具有獨(dú)特性質(zhì)的部分或子集,并提取出感興趣的目標(biāo),便于更高層次的分析和理解,因此圖像與視頻分割是目標(biāo)特征提取、識(shí)別與跟蹤的基礎(chǔ)。
圖像分割方法主要包括:
1)、基于邊緣的分割方法
2)、基于閾值的分割方法
3)、基于區(qū)域的分割方法
4)、基于形態(tài)學(xué)分水嶺的分割方法
5)、基于聚類(lèi)的分割方法
6)、基于圖論的分割方法
7)、基于偏微分的分割方法
8)、基于融合的分割方法
視頻分割方法主要包括:
9)、基于時(shí)域的視頻對(duì)象分割方法
10)、基于運(yùn)動(dòng)的視頻對(duì)象分割方法
11)、交互式視頻對(duì)象分割方法
接下來(lái),分別對(duì)上面提及的圖像與視頻分割方法做簡(jiǎn)單概述。
一、基于邊緣的分割方法
理論基礎(chǔ):圖像的邊緣是圖像的最基本特征,是圖像局部特性不連續(xù)(突變)的結(jié)果,是不同區(qū)域的分界處,因此它是圖像分割所依賴的重要特征。
基本思想:通過(guò)搜索不同區(qū)域之間的邊界,來(lái)完成圖像的分割。
具體做法:首先利用合適的邊緣檢測(cè)算子(通常用求導(dǎo)數(shù)方法來(lái)檢測(cè),一般采用一階導(dǎo)數(shù)和二階導(dǎo)數(shù)檢測(cè)邊緣)提取出待分割場(chǎng)景不同區(qū)域的邊界,然后對(duì)邊界內(nèi)的像素進(jìn)行連通和標(biāo)注,從而構(gòu)成分割區(qū)域。
常見(jiàn)的邊緣檢測(cè)算子有一階微分算子和二階微分算子。Prewitt、Roberts、Sobel是基于一階導(dǎo)數(shù)的邊緣檢測(cè)算子,Laplacian和LOG是基于二階導(dǎo)數(shù)的邊緣檢測(cè)算子,檢測(cè)方法是采用小區(qū)域模板與圖像做卷積運(yùn)算求導(dǎo)數(shù),然后選取合適的閾值提取邊緣,這些邊緣檢測(cè)算子的區(qū)別主要在于所采用的模板和元素系數(shù)的不同。目前最常用的邊緣檢測(cè)算子是Kirsch算子、LOG(Laplacian-Gauss)算子和Canny算子。
基于邊緣的分割方法的關(guān)鍵在于邊緣檢測(cè)算子的選取。
二、基于閾值的分割方法
理論基礎(chǔ):目標(biāo)或背景內(nèi)部的相鄰像素間灰度值是相似的,但是不同目標(biāo)或背景上像素灰度差異較大,反映在直方圖上就是不同目標(biāo)或背景對(duì)應(yīng)不同的峰,分割時(shí),選取的閾值應(yīng)位于直方圖兩個(gè)不同峰之間的谷上,以便將各個(gè)峰分開(kāi)。
基本思想:通過(guò)閾值來(lái)定義圖像中不同目標(biāo)的區(qū)域歸屬。
具體做法:首先在圖像的灰度取值范圍內(nèi)選擇一灰度閾值,然后將圖像中的各個(gè)像素的灰度值與這個(gè)閾值相比較,并根據(jù)比較的結(jié)果將圖像中的像素劃分到兩類(lèi)中,若圖像中有多個(gè)灰度值不同的區(qū)域,那么可以選擇一系列的閾值以便將每一個(gè)像素分到合適的類(lèi)別中去。
目前有多種閾值選擇方法,依照閾值的應(yīng)用范圍可將閾值分割方法分為全局閾值法、局部閾值法和動(dòng)態(tài)閾值法三大類(lèi)。
基于閾值的分割方法的關(guān)鍵在于灰度圖閾值大小的選取。
三、基于區(qū)域的分割方法
理論基礎(chǔ):與“基于閾值的分割方法”的理論基礎(chǔ)基本一致,都是利用同一物體區(qū)域內(nèi)像素灰度的相似性。
基本思想:將灰度相似的區(qū)域合并,把不相似的區(qū)域分開(kāi),最終形成不同的分割區(qū)域。
具體做法:利用同一物體區(qū)域內(nèi)像素灰度的相似性,將灰度相似的區(qū)域合并,把不相似的區(qū)域分開(kāi),最終形成不同的分割區(qū)域。
常見(jiàn)的區(qū)域分割方法有區(qū)域生長(zhǎng)法、分裂合并法等。
種子區(qū)域生長(zhǎng)法是從一組代表不同生長(zhǎng)區(qū)域的種子像素開(kāi)始,接下來(lái)將種子像素鄰域里符合條件的像素合并到種子像素所代表的生長(zhǎng)區(qū)域中,并將新添加的像素作為新的種子像素繼續(xù)合并過(guò)程,直到找不到符合條件的新像素為止。該方法的關(guān)鍵是選擇合適的初始種子像素以及合理的生長(zhǎng)準(zhǔn)則。
區(qū)域分裂合并法(Gonzalez,2002)的基本思想是首先將圖像任意分成若干互不相交的區(qū)域,然后再按照相關(guān)準(zhǔn)則對(duì)這些區(qū)域進(jìn)行分裂或者合并從而完成分割任務(wù),該方法既適用于灰度圖像分割也適用于紋理圖像分割。
四、基于形態(tài)學(xué)分水嶺的分割方法
理論基礎(chǔ):分水嶺分割(Watershed)法(Meyer,1990)是一種基于拓?fù)淅碚摰臄?shù)學(xué)形態(tài)學(xué)的分割方法。
基本思想:把圖像看作是測(cè)地學(xué)上的拓?fù)涞孛?,圖像中每一點(diǎn)像素的灰度值表示該點(diǎn)的海拔高度,每一個(gè)局部極小值及其影響區(qū)域稱為集水盆,而集水盆的邊界則形成分水嶺。
具體做法:該算法的實(shí)現(xiàn)可以模擬成洪水淹沒(méi)的過(guò)程,圖像的最低點(diǎn)首先被淹沒(méi),然后水逐漸淹沒(méi)整個(gè)山谷。當(dāng)水位到達(dá)一定高度的時(shí)候?qū)?huì)溢出,這時(shí)在水溢出的地方修建堤壩,重復(fù)這個(gè)過(guò)程直到整個(gè)圖像上的點(diǎn)全部被淹沒(méi),這時(shí)所建立的一系列堤壩就成為分開(kāi)各個(gè)盆地的分水嶺。
分水嶺算法對(duì)微弱的邊緣有著良好的響應(yīng),但圖像中的噪聲會(huì)使分水嶺算法產(chǎn)生過(guò)分割的現(xiàn)象。
五、基于聚類(lèi)的分割方法
理論基礎(chǔ):圖像分割就是圖像中的像素進(jìn)行分類(lèi)。
基本思想:圖像分割就是將圖像的像素進(jìn)行分類(lèi),于是,很自然的將聚類(lèi)應(yīng)用于圖像分割問(wèn)題中。
具體做法:給出一個(gè)目標(biāo)函數(shù),使得聚類(lèi)過(guò)程中,目標(biāo)函數(shù)達(dá)到最小為止。
目前常見(jiàn)的基于聚類(lèi)的分割方法主要有:C-均值聚類(lèi)分割算法(HCM)、模糊C-均值聚類(lèi)分割算法(FCM)。FCM聚類(lèi)是HCM的改進(jìn),其區(qū)別主要在于:HCM算法對(duì)于對(duì)象的劃分是硬性的,而FCM則是一種柔性的模糊劃分;FCM模糊聚類(lèi)算法的向量可以同時(shí)屬于多個(gè)聚類(lèi),用0~1間的隸屬度來(lái)確定每個(gè)對(duì)象屬于各個(gè)類(lèi)的程度,而HCM聚類(lèi)算法中,一個(gè)給定的對(duì)象只能屬于一個(gè)類(lèi)。
六、基于圖論的分割方法
理論基礎(chǔ):圖論中無(wú)向圖的最優(yōu)化問(wèn)題。
基本思想:將圖像映射為帶權(quán)無(wú)向圖,將像素點(diǎn)當(dāng)作圖的節(jié)點(diǎn),利用最小剪切準(zhǔn)則得到圖像的最佳分割,即:把圖像分割問(wèn)題轉(zhuǎn)化為一個(gè)無(wú)向圖G=(V,E)的最優(yōu)化問(wèn)題。
具體做法:無(wú)向圖中的節(jié)點(diǎn)表示圖像中的像素,節(jié)點(diǎn)與節(jié)點(diǎn)之間的邊表示像素之間的關(guān)系,根據(jù)一定的規(guī)則為每條邊賦予一個(gè)權(quán)值,利用一定的最優(yōu)化準(zhǔn)則使分割結(jié)果中區(qū)域內(nèi)的邊有較低的權(quán)值,區(qū)域間的邊有較高的權(quán)值,即區(qū)域之間的代價(jià)函數(shù)最小的劃分便是該圖最優(yōu)的分割。
基于圖論分割的基本原則是使劃分成的兩個(gè)區(qū)域(A,B)的內(nèi)部相似度最大,區(qū)域(A,B)之間的相似度最小,同時(shí)應(yīng)使得劃分的區(qū)域盡量避免出現(xiàn)歪斜分割。為了能夠得到精確的分割結(jié)果,設(shè)計(jì)割集準(zhǔn)則至關(guān)重要,常見(jiàn)的割集準(zhǔn)則有Minimum Cut、Average Cut、Normalize Cut、Min-max Cut、Ratio Cut等。
七、基于偏微分的分割方法
理論基礎(chǔ):偏微分方程在圖像分割領(lǐng)域的應(yīng)用。
基本思想:該類(lèi)方法主要指的是活動(dòng)輪廓模型(active contour model)以及在其基礎(chǔ)上發(fā)展出來(lái)的算法,其基本思想是使用連續(xù)曲線來(lái)表達(dá)目標(biāo)邊緣,并定義一個(gè)能量泛函使得其自變量包括邊緣曲線,因此分割過(guò)程就轉(zhuǎn)變?yōu)榍蠼饽芰糠汉淖钚≈档倪^(guò)程,一般可通過(guò)求解函數(shù)對(duì)應(yīng)的歐拉(Euler.Lagrange)方程來(lái)實(shí)現(xiàn),能量達(dá)到最小時(shí)的曲線位置就是目標(biāo)的輪廓所在。
具體做法:該模型是一種基于能量的圖像分割方法,其能量函數(shù)為基于曲線的內(nèi)部能量和基于圖像數(shù)據(jù)外部能量的加權(quán)和,通過(guò)極小化該能量泛函使得待分割目標(biāo)周?chē)囊粭l初始曲線在固有內(nèi)力和圖像外力的共同作用下不斷演化,最終收斂到目標(biāo)的邊界輪廓。
按照模型中曲線表達(dá)形式的不同,活動(dòng)輪廓模型可以分為兩大類(lèi):參數(shù)活動(dòng)輪廓模型(parametric active contour model)和幾何活動(dòng)輪廓模型(geometric active contour model)。
注:活動(dòng)輪廓模型又稱為Snakes分割方法。
參數(shù)活動(dòng)輪廓模型是基于Lagrange框架,直接以曲線的參數(shù)化形式來(lái)表達(dá)曲線,最具代表性的是由Kasseta1(1987)所提出的Snake模型。該類(lèi)模型在早期的生物圖像分割領(lǐng)域得到了成功的應(yīng)用,但其存在著分割結(jié)果受初始輪廓的設(shè)置影響較大以及難以處理曲線拓?fù)浣Y(jié)構(gòu)變化等缺點(diǎn),此外其能量泛函只依賴于曲線參數(shù)的選擇,與物體的幾何形狀無(wú)關(guān),這也限制了其進(jìn)一步的應(yīng)用。
幾何活動(dòng)輪廓模型的曲線運(yùn)動(dòng)過(guò)程是基于曲線的幾何度量參數(shù)而非曲線的表達(dá)參數(shù),因此可以較好地處理拓?fù)浣Y(jié)構(gòu)的變化,并可以解決參數(shù)活動(dòng)輪廓模型難以解決的問(wèn)題。而水平集(Level Set)方法(Osher,1988)的引入,則極大地推動(dòng)了幾何活動(dòng)輪廓模型的發(fā)展,因此幾何活動(dòng)輪廓模型一般也可被稱為水平集方法。
八、基于融合的分割方法
理論基礎(chǔ):多特征更能精確地描述一個(gè)物體的特征。
基本思想:采用紋理和灰度兩種特征對(duì)圖像進(jìn)行描述,并通過(guò)動(dòng)態(tài)融合的策略生成一張綜合特征圖,使之更能準(zhǔn)確的反映圖像信息,有利于進(jìn)行后續(xù)的圖像分割過(guò)程。
具體做法:第一階段為特征提取部分,用紋理和灰度來(lái)描述一副輸入圖像;第二階段為綜合特征圖像融合,將不同特征的特征圖融合成一張綜合的特征圖;第三階段為圖像分割過(guò)程,根據(jù)綜合特征圖進(jìn)行圖像分割。
多特征動(dòng)態(tài)融合的圖像分割主要是針對(duì)目標(biāo)的紋理比背景復(fù)雜,目標(biāo)的亮度比背景高這種類(lèi)型的灰度圖像,采用紋理和灰度兩種特征對(duì)圖像進(jìn)行描述,并通過(guò)動(dòng)態(tài)融合的策略生成一張綜合特征圖,使之更能準(zhǔn)確的反映圖像信息,有利于進(jìn)行后續(xù)的圖像分割過(guò)程。
九、基于時(shí)域的視頻對(duì)象分割方法
理論基礎(chǔ):同一物體的各部分往往具有一致的時(shí)間屬性。
基本思想:時(shí)域分割主要是利用視頻圖像相鄰之間的連續(xù)性和相關(guān)性進(jìn)行分割。
具體做法:一種是通過(guò)當(dāng)前幀和背景幀相減來(lái)獲得差分圖像,另外一種是利用兩幀之間或者多幀之間的差來(lái)獲得差分圖像。
基于時(shí)域的視頻對(duì)象分割方法主要包括:背景差分法、幀間差分法。
十、基于運(yùn)動(dòng)的視頻對(duì)象分割方法
理論基礎(chǔ):光流場(chǎng)與參數(shù)估計(jì)方面的理論知識(shí)。
基本思想:主要是基于光流場(chǎng)等方法進(jìn)行運(yùn)動(dòng)參數(shù)估計(jì),求出符合運(yùn)動(dòng)模型的像素區(qū)域,進(jìn)而合并區(qū)域構(gòu)成運(yùn)動(dòng)對(duì)象進(jìn)行視頻分割。
具體做法:首先求出光流場(chǎng)并進(jìn)行參數(shù)估計(jì),接著求出符合運(yùn)動(dòng)模型的像素區(qū)域,最后合并區(qū)域構(gòu)成運(yùn)動(dòng)對(duì)象進(jìn)行視頻分割。
基于運(yùn)動(dòng)的視頻對(duì)象分割方法主要包括:光流法、參數(shù)化方法。
【補(bǔ)充小知識(shí)】:當(dāng)人的眼睛與被觀察的物體發(fā)生相對(duì)運(yùn)動(dòng)時(shí),物體的影像在視網(wǎng)膜平面上形成一系列連續(xù)變化的圖像,這一系列的圖像信息不斷“流過(guò)”視網(wǎng)膜,好像是一種光的“流”,所以被稱為“光流”。光流是基于像素定義的,所有的光流的集合稱為光流場(chǎng)。
十一、交互式視頻對(duì)象分割方法
理論基礎(chǔ):人工監(jiān)督與用戶交互。
基本思想:交互式分割中,用戶通過(guò)圖形用戶界面對(duì)視頻圖像進(jìn)行初始分割,然后對(duì)后繼幀利用基于運(yùn)動(dòng)和空間的信息進(jìn)行分割。
具體做法:第一步是用戶通過(guò)鼠標(biāo)描繪出視頻分割的大致輪廓,第二步再利用視頻分割算法進(jìn)行視頻分割。
基于交互式視頻對(duì)象分割方法主要包括:按被分割對(duì)象的性質(zhì)進(jìn)行跟蹤;基于變化檢測(cè)的方法;基于形態(tài)學(xué)算法的交互式視頻分割方法等。在不要求實(shí)時(shí)性但是對(duì)視頻邊界分割精度要求較高的場(chǎng)合,交互式分割法的效果比較好。這種方法主要用于節(jié)目制作等應(yīng)用,對(duì)于實(shí)時(shí)應(yīng)用場(chǎng)合如視頻會(huì)議則無(wú)能為力。
以上是大多數(shù)常見(jiàn)圖像和視頻分割方法的大致概述,具體的理論分析和實(shí)現(xiàn)將在后續(xù)博文中一一“亮相”。
|