功能磁共振成像能夠估計人腦中的功能激活和連通性,近年來隨著機器學習技術(shù)的發(fā)展,人們熱衷于將這些功能模式與機器學習相結(jié)合用于識別精神病特征。盡管這些方法具有更好地理解疾病過程并完成早期診斷的巨大潛力,但除非謹慎考慮,否則在各種各樣的處理選擇中的陷阱可能會嚴重影響解釋性和泛化性。本文的目的是促進機器學習在精神分裂癥研究中的更好使用。為此,我們在介紹最佳實踐和程序的同時描述了常見的數(shù)據(jù)處理步驟。首先,我們介紹了精神分裂癥對激發(fā)可靠分類的重要性,并總結(jié)了現(xiàn)有的關(guān)于精神分裂癥的機器學習文獻。然后,我們描述了基于fMRI數(shù)據(jù)的特征提取過程,包括統(tǒng)計參數(shù)映射,復(fù)雜網(wǎng)絡(luò)分析和分解方法,以及最重要的支持向量分類和深度學習的分類。我們將在補充材料提供更詳細的描述和分析軟件的支持。最后,我們提出了用機器學習方法對精神分裂癥進行分類所面臨的挑戰(zhàn),并對未來的趨勢和觀點進行了討論。本文發(fā)表在Schizophrenia Bulletin雜志。(可添加微信號siyingyxf或18983979082獲取原文及補充材料) 思影科技曾做過多期關(guān)于腦影像機器學習文獻的解讀,如感興趣可點擊以下鏈接瀏覽: 使用多元表征方法提升對大腦-行為之間關(guān)系的機器學習研究的泛化 用于臨床心理學和精神病學的機器學習方法 PLOS Biology:重度抑郁癥多成像中心的泛化腦網(wǎng)絡(luò)標志物 Nature Medicine:持續(xù)的實驗性和臨床性疼痛的神經(jīng)影像生物 深度學習在嬰兒大腦的磁共振圖像分析中的作用(上) 參數(shù)選擇對腦卒中后失語癥預(yù)測模型的影響 大腦數(shù)據(jù)分類時意外過擬合的危險 IEEE Signal Processing Magazine:從手工放射組學特征到深 機器學習在靜息態(tài)功能磁共振成像中的應(yīng)用 有監(jiān)督機器學習在系統(tǒng)神經(jīng)科學中的作用 使用多模態(tài)腦部掃描數(shù)據(jù)的自動腦腫瘤分割 Radiology:腦部MRI影像組學:轉(zhuǎn)移瘤類型預(yù)測的應(yīng)用 神經(jīng)放射學診斷中的MRI數(shù)據(jù)分析 AJNR:深度學習在神經(jīng)放射學的應(yīng)用 Neuro-Oncology:對腦膠質(zhì)瘤IDH突變狀態(tài)進行分類的一種新型的 Neuro-Oncology:深度學習算法全自動評估腦膠質(zhì)瘤負荷 Lancet Oncology:利用人工神經(jīng)網(wǎng)絡(luò)對神經(jīng)腫瘤學MRI成像進行 AJP:精神分裂癥患者大腦加速老化的縱向識別研究 Nature Protocols:為解釋神經(jīng)成像中的機器學習模型 Biological Psychiatry: 基于多模態(tài)腦影像的個體指標預(yù)測-方法 BRAIN:基于全球14468名被試MRI數(shù)據(jù)特征預(yù)測腦齡和疾病 Biological Psychiatry:自閉癥的神經(jīng)亞型研究進展 PNAS:灰質(zhì)年齡預(yù)測作為癡呆風險的生物標志物 BRAIN:用于阿爾茨海默病分類的可解釋深度學習框架的開發(fā) 異質(zhì)性問題:識別精神疾病亞型的方法 Radiology:人工智能系統(tǒng)腦MRI鑒別診斷精度接近神經(jīng)放射科 NPP:結(jié)構(gòu)MRI數(shù)據(jù)的生理性別分類顯示跨性別者女性的錯誤分 利用功能連接對腦疾病進行分類和預(yù)測 基于腦影像的精神疾病預(yù)測 基于影像學和定量感覺測試預(yù)測慢性疼痛的治療結(jié)果 深度學習在醫(yī)學圖像分析中的應(yīng)用 BRAIN:利用機器學習揭示了兩種精神分裂癥的神經(jīng)解剖學亞型 識別最優(yōu)的數(shù)據(jù)驅(qū)動特征選擇方法以提高分類任務(wù)的可重復(fù)性 Neuron腦影像機器學習:表征、模式信息與大腦特征 Molecular Psychiatry:靜息態(tài)fMRI預(yù)測青少年認知能力 JAMA Psychiatry:腦影像機器學習預(yù)測精神疾病患者社會功能 AJP:基于腦網(wǎng)絡(luò)的可卡因戒斷預(yù)測 基于機器學習的情緒障礙診斷:功能網(wǎng)絡(luò)預(yù)測藥物反應(yīng) 腦影像特征預(yù)測散發(fā)性阿爾茨海默病癥狀發(fā)作時間 精神分裂癥的研究已經(jīng)在精神病學和心理學領(lǐng)域引起了廣泛關(guān)注,最近的發(fā)展和對神經(jīng)成像機器學習關(guān)注的增加導(dǎo)致計算精神病學顯示出了良好的應(yīng)用前景。從理論上講,精神分裂癥已被概念化為精神分裂癥譜系障礙的一個重要表型。兩個競爭理論——準維方法(the quasi-dimensional)和全維方法(the fully dimensional )被提出來模擬精神分裂癥的結(jié)構(gòu)。準維方法提出了這樣一種觀點,即精神分裂癥在一般人群中是不連續(xù)的,是不連續(xù)分布中的獨立觀測點。但是最近的研究表明,這種表型是沿連續(xù)整體分布的,從心理健康到全面的精神疾病數(shù)據(jù),都支持強調(diào)連續(xù)性的全維方法,與精神分裂癥患者相比,具有精神分裂癥特征的個體在認知、情緒和神經(jīng)功能方面表現(xiàn)出相似但減弱的損傷。同樣,這些分裂型表型的表現(xiàn)在時間和環(huán)境上都是穩(wěn)定的。 受到精神分裂癥精神病神經(jīng)發(fā)育模型的影響,英瑟爾進一步劃分了四個階段,從風險到慢性殘疾。這個四階段的假設(shè)強調(diào)了早期風險階段對于理解心理病理學以促進精神病和精神障礙的早期發(fā)現(xiàn)和干預(yù)策略的重要性。盡管精神分裂癥并未明確包含在模型中,但是在認知,情感和社會障礙方面仍存在重要的相似之處。這一點有助于通過在一般人群中呈現(xiàn)的人格特征理解精神分裂癥譜系障礙的精神病理學。 最近,精神分裂癥已被概念化為一種現(xiàn)象,遠遠超出了精神分裂癥譜系障礙的范圍。這些作者認為,對精神病感興趣的研究人員主要遵循狹隘的研究途徑,側(cè)重于精神病表達的分子,神經(jīng)生理,環(huán)境和文化相關(guān)性,或研究與精神分裂癥的極端表現(xiàn)有關(guān)的潛在內(nèi)表型。但是,在精神分裂癥患者中觀察到的獨特情感和社交表現(xiàn)實際上可以提供對人類整體功能不可或缺的情感和社交系統(tǒng)本質(zhì)的觀察。 例如,來自功能性神經(jīng)影像學的發(fā)現(xiàn)表明,與常人相比,社交性快感障礙的人在情感刺激延遲任務(wù)的預(yù)期階段左枕部、屏狀核和島葉對正向刺激表現(xiàn)出明顯的負激活。縱向研究還表明,具有分裂型特征的個體具有獨特的發(fā)展軌跡,而不一定會發(fā)展為成熟的精神病。最近,Wang等確定了精神分裂癥的4條軌跡;包括2個穩(wěn)定組和2個反應(yīng)組?!胺€(wěn)定組的低分裂型和高分裂型”分別表現(xiàn)出最佳和最差的臨床和功能結(jié)果。“高反應(yīng)型精神分裂癥”組的特征是功能相對較快下降,而“低反應(yīng)型精神分裂癥”組的特征是在評估基線時得分較低,但逐漸惡化。這些發(fā)現(xiàn)表明,即使在精神分裂癥表型的非臨床樣本中,也可以觀察到與精神分裂癥臨床患者相當?shù)南嗨苼喰秃蛙壽E。這突顯了縱向追蹤精神分裂癥的重要性。 一些研究已經(jīng)應(yīng)用神經(jīng)影像學數(shù)據(jù)來研究與精神分裂癥有關(guān)的神經(jīng)生物學變化,報告了結(jié)構(gòu)和功能的變化。例如,結(jié)構(gòu)研究發(fā)現(xiàn),精神分裂癥的許多已知區(qū)域都會發(fā)生灰質(zhì)體積變化,例如前額葉,顳葉和皮層扣帶回,以及腦島和皮層下區(qū)域。這些研究表明,在精神分裂癥譜系中,大腦皮層的變化存在于一個連續(xù)的維度上,并且很可能發(fā)生在精神病病理學發(fā)作之前。此外,在比較具有不同精神分裂程度的被試或重度精神分裂癥患者和普通對照時,使用功能磁共振成像(fMRI)來進行社會認知的研究,也報告了相似的區(qū)域性大腦激活變化。最后,功能連通性研究發(fā)現(xiàn),與精神分裂癥患者的網(wǎng)絡(luò)變化相似,例如紋狀體,內(nèi)側(cè)前額葉皮層(PFC),前扣帶回(ACC)和腦島之間的連接性改變。重要的是,幾乎所有上述研究都在精神分裂癥的正面和負面維度上報告了不同的結(jié)果,這表明精神分裂癥的異質(zhì)性。 以上發(fā)現(xiàn)強調(diào)了精神分裂癥在精神病學和心理學中的重要作用。一方面,分裂型被認為是精神分裂癥的特征標記,研究精神分裂癥的行為和神經(jīng)生物學基礎(chǔ)可能有助于我們理解精神分裂癥的潛在心理病理學。這表明精神分裂癥可能是研究精神分裂癥譜系障礙的重要表型。另一方面,精神分裂癥可以作為一個獨特的實體來檢查人類潛在的情感和社會系統(tǒng)。因此,對這種表型進行分類的更好方法對精神分裂癥學者極有意義。然而,據(jù)我們所知,只有很少的研究基于神經(jīng)影像數(shù)據(jù)來識別精神分裂癥。機器學習方法可以彌補這一知識鴻溝,并有助于闡明處于精神分裂癥初期的高危人群的神經(jīng)生物學異常。 機器學習的總體目標是使計算機對數(shù)據(jù)進行分類,而無需對其進行明確的編程。通常,在有監(jiān)督學習和無監(jiān)督學習之間進行區(qū)分。前者是指使用帶標簽的數(shù)據(jù)進行學習,目的是將分類模型泛化到帶有未知標簽的數(shù)據(jù)。相反,無監(jiān)督學習方法探索未標記數(shù)據(jù)中的統(tǒng)計依存關(guān)系,其目標是學習數(shù)據(jù)中的結(jié)構(gòu),并可能將數(shù)據(jù)聚類為不同的類。 近來,機器學習方法已被用作基于神經(jīng)影像的工具,以自動將精神分裂癥譜系障礙患者與健康人區(qū)分開為目的。經(jīng)驗發(fā)現(xiàn)表明,這些方法能夠?qū)】等酥械木穹至寻Y患者進行分類,準確率在75%至98%之間。此外,最近的研究已經(jīng)成功地使用支持向量分類(SVC)來預(yù)測超高風險個體向精神病全面發(fā)作的轉(zhuǎn)變,并分類為轉(zhuǎn)換和非轉(zhuǎn)換。目前部分研究已經(jīng)對疾病發(fā)作前的各個階段的人進行了調(diào)查。至于使用機器學習方法研究精神分裂癥,已經(jīng)進行了一系列研究,探索了與精神分裂癥有關(guān)的神經(jīng)機制,并根據(jù)不同的人群對個體進行了分類。 2006年,Shinkareva等人使用來自情感任務(wù)的fMRI數(shù)據(jù),使用腦激活的差異圖對陽性分裂癥和控制水平較高的個體進行分類。出于同樣的目的,Modinos等人對情緒任務(wù)的大腦激活圖進行了SVC,發(fā)現(xiàn)了高陽性分裂型個體的情緒回路的改變,包括杏仁核、ACC和內(nèi)側(cè)PFC。 為了進行比較,他們還進行了單變量的統(tǒng)計檢驗,但未檢測到任何類別差異,表明使用多變量方法對風險人群的細微變化增加了敏感性。從精神分裂癥的“全維”模型的角度來看,Wiebels等人用偏最小二乘方法證明了精神分裂癥不同方面與灰質(zhì)體積變化之間的關(guān)系。 此外,兩項研究分別探討了亞臨床抑郁癥患者和超高危人群的精神分裂癥評分。首先, Modinos等人在對亞臨床抑郁癥狀的個體和健康對照進行分類時,發(fā)現(xiàn)精神分裂癥的正向維度與SVC權(quán)重之間存在顯著相關(guān)性。其次,在一項縱向研究中,Zarogianni等人應(yīng)用SVC將超高風險人群分為轉(zhuǎn)化者和非轉(zhuǎn)化者。盡管本研究主要使用結(jié)構(gòu)性MRI數(shù)據(jù),但結(jié)果表明,將精神分裂癥評分添加到分析中可提高分類性能。最后,除fMRI外,其他神經(jīng)影像學方法也已經(jīng)開始使用機器學習方法研究精神分裂癥。例如,在Jeong等人的研究中,在視聽情緒感知任務(wù)中利用EEG測量的與事件相關(guān)的電位用于對具有精神分裂癥和對照的個體進行分類。 總而言之,利用機器學習對精神分裂癥進行的研究在增進我們對精神分裂癥的理解方面顯示出巨大的前景,并且與早期發(fā)現(xiàn)和潛在的干預(yù)措施極其有益。機器學習方法的主要優(yōu)勢是,由于能夠了解多模態(tài)神經(jīng)影像數(shù)據(jù)中精神分裂癥可能的復(fù)雜表現(xiàn),因此與基于標準單變量統(tǒng)計的同類方法相比,它們可以提供更高的敏感性?,F(xiàn)有研究仍受到小樣本量的限制(每組n = 7-18),并且存在報告的分類率與觀察到的樣本過擬合的風險。這突出了擁有足夠大樣本量和分組均衡的重要性,以實現(xiàn)足夠的學習并確保訓(xùn)練數(shù)據(jù)的代表性。此外,更重要的是,未來的研究應(yīng)側(cè)重于對現(xiàn)有結(jié)果進行獨立驗證,以確保研究結(jié)果可推廣到整個人群。 在神經(jīng)影像研究中,fMRI數(shù)據(jù)主要用于測量孤立的大腦區(qū)域的激活變化,或估計跨區(qū)域的功能連接性(網(wǎng)絡(luò)耦合)。由于fMRI數(shù)據(jù)以有限的時間點和相對較高的空間分辨率進行記錄,因此激活模式的估計,尤其是連接性的估計實際上非常不穩(wěn)定。因此,通??紤]降低維度的方法來提高估計的功能激活的穩(wěn)定性。雖然在本文中,我們關(guān)注于功能磁共振成像的特征,但是分類程序很容易推廣到其他模態(tài)和多模態(tài)設(shè)置。 圖1.分類。面板A的第一行顯示了如何在神經(jīng)影像數(shù)據(jù)上訓(xùn)練分類模型。第一種特征提取方法獲得的特征可用于訓(xùn)練基于已知標簽的樣本上的分類模型。一旦訓(xùn)練了分類模型,就可以將其應(yīng)用于從未知標簽對象中提取的特征(使用相同的過程)。*原則上可以省略特征提取步驟。但是,實際上,對于許多成像模式(包括fMRI),由于輸入數(shù)據(jù)的高維度而導(dǎo)致的過擬合將不利于分類性能。 面板B提供了二維特征空間中的線性軟邊界SVC算法的說明。 SVC通過找到使邊界最大化的分離超平面,該超平面僅由支持向量定義,該向量是位于邊界上的樣本(用圓圈標記)。軟間隔SVC通過為每個錯誤分類的樣本(用虛線標記)引入松弛變量來避免錯誤分類,從而避免過度擬合(能夠盡可能地將數(shù)據(jù)類別分對,又要使得支持向量到超平面的間隔盡可能地大。)。訓(xùn)練SVC時,可以根據(jù)超樣本所在的超平面的側(cè)面來估計新樣本的標簽(標記為灰色)。 在神經(jīng)成像領(lǐng)域使用監(jiān)督學習時,其目的通常是僅根據(jù)測量結(jié)果確定對象的分類標簽, 如圖1所示的成像數(shù)據(jù)(例如,記錄的fMRI數(shù)據(jù)),該過程也稱為分類。在監(jiān)督分類中,通過在訓(xùn)練數(shù)據(jù)中的已知標簽下進行區(qū)分訓(xùn)練從而獲得一個具有高分類性能的模型,隨后使該模型能夠應(yīng)用于沒有給定標簽的數(shù)據(jù)以預(yù)測實際標簽。 給定一個標記的數(shù)據(jù)集,可以使用交叉驗證(CV)來確定分類性能。準確性(正確標識類別標簽的比率)通常用作衡量模型表現(xiàn)的指標。但是,這不能提供對性能的完整描述,敏感性(也稱為真實陽性率或召回率)和特異性(真實陰性率)也是同樣重要的指標。為了測試所獲得的分類率是否顯著,通常針對參數(shù)或經(jīng)驗零分布來測試真實性能。如果分類步驟考慮了幾個單獨的分類程序,則在評估顯著性時應(yīng)對多個比較進行校正。 可以將CV(交叉驗證)程序視為臨床環(huán)境的模擬,其中假定一組受試者(測試組)的標簽未知,并可以通過對其余受試者(訓(xùn)練組)進行分類算法的訓(xùn)練來進行估計。一種常用的方法是留一CV。整個過程中只有一個對象構(gòu)成測試集,并且針對每個對象重復(fù)該過程,如圖3所示。通常在數(shù)據(jù)量較小的情況下,最好采用“留一法”方案,因為它通過保留用于模型訓(xùn)練的最大數(shù)據(jù)量來最大程度地減少模型偏差,但是缺點是存在過擬合訓(xùn)練數(shù)據(jù)的風險。因此,有時也會選擇其他方案,例如K折(將數(shù)據(jù)劃分為K個非重疊的拆分)CV。這些功能通過檢查已識別模型在拆分之間的變異性,可以測試模型的穩(wěn)定性。一個示例是分半驗證方法,通過將數(shù)據(jù)隨機多次分為獨立的兩份可以來測試模型重現(xiàn)的穩(wěn)定性。  面板A說明了單變量的統(tǒng)計分析,其中有關(guān)實驗設(shè)計的信息用于使用一般線性模型測試每個體素中的顯著激活。面板B概述了復(fù)雜的網(wǎng)絡(luò)分析。在這里,通過確定腦區(qū)之間的功能連接性,然后使用圖論方法進行分析,可以得出腦網(wǎng)絡(luò)存在差異的連接。在面板C中,說明了基于種子點的功能連接方法,此處提取了來自特定大腦區(qū)域的時間序列,并將其與大腦的其余部分做相關(guān)。在面板D中,顯示出了獨立成分分離方法,其中將fMRI數(shù)據(jù)分解為具有相應(yīng)時間序列的空間獨立分量 原則上,可以直接在原始神經(jīng)影像數(shù)據(jù)上訓(xùn)練分類算法。但是,由于與小樣本的數(shù)量相比,數(shù)據(jù)具有較高的維數(shù),因此輸入數(shù)據(jù)在高維空間中將顯得稀疏,通常稱為維數(shù)詛咒。反過來,這導(dǎo)致分類程序過于專業(yè)化,并且對測試數(shù)據(jù)的概括性很差,這種現(xiàn)象稱為過擬合。 因此,通常使用兩步過程對分類進行處理,在該過程中,首先識別與分類相關(guān)的特征(請參見特征提取步驟,如圖2中所示)。然后用于訓(xùn)練分類算法。特征提取步驟可能包括特征選擇,在其中選擇特征以進行進一步訓(xùn)練。需要注意的是,特征選擇僅應(yīng)使用訓(xùn)練數(shù)據(jù)集中的標簽,否則會影響性能評估,并可能導(dǎo)致過擬合。因此,嵌套的CV方案(其中使用附加的獨立測試集來估計最佳特征或其他自由參數(shù))可能是有利的。過擬合可以通過自動特征選擇方法和整體學習方法來緩解。例如前向選擇,后向消除、遞歸特征消除,決策樹和隨機決策森林等。此外,還有一些工具箱,包括scikit-learn,Nilearn, PRoNTo, pyMVPA,以及Koutsouleris等人使用的NeuroMiner toolbox 等都是針對神經(jīng)影像的機器學習量身定制的工具包,并提供了用于自動特征選擇的工具。  圖3.留一法交叉驗證。該圖說明了留一法 LOOCV 程序。對于每個被試,把排除該特定被試的數(shù)據(jù)集用來訓(xùn)練分類模型。然后,該模型用于估計被試的分類標簽。對每個被試重復(fù)此過程,以提供分類效果的無偏估計。注意,其他CV方案(包括更復(fù)雜的嵌套CV)也是類似的。 在特征提取之前,適當?shù)念A(yù)處理步驟非常重要,因為受偽影污染的數(shù)據(jù)不僅可能導(dǎo)致分類性能不佳,而且可能會導(dǎo)致結(jié)果解釋困難。例如,如果運動偽影在一組中更占優(yōu)勢,則分類器可能會專注于運動偽影并獲得良好的分類性能。 在以下各小節(jié)中,我們介紹了一些常用的特征提取過程,盡管本文未涵蓋,但仍存在其他方法,包括fALFF,和估計區(qū)域信號同質(zhì)性的方法(即Reho)。 如果您對腦影像機器學習等感興趣,歡迎瀏覽思影科技課程及服務(wù)(可添加微信號siyingyxf或18983979082咨詢):第十六屆腦影像機器學習班(上海,7.23-28) 第十八屆DTI數(shù)據(jù)處理班(上海,7.2-7) 第八屆小動物腦影像數(shù)據(jù)處理班(上海,5.6-11) 第四十二屆磁共振腦影像基礎(chǔ)班(上海,6.5-10) 第一屆腦網(wǎng)絡(luò)數(shù)據(jù)處理提高班(上海,5.22-26) 第三屆DWI數(shù)據(jù)處理提高班(南京,5.17-22) 第九屆任務(wù)態(tài)數(shù)據(jù)處理班(北京,5.27-6.1) 第十四屆磁共振腦影像結(jié)構(gòu)班(北京,7.10-15) 第四十三屆磁共振腦影像基礎(chǔ)班(南京,7.1-6) 第四十一屆磁共振腦影像基礎(chǔ)班(重慶,5.9-14) 第十三屆腦影像結(jié)構(gòu)班(重慶,6.8-13) 數(shù)據(jù)處理業(yè)務(wù)介紹: SPM是當前用于分析基于任務(wù)的fMRI數(shù)據(jù)的最常用方法之一。SPM的總體目標是定位在各個任務(wù)之間存在顯著差異的大腦激活,如圖2A所示。該技術(shù)是單變量的,這意味著通常使用一般線性模型分別對每個體素執(zhí)行獨立的參數(shù)檢驗(t檢驗或f檢驗)。執(zhí)行參數(shù)檢驗的3種最常見的軟件包是SPM, FSL,和AFNI。 當用于分類時,參數(shù)估計值或統(tǒng)計值(從整個大腦或在感興趣的區(qū)域中提?。┛芍苯优c其他特征選擇步驟一起用作分類特征。使用SPM的一個優(yōu)點是空間影響已經(jīng)隱含在特征中,通常會導(dǎo)致對模型的更直接的解釋。但是,由于該過程本質(zhì)上是單變量的,因此它可能會丟失在多個變量范圍內(nèi)共享的重要信息,因此可能不如直接考慮數(shù)據(jù)的多元結(jié)構(gòu)的特征提取方法那么敏感。分割,復(fù)雜網(wǎng)絡(luò)和基于種子的分析 為了克服由于如上所述的低時間分辨率而引起的不穩(wěn)定性問題,采用了將大腦分割成更少區(qū)域的方法;通過圖譜定義或通過數(shù)據(jù)驅(qū)動的聚類方法通常是首選。然后可以使用統(tǒng)計度量,例如(部分)相關(guān)性或互信息以確定腦區(qū)之間的功能連通性特征。生成的特征(通常在表示每個腦區(qū)之間網(wǎng)絡(luò)耦合的對稱鄰接矩陣中表示)可以直接用作后續(xù)分類的特征,也可以用于進一步提取特征,例如,在圖論框架中(圖2B)。通常通過應(yīng)用閾值對圖進行二值化,并通過模塊化將全局度量,例如節(jié)點度分布(腦區(qū)/節(jié)點之間的連接數(shù))的圖結(jié)構(gòu)或關(guān)系用于表征網(wǎng)絡(luò)特征。 最簡單直觀的基于種子點的相關(guān)性分析(SCA)是使用相關(guān)性方法來尋找特定特征的典型方案,它確定了許多預(yù)定義種子點之間的耦合(基于前瞻性的實驗或文獻中的某些先驗假設(shè))。然后,將每個種子的時間序列數(shù)據(jù)與大腦的所有其他體素做相關(guān),從而為每個種子生成一個基于全腦體素的功能連接圖,如圖2C所示。通常,基于圖譜分割的方法很有吸引力,因為它們生成的數(shù)據(jù)更簡單,并且通常導(dǎo)致對特征的更直接的解釋。但是,固定的圖譜分割方案暗含有限的靈活性,這可能導(dǎo)致選擇不合適的特征并導(dǎo)致靈敏度降低。 獨立成分分離是無監(jiān)督的機器學習方法(有時也稱為數(shù)據(jù)驅(qū)動方法),旨在從多個測量(即fMRI時間序列)中識別數(shù)據(jù)中的潛在源。在fMRI中,這通常等同于識別與時間序列相關(guān)的空間源(通常在10到100之間),如圖2D所示。該過程可以看作是數(shù)據(jù)中信息的(有損)壓縮。這些來源通常被認為是功能網(wǎng)絡(luò)的代表,因為它們代表了大腦中一致的時間過程。一種廣泛接受的方法是獨立成分分析(ICA),它可以在具有相應(yīng)時間序列的對象之間生成單個成分(源)。最常用的ICA是使用開放源代碼工具箱執(zhí)行的,例如GIFT 或FSL Melodic。成分分離的優(yōu)勢在于可以有效且自動地捕獲一致的激活模式。潛在的缺點是可解釋性可能具有挑戰(zhàn),因為分解也容易捕獲包括運動和生理信號(如心臟和呼吸循環(huán))在內(nèi)的數(shù)據(jù)中的明顯有害影響。而且,通常存在各種各樣的可調(diào)參數(shù)(例如源的數(shù)量),這些參數(shù)很難手動設(shè)置,如果將其視為學習算法的一部分,可能會導(dǎo)致過擬合。 有監(jiān)督的分類方法試圖識別一些功能,這些功能將能夠區(qū)分訓(xùn)練數(shù)據(jù)集中的標簽。重要的是,當輸入維數(shù)與樣本數(shù)量相比較高時(通常在fMRI中,除非進行了詳細的特征提取和選擇),實際上很難將在訓(xùn)練集中獲得完美的分類(過擬合)結(jié)果應(yīng)用到測試集上,其性能對測試集的泛化效果會很差。因此,多變量模式分類的真正挑戰(zhàn)是確保分類能很好地泛化到未知樣本。 有許多可用的分類算法,在這里我們將重點介紹SVC(支持向量分類)方法,因為它們在以前的文獻中經(jīng)常被使用,并且可以在幾個易于使用的軟件包中輕松獲得。 最簡單的分類問題是二類線性分類,其中SVC算法表示為跨特征的線性投影的判別函數(shù)。 這在二維情況下能夠最直觀地說明,其中所謂的分離超平面是一條直線(圖1B),這里也很明顯,有許多直線會導(dǎo)致相同的分類性能。SVC選擇使分界面最大化的超平面,即最靠近的數(shù)據(jù)點的平面之間的垂直距離。因此,SVC專注于邊緣上的點(最難分類的樣本,也稱為支持向量),而新樣本的分類僅需要有關(guān)這些所謂支持向量的距離信息,從而進行有效評估。在訓(xùn)練集中,這通常被稱為具有稀疏性的SVC方法,其中稀疏性是指樣本而不是特征。 在實踐中,軟間隔SVC 最可取的分類器,因為它允許錯誤分類的樣本以獲得更大的分界面,這將增加分類器的穩(wěn)定性。在這種情況下,應(yīng)將分界面的最大化與錯誤分類的樣本的損失進行權(quán)衡,該損失與到分離超平面的距離成比例。權(quán)衡由參數(shù)(通常稱為C參數(shù))控制,該參數(shù)必須通過附加的嵌套CV程序進行選擇或確定。對于不平衡的數(shù)據(jù)集(每個組中樣本數(shù)不同的情況),可以通過對超平面進行加權(quán)來抵消類別不均衡(通過為代表性不足的類別分配更多的權(quán)重)。而且,對于此類數(shù)據(jù)集,僅靠準確性可能不是一個好的性能指標,因為當類別數(shù)量不平衡時,對某個類別分類的正確性本就是存在偏倚的。在這些情況下,使用其他指標(例如預(yù)測召回曲線或Matthew的相關(guān)系數(shù))通常會提供更多信息。 通常是通過將數(shù)據(jù)投影到另一個可以進行線性分離的空間(更高維度甚至是無限維度)中來進行處理以泛化到非線性判別。對于SVC以及其他一系列分類方法,可以通過所謂的kernel trick使用核函數(shù)來有效地實現(xiàn)這一過程。在這里,足以計算在投影空間(以Gram矩陣表示)中測得的樣本之間的距離,該距離避免了直接使用高維投影進行操作。常用的核包括線性核(用于線性分類),徑向基函數(shù)核和多項式核。請務(wù)必注意,核函數(shù)通常會引入其他需要通過CV選擇或優(yōu)化的參數(shù),這會加劇過度擬合的問題。 分類性能一般不會是唯一的感興趣的變量。研究人員通常也對確定哪些大腦區(qū)域?qū)τ诜诸愑胸暙I感興趣。對于線性SVC分類方法,往往可以使用權(quán)重圖或靈敏度圖來反應(yīng)這一點,使用可視化方法可以表明每個功能區(qū)對于分類性能的貢獻。 這些權(quán)重圖的解釋并不是簡單明了的,因為特征實際上對于分類很重要,這不是因為特征與感興趣的效果直接相關(guān),而是因為它們可以過濾出無效的影響。 Haufe等人強調(diào)了這個問題,并提出了將權(quán)重圖轉(zhuǎn)換為線性分類的更可解釋的可視化過程。 在實踐中,通常使用調(diào)查量表來確定數(shù)據(jù)標簽(例如,精神分裂癥評分),該調(diào)查表使用連續(xù)或有序的量表,在這些量表上很難定義清晰的分類劃分。在這種情況下,對算法進行訓(xùn)練以直接預(yù)測此連續(xù)變量可能會很有吸引力。這有效地將分類過程變成了多元回歸問題。在這里,支持向量回歸與SVC相似,在其中通過考慮預(yù)測值(在訓(xùn)練集中)與測量值之間的距離來形成邊界。在考慮使用回歸模型代替分類時,應(yīng)注意,還必須使用其他性能指標,例如平均絕對誤差。不過這種度量的解釋通常不如分類準確率直觀。此外,對統(tǒng)計顯著性的評估更加復(fù)雜,研究人員最常依賴于隨機置換檢驗來形成經(jīng)驗分布。 基于神經(jīng)網(wǎng)絡(luò)的深度學習最近在機器學習社區(qū)中受到了廣泛關(guān)注,并且也已被用于對幾種常用的神經(jīng)成像數(shù)據(jù)進行分類和臨床設(shè)置。深度學習背后的一般原則是訓(xùn)練具有許多層和參數(shù)的大型神經(jīng)網(wǎng)絡(luò),這些層和參數(shù)將原始(或在大多數(shù)情況下經(jīng)過預(yù)處理的)數(shù)據(jù)作為輸入,并且網(wǎng)絡(luò)中的最后一層會產(chǎn)生結(jié)果,例如分類。 如果經(jīng)過適當培訓(xùn),則網(wǎng)絡(luò)的第一層應(yīng)代表數(shù)據(jù)的基本特征,然后在隨后的層中對其進行完善和專門化。由于這些網(wǎng)絡(luò)固有地包含許多參數(shù),因此由于數(shù)據(jù)量有限而導(dǎo)致過擬合是嘗試訓(xùn)練網(wǎng)絡(luò)時的主要問題。在這里,優(yōu)化策略包括正則化,drop out和權(quán)重共享。另一種選擇是使用遷移學習方法,該方法使用在其他數(shù)據(jù)集上進行了預(yù)訓(xùn)練的網(wǎng)絡(luò)(甚至可能具有不同的模態(tài)),并且僅在網(wǎng)絡(luò)的最后一層中優(yōu)化權(quán)重。我們認為,此類策略可能會與數(shù)據(jù)論證相結(jié)合(其中創(chuàng)建了更多樣本使用原始數(shù)據(jù)的變換/擾動)以確保深度學習在精神分裂癥研究在未來的成功。 在前面的段落中,我們描述了精神分裂癥分類的重要性,介紹了以前使用機器學習方法進行分類的文獻,并描述了特征提取和分類的方法。機器學習方法具有一系列優(yōu)勢,這使它們對于研究早期風險階段和細微差異非常有吸引力,因為精神分裂癥相當符合這種情況。 Modinos等人展示了一個清晰的例子,說明了這些方法如何提高對細微變化的敏感性。他們在使用SVC(支持向量分類)時發(fā)現(xiàn)精神分裂癥患者的情緒回路有顯著變化,而在使用標準SPM分析時未發(fā)現(xiàn)類別差異。 但是,即使機器學習方法顯示出迄今為止非常令人鼓舞的結(jié)果,仍需要考慮很多陷阱和挑戰(zhàn)。在下文中,我們將重點介紹一些最重要的方面,在使用機器學習方法對精神分裂癥或類似的早期風險人群進行分類時,應(yīng)牢記這些方面。 研究中可用的高維數(shù)和典型的低樣本量是當前領(lǐng)域使用機器學習算法面臨的主要挑戰(zhàn)性問題。因此,為了確保良好的泛化性能,有必要降低輸入數(shù)據(jù)的維數(shù)(特征提?。?,可以通過正則化的過程來完成這一點。重復(fù)嵌套的CV程序?qū)τ跁簳r緩解數(shù)據(jù)可用性問題很有用,同樣的,鼓勵跨站點共享數(shù)據(jù)的舉措對于克服樣本稀少的問題也非常重要。 適當?shù)念A(yù)處理可能會對結(jié)果產(chǎn)生深遠的影響,并且在方法和參數(shù)方面都有廣泛的選擇。對于特征提取,特征選擇和分類步驟也是如此,并且需要注意的是,如果將這些選擇視為分類的自由參數(shù),則會加劇過擬合的問題,并應(yīng)考慮采用適當?shù)某绦騺韮?yōu)化泛化性,例如CV 。選擇的特征提取方法將取決于研究問題。如果研究是由特定假設(shè)驅(qū)動的,那么使用特征提取方法來專門提取數(shù)據(jù)的相關(guān)維度可能是一個優(yōu)勢。相反,如果研究更具探索性,則最好使用分解方法,因為它避免了將分析限制于一組預(yù)定義的假設(shè)。 一般而言,選擇的高度靈活性導(dǎo)致的大量分類方案也是一個挑戰(zhàn)。對于研究人員來說,很難證明沒有哪個選擇會影響模型的分類性能(因為一般來說,分類方案已針對分類性能進行了優(yōu)化)。為了避免這些問題,強烈建議在開始研究之前預(yù)先設(shè)置特定的假設(shè)和詳細的分析程序。請注意,這種預(yù)定義甚至對于具有探索性假設(shè)的研究也很有價值。另外,很重要的一點是,還必須發(fā)表具有陰性結(jié)果的研究,并著手進行旨在重現(xiàn)先前發(fā)現(xiàn)的具體研究。 精神分裂癥譜系疾病很復(fù)雜,由多種癥狀組成,個體間疾病進展不同。在實踐中,這給清晰定義疾病表型帶來了挑戰(zhàn),并使對潛在結(jié)果的解釋變得困難。精神分裂癥是由個人表達的癥狀和性狀的連續(xù)范圍,這種觀點促使人們使用機器學習來預(yù)測疾病進展的多種連續(xù)測量。在這里,自然會考慮使用多元回歸模型,例如支持向量回歸直接預(yù)測精神分裂癥的特征。此外,要利用以下事實,即經(jīng)常使用各種等級量表來評估精神分裂癥的多個維度,這些方法包括偏最小二乘回歸法可用于建立多元神經(jīng)影像數(shù)據(jù)和多種精神分裂癥措施之間的緊密關(guān)系。 總體來說,機器學習工具的使用以及基于深度學習的更魯棒的方法代表了有前景的研究途徑,可以幫助我們更全面地了解精神分裂癥,從而更好地識別患有精神分裂癥的個體,并促進對這些個體的適當管理和干預(yù)。機器學習構(gòu)成了向定量評估的范式轉(zhuǎn)變,我們不再需要依靠主觀評分和結(jié)構(gòu)化訪談。因此,可以減少花費在鑒定精神分裂癥譜系障礙亞型上的時間,同時潛在地提高臨床實踐的準確性。 總之,機器學習和神經(jīng)成像相結(jié)合在精神分裂譜系障礙的研究中應(yīng)用前景廣闊,但仍然存在一系列挑戰(zhàn),尤其是與過擬合的魯棒性以及如何得到更好的泛化性能有關(guān)。但是,如果這些挑戰(zhàn)得得以解決,則機器學習將顯著提高我們對精神分裂癥和精神分裂癥譜系障礙的理解。計算精神病學的新興領(lǐng)域在疾病預(yù)防,早期診斷,確定藥物靶標以及針對精神病的個體治療計劃中具有重要的應(yīng)用,并可能會革新現(xiàn)代神經(jīng)病學。
|