Emerging Safety Issues in Artificial Intelligence編譯自:Robert Challen,AHRQ Patient Safety Network,Perspectives on Safety,July 2019 圖片來自網(wǎng)絡(luò) 【背景】 自電子健康記錄問世以來,人們便致力于運用信息技術(shù)為臨床醫(yī)生提供更加安全和高效的服務(wù)。事實上,人工智能(Artificial intelligence,AI) 決策支持系統(tǒng)在醫(yī)療行業(yè)中的一些應(yīng)用也有一段時間了。如今,許多基于規(guī)則的人工智能決策支持系統(tǒng)在臨床上得以廣泛使用,另有一些尚在積極開發(fā)之中。最近,人們將人工智能的研究重點放在了機器學習(Machine Learning)更新上,希望通過對過去收集的案例數(shù)據(jù)進行分析整合從而構(gòu)建一個機器內(nèi)部系統(tǒng)模型,最終應(yīng)用該模型為新病人的推理診斷提供服務(wù)。由于該研究重點在近期文獻中頻頻出現(xiàn),AI幾乎成了機器學習更新的代名詞。 未來的機器學習系統(tǒng)將基于新病人的數(shù)據(jù)對進行預判性診斷,并為獲取最佳臨床結(jié)局制定患者管理策略。這類系統(tǒng)既可以定期反復訓練,也可以從以往的決策中自主學習。從長遠來看,自主決策系統(tǒng)將有望應(yīng)用于診斷特定的臨床問題,但這場演變也將在短期、中長期時間內(nèi)引發(fā)一系列特定的安全問題,這些問題在最近的一篇綜述中已被提及。然而,就在近日,美國食品藥品監(jiān)管局(FDA)對提供輔助診斷的機器自主學習更新系統(tǒng)進行了批準,因此,伴隨著這些系統(tǒng)而來的安全問題成為了本文將要探討的重點。 圖示:機器學習研究的趨勢以及相關(guān)的短期、中期和長期安全風險 【新涌現(xiàn)的安全問題】 在傳統(tǒng)的臨床決策支持系統(tǒng)中,疾病診斷依據(jù)主要由專家們提出,且均基于循證原則。而機器學習行為取決于它在訓練過程中所獲得的數(shù)據(jù),當機器學習系統(tǒng)現(xiàn)有數(shù)據(jù)不能完全匹配患者的疾病現(xiàn)狀時,系統(tǒng)的準確性將受到質(zhì)疑,這種現(xiàn)象稱為分布位移(Distributional shift)。原因可能包括訓練數(shù)據(jù)的代表性不強、患者診斷不全面、或者將機器學習系統(tǒng)不適當?shù)貞?yīng)用于不同的患者群體而該群體不在樣本內(nèi)。其他因素還包括不同患者的人口統(tǒng)計學差異、時間變化、疾病各階段臨床差異、定義黃金診斷標準的不一致以及用于掃描患者的機器本身的差異性等。臨床醫(yī)生應(yīng)該思考這樣一個問題:如果沒有對整個培訓過程進行深入了解,我們?nèi)绾未_信特定的機器自主學習決策支持系統(tǒng)適合特定的患者? 機器學習訓練包括優(yōu)化預測準確性的過程。與臨床醫(yī)生工作量相比,越來越多的研究聲稱機器診斷行為堪稱超人的表現(xiàn)。例如,針對皮膚病分類的機器學習系統(tǒng)的診斷效率已被證實明顯優(yōu)于臨床醫(yī)生在一系列良性和惡性皮膚病中進行的人工測試效率,但同時,該系統(tǒng)相比臨床醫(yī)生而言更容易出現(xiàn)誤判。這種情況下,在訓練機器學習系統(tǒng)時必須考慮到錯誤情況下可能造成某些后果的嚴重性,同時,也必須要考慮到算法的目的,權(quán)衡由假陽性和假陰性診斷結(jié)果帶來的利弊。一些算法,例如Isabel診斷支持系統(tǒng)中包括“不能錯誤診斷”這一類別,以圍繞該軸重新確定診斷建議的優(yōu)先級。 最近,蘋果公司獲FDA批準,使用智能手表來檢測心房顫動的算法。對此,蘋果公司也有相應(yīng)的擔憂:這種算法的廣泛使用,特別是在那些使用蘋果手表而房顫發(fā)生率很低的年輕人群中,可能會出現(xiàn)大量的假陽性房顫診斷而促使其進行不必要的醫(yī)學檢查。近期,蘋果公司向美國心臟病學會提交了關(guān)于AppleWatch大規(guī)模研究的初步結(jié)果,基于目前現(xiàn)有數(shù)據(jù)下結(jié)論還為時尚早。但在少量已發(fā)生的心房顫動警報案例中,只有34%的使用者通過隨訪心電圖得以證實他確實有房顫的發(fā)生。雖然指導GRADE指南發(fā)展準則很重要,但在機器學習研究中卻很少考慮到:“如果一項測驗不能改善患者的重要結(jié)果,無論它的準確度多高,都沒有使用它的理由。” 在對心電圖診斷支持系統(tǒng)的評估中,Tsai及其同事巧妙地證明了臨床醫(yī)生會受到專業(yè)系統(tǒng)建議的影響,甚至在其錯誤的指示下出現(xiàn)“自動化偏差”,這類偏差通常存在于航空業(yè)或車輛自動化大背景下。在有關(guān)醫(yī)學和非醫(yī)學背景下決策支持的綜述中,針對減少該項技術(shù)的支持性證據(jù)是有限的,但更顯而易見的問題是,在決策支持系統(tǒng)協(xié)助下受過訓練的人一旦脫離了該系統(tǒng)的幫助,將不能實現(xiàn)正常工作。這個問題很嚴重,但并非僅局限于AI或特定的機器學習系統(tǒng)。很難想象在沒有超聲心動圖的情況下能對瓣膜性心臟病進行明確診斷。不出所料,由于高準確度的檢測技術(shù)越來越容易獲取,聽診技巧在臨床實踐中變得越來越不受重視。 機器學習技術(shù)與臨床工具(如床旁超聲心動圖)的應(yīng)用存在著重要差異。機器學習系統(tǒng)就像人類決策者一樣,他們也會不可避免地犯錯,也可能像“黑匣子”一樣運作而顯得神秘莫測,這種情況下,人們不能評估到機器學習系統(tǒng)的決策過程。通常情況下,我們會假定臨床醫(yī)生的角色是解釋機器學習系統(tǒng)的建議并在其出現(xiàn)錯誤時及時采取控制措施。然而,機器學習系統(tǒng)和相關(guān)自動化偏差會以一種非常特殊且可能自我實現(xiàn)的方式出現(xiàn),它們的出現(xiàn)或會妨礙臨床技能的發(fā)展和改進,而這些臨床技能能起到監(jiān)督作用且是保證安全實施的關(guān)鍵。 無論采用何種技術(shù),最終它都可能形成由相對于AI能力弱的臨床醫(yī)生去監(jiān)管AI系統(tǒng)的局面,并可能因此對患者造成傷害。這種方式下,醫(yī)療保健為其他高風險技術(shù)系統(tǒng)(如汽車領(lǐng)域和航空領(lǐng)域的先進自動化)提供了借鑒經(jīng)驗,因為即便是少數(shù)但足夠引人矚目的事故將使公眾對自動化的智慧產(chǎn)生質(zhì)疑。如果說,臨床醫(yī)生需要在這場設(shè)想中承擔什么責任,我們認為,這樣的機器并不能很好地適應(yīng)醫(yī)療設(shè)備的現(xiàn)存定義,而需要在類似于人類決策者的監(jiān)管框架內(nèi)運作,無論是在合適的資歷、預期的實踐標準、績效審查以及為自身錯誤而承擔責任等各個方面。在這種情況下,AI系統(tǒng)需要像臨床醫(yī)生一樣,保證不會出現(xiàn)差錯。這將需要一個公司勇敢地站出來向世人展示他對人工智能系統(tǒng)的支持和信任。 【結(jié)論】 這篇文章探討了在醫(yī)學上采用機器學習系統(tǒng)(或稱人工智能技術(shù))可能產(chǎn)生的各種實際和哲學問題。但是,這些問題的嚴重性主要取決于AI系統(tǒng)在醫(yī)療領(lǐng)域的應(yīng)用程度。敗血癥預測算法的實驗正在進行中,其益處明確且可以在重要的結(jié)果中表達出來,并且數(shù)據(jù)的算法監(jiān)測與從整體中識別患者身份的臨床技能相互補充。臨床醫(yī)生和機器學習研究人員需要專注于尋找“簡單易懂”的應(yīng)用程序,以確保機器學習技術(shù)和計算機卓越的數(shù)據(jù)處理能力能安全的運用于臨床。在我們看來,關(guān)鍵是要正確理解診斷測試在臨床環(huán)境中的作用。 關(guān)于機器學習在實驗室的成果表現(xiàn)的研究報告(由Topol及其同事總結(jié))讓臨床醫(yī)生們對其作用效果產(chǎn)生了質(zhì)疑,他們懷疑這樣的目標在現(xiàn)實環(huán)境中無法實現(xiàn)。一些研究集中于將機器學習系統(tǒng)與臨床醫(yī)生決策相結(jié)合,并將最終決策與無機器學習系統(tǒng)輔助的臨床醫(yī)生診斷結(jié)果進行比較,研究通過機器學習系統(tǒng)來提高醫(yī)生疾病診斷準確性的方法。機器學習系統(tǒng)與臨床醫(yī)生的合作過程使其發(fā)展前景一片光明,并挖掘了機器自主學習作為教學和決策支持工具的巨大潛力。有機器自主學習系統(tǒng)輔助的醫(yī)生和沒有輔助的醫(yī)生之間的對比,應(yīng)當作為機器自主學習實驗標準化設(shè)計的一部分。 【作者】 Robert Challen, MA, MBBS |
|