“ AI雖好但是很有可能導(dǎo)致安全隱患,充分的臨床試驗是非常有必要的!” 一項發(fā)表在《柳葉刀》(TheLancet)雜志上的研究顯示,一種用于檢測髖關(guān)節(jié)骨折的人工智能算法的表現(xiàn)優(yōu)于人類放射科醫(yī)生,但研究人員在進一步測試后發(fā)現(xiàn)了一些錯誤,這些錯誤會妨礙該軟件的安全使用,因此在效率與安全如何平衡成為了人工智能在醫(yī)學(xué)領(lǐng)域運用的最重要鴻溝。 01 — 具體細節(jié)! 研究人員評估了一種深度學(xué)習模型,該模型旨在通過急診病人的正位X光片發(fā)現(xiàn)股骨近端骨折,該模型是根據(jù)澳大利亞皇家阿德萊德醫(yī)院的數(shù)據(jù)進行訓(xùn)練的。他們將該模型的準確性與同樣來自阿德萊德皇家醫(yī)院的數(shù)據(jù)集上的5名放射科醫(yī)生進行了比較,然后利用美國斯坦福大學(xué)醫(yī)學(xué)中心的成像結(jié)果進行了外部驗證研究,最后,他們進行了算法審計,以發(fā)現(xiàn)任何不尋常的錯誤。 在皇家阿德萊德研究中,評估人工智能模型性能的受試者工作特征曲線(AUC)下面積為0.994,而放射科醫(yī)生的AUC為0.969。使用Stanford數(shù)據(jù)集,模型性能的AUC為0.980。然而,研究人員發(fā)現(xiàn),如果沒有額外的準備,外部驗證仍然不能在新的環(huán)境中使用。 該研究的作者寫道:“盡管人工智能系統(tǒng)(AUC)的鑒別性能似乎在外部驗證中得以維持,但在預(yù)先指定的操作點(從95.5到75.0)的靈敏度下降,將使系統(tǒng)在新的環(huán)境中無法在臨床上使用。”“盡管這種轉(zhuǎn)變可以通過選擇一個新的操作點來緩解,正如我們在事后分析中發(fā)現(xiàn)的類似的敏感性和特異性(特異性的較小下降反映了區(qū)別表現(xiàn)的較小下降), 這需要一個本地化過程來確定新環(huán)境中的新操作點?!?/p> 雖然該模型總體表現(xiàn)良好,但研究也指出,它偶爾會出現(xiàn)非人類錯誤,或人類放射科醫(yī)生不會犯的意外錯誤。作者寫道:“盡管該模型在股骨近端骨折檢測的任務(wù)中表現(xiàn)非常好,但在人們認為簡單易懂的情況下,該模型似乎容易犯意想不到的錯誤?!?/p> 02 — 該文章對整個AI醫(yī)學(xué)應(yīng)用市場的影響! 研究人員表示,該研究強調(diào)了在實施人工智能模型之前進行嚴格測試的重要性?!霸撃P驮谕獠框炞C中表現(xiàn)優(yōu)于放射科醫(yī)生的測試并保持了性能,但在進一步測試中顯示出一些意想不到的局限性。對人工智能模型進行全面的臨床前評估,包括算法審計,即使在高性能的人工智能系統(tǒng)中,也可以發(fā)現(xiàn)意想不的、潛在的有害行為,這可以為未來的臨床測試和部署決策提供信息?!?/p> 許多公司正在使用人工智能分析成像結(jié)果。上個月,Aidoc獲得了FDA 510(k)的兩項許可,用于標記和分類潛在的氣胸和腦動脈瘤。該領(lǐng)域的另一家公司quure。在獲得美國食品和藥物管理局(FDA)批準后不久,該公司的一款工具就獲得了4000萬美元的融資,該工具可以幫助提供商根據(jù)胸部x光片植入呼吸管。盡管支持者認為人工智能可以改善結(jié)果并降低成本,但研究表明,用于訓(xùn)練這些模型的許多數(shù)據(jù)集來自美國和中國,這可能會限制它們在其他國家的用途。偏見也是醫(yī)療提供者和研究人員的一大擔憂,因為它有可能加劇衛(wèi)生不平等。 |
|
來自: 睿談醫(yī)養(yǎng) > 《待分類》