這是科學激動人心的新一步。我們將直播解讀這兩研究,詳見文后。 使用 氨基酸 序列預測蛋白質形狀的 AphaFold2,終于開源了。眾所周知,蛋白質是生命活動的基本組件,它們可以單獨存在,也會協(xié)同工作。為了發(fā)揮作用,這些長鏈氨基酸扭曲、折疊并交織成復雜的形狀,這些形狀可能很難,甚至根本不可能破譯。科學家們一直在夢想通過基因序列簡單地預測蛋白質形狀——如果能夠成功,這將開啟一個洞察生命運作機理的新世界。然而近五十年來,人們的進展緩慢。7 月 15 日,《自然》雜志一篇論文被接收的消息引發(fā)了人們的關注,谷歌旗下人工智能公司 DeepMind 在研究《Highly accurate protein structure prediction with AlphaFold》中宣布,人們首次發(fā)現(xiàn)了一種通過計算來預測蛋白質結構的方法。即使在不知道相似結構的情況下,AI 也可以在原子層面上精確預測蛋白質結構。也就是說,之前備受關注的 AlphaFold2 終于開源了。 無獨有偶,作為相當熱門的研究領域,Science 同樣在今天發(fā)表了一篇論文,介紹并開源了一個可媲美 AlphaFold2 的新工具 RoseTTAFold。AlphaFold2 開源,原子精度預測蛋白質結構2020 年 12 月的國際蛋白質結構預測競賽 CASP ,一項重磅成果引發(fā)了科技界所有人的關注:由 DeepMind 開發(fā)的 AlphaFold 2 擊敗一眾選手,在準確性方面達到比肩人類實驗結果,被認為是蛋白質折疊問題的解決方案。 在兩年一次的 CASP 競賽中,各組爭先預測蛋白質的 3D 結構。2020,AlphaFold 擊敗了所有其他小組,并在準確性方面與實驗結果相匹配。它能以就計算機方法而言前所未有的準確度根據蛋白質的氨基酸序列預測其三維結構。 這破解了出現(xiàn)五十年之久的蛋白質分子折疊問題,同時證明了 AI 對于科學發(fā)現(xiàn),尤其是基礎科學研究的影響。科學家們紛紛表示,這項突破極具意義。Alphafold 的突破性研究成果將幫助科研人員弄清引發(fā)某些疾病的機制,并為設計藥物、農作物增產,以及可降解塑料的「超級酶」研發(fā)鋪平道路。因此,這段時間以來,科研圈也在等待 AlphaFold 2 的技術細節(jié)。不久之前,Demis Hassabis 就曾在 Twitter 上表示 DeepMind 將開源 AlphaFold2,如今終于兌現(xiàn)承諾。7 月 15 日,Demis Hassabis、John Jumper 等人在 Nature 雜志上發(fā)表了文章《Highly accurate protein structure prediction with AlphaFold》,描述并開源了 AlphaFold2,它預測的蛋白質結構能達到原子水平的準確度。 在文章中,DeepMind 表示 AlphaFold 可以周期性的以原子精度預測蛋白質結構。在技術上,AlphaFold 利用多序列對齊,進行深度學習算法的設計,還結合了關于蛋白質結構的物理和生物學知識提升效果。作為通訊作者之一,Demis Hassabis 在一段聲明中寫到,「去年在 CASP14 大會上我們揭曉了一個可以將蛋白質 3D 結構預測精確到原子水平的全新 AlphaFold 系統(tǒng),此后我們承諾會分享我們的方法,并為科學共同體提供廣泛、免費的獲取途徑。今天我們邁出了承諾的第一步,在《自然》期刊上分享 AlphaFold 的開源代碼,并發(fā)表了系統(tǒng)的完整方法論,詳盡細致說明 AlphaFold 是如何做到精確預測蛋白質 3D 結構的。作為一家致力于推動科學進步的公司,我們期待看到我們的方法將為科學界啟發(fā)出什么其他新的研究方法,也期待很快能和大家分享更多我們的新進展。」AlphaFlod 首次參加 CASP 就在 98 名參賽者中名列榜首,準確地從 43 種蛋白質中預測出了 25 種蛋白質的結構。而同組比賽中獲得第二名的參賽者僅準確預測出了 3 種。AlphaFold 專注于從頭開始建模目標形狀,且并不使用先前已經解析的蛋白質作為模板。在大多數情況下,AlphaFold 的準確性與實驗相媲美,大大優(yōu)于其他方法。 AlphaFold 網絡直接預測給定蛋白質的所有重原子的三維坐標,使用基本氨基酸序列和同源序列的對齊序列作為輸入 (如圖 1e)。AlphaFold 網絡由兩個主要部分組成。首先,網絡的主干通過一個稱為 Evoformer 的新神經網絡塊的重復層來處理輸入,產生一個 Nseq × Nres 陣列 (Nseq: 序列數,Nres: 殘差數) ,它表示一個處理過的 MSA 和一個表示剩余對的 Nres × Nres 陣列。Evoformer 塊包含許多新穎的基于注意力和非基于注意力的成分,它的關鍵創(chuàng)新是與 MSA 交換信息的新機制,并能直接推理空間和進化關系的配對表征。網絡的主干之后是結構模塊(Structure Module),該模塊以蛋白質的每個殘基的旋轉和平移的形式引入了顯式的 3-D 結構。這些表征在微不足道的狀態(tài)下初始化,所有旋轉設置為同一性(identity),所有位置設置為原點,但能夠快速開發(fā)和完善具有精確原子細節(jié)的高度準確的蛋白質結構。這部分網絡的關鍵創(chuàng)新包括打破鏈原子結構,允許同時局部細化結構的所有部分,一個新的「equivariant transformer」允許網絡隱式地推理未表示的側鏈原子,以及損失項可對殘基方向的正確性賦予重要權重。
 更多細節(jié)大家可以查看 Nature 原文與 DeepMind 提供的補充材料。最后提一句,也不知是何原因,該論文未經編輯就出版了(5 月接收、7 月發(fā)表),難道是知道今天 Science 也將發(fā)表論文介紹一個可與 AlphaFold2 相匹配的研究?也就是下面這一篇。華盛頓大學等開發(fā)媲美 AlphaFold2 的新工具 RoseTTAFoldDeepMind 在 2020 年的 CASP14 會議上展示了其在該領域的顯著成果 AlphaFold2,當時該技術在預測蛋白質方面取得了排名第一的準確率。華盛頓大學醫(yī)學院蛋白質設計研究所(Institute for Protein Design)的研究者們很大程度上重現(xiàn)了 DeepMind 在蛋白質預測任務上的表現(xiàn),他們聯(lián)合哈佛大學、德克薩斯大學西南醫(yī)學中心、劍橋大學、勞倫斯伯克利國家實驗室等機構研發(fā)出了一款基于深度學習的蛋白質預測新工具 RoseTTAFold,在預測蛋白質結構上取得了媲美 AlphaFold2 的超高準確率,而且速度更快、所需要的計算機處理能力也較低。 論文鏈接:https://science./content/early/2021/07/14/science.abj8754華盛頓大學醫(yī)學院團隊也向社區(qū)開源了該工具,來自世界各地的科學家都可以使用它來構建蛋白質模型,加速自己的研究。在上傳至 GitHub 后不久,該工具就已被 140 多個獨立研究團隊下載。 項目地址 https://github.com/RosettaCommons/RoseTTAFold具體地,在這項研究中,華盛頓大學醫(yī)學院生物化學系教授、蛋白質設計研究所所長 David Baker 領導的計算生物學家團隊開發(fā)了一款叫做「RoseTTAFold」的軟件工具,該工具利用深度學習技術,根據有限信息準確、快速地預測蛋白質結構,原本這一工作需要數年的實驗室研究。從結構上來看,RoseTTAFold 是一個三軌(three-track)神經網絡,意味著它可以兼顧蛋白質序列的模式、氨基酸如何相互作用以及蛋白質可能的三維結構。在這種結構中,一維、二維、三維信息來回流動,使得網絡能夠集中推理蛋白質的化學部分與它的折疊結構。下圖 A 為具有 1D、2D 和 3D 注意力軌跡(attention track)的 RoseTTAFold 架構;B 為 CASP14 目標上蛋白質預測方法的平均 TM-score;C 為 CAMEO 中介(medium)和硬(hard)目標的盲基準測試結果。 RoseTTAFold 方法的準確率比目前可用的方法高得多,因而研究者想要測試是否可以利用它解決以前未解決且具有挑戰(zhàn)性的 MR 問題,并改進臨界個案的解決方案。四個最近的晶體數據集,包括牛屬甘氨酸 N - ?;D移酶(GLYAT)、細菌氧化還原酶以及細菌表面層蛋白(SLP)(下圖 A)和來自真菌平革菌屬金孢子菌屬的分泌蛋白(下圖 B),基于 PDB 蛋白質數據庫中可用的模型無法利用 MR 解決,因此研究者使用 RoseTTAFold 模型進行了重新分析: 另一方面,RoseTTAFold 能夠利用一臺游戲計算機在短短 10 分鐘內計算出蛋白質結構。研究者使用 RoseTTAFold 計算出了數百種新的蛋白質結構,其中包括許多人類基因組中認知甚少的蛋白質。此外,他們還生成了與人類健康直接相關的一些蛋白質結構,包括與有問題的脂質代謝、炎癥和癌細胞生長相關的蛋白質。他們還表明,RoseTTAFold 可以用于建立復雜生物的模型,所需時間只是以前所需時間的一小部分。下圖為使用 RoseTTAFold 的蛋白質預測流程。其中,A 和 B 是從序列信息中預測大腸桿菌蛋白復合物的結構;C 表示由 RoseTTAFold 生成的 IL-12R/IL-12 復合結構符合以前發(fā)表的低溫電子顯微鏡(cryo-EM)密度(EMD-21645)。 論文一作、華盛頓大學博士后研究員 Minkyung Baek 表示:「我們希望這個新工具將造福整個研究領域。」https://newsroom./news/accurate-protein-structure-prediction-now-accessible-allhttps://www./articles/s41586-021-03819-2 今天兩大團隊同時發(fā)布蛋白質預測成果,其中DeepMind如約公布了AlphaFold2的詳細信息,另一團隊的RoseTTaFold也基于同樣的思想,取得了接近AlphaFold2的效果。
|