2021年9月17日,中科院上海藥物所的蔣華良和鄭明月以及華為健康智能實驗室的喬楠等人在Journal of Medicinal Chemistry雜志發(fā)表文章,對用于從頭藥物設計的多個生成模型進行了總結和分析。 1.研究背景 新藥研發(fā)是一個復雜的過程,成本高、風險大、周期長。目前有一些化合物及其生物活性的開放可訪問資源,如ChEMBL、PubChem、ChemSpider等,這些數據庫的化合物數量一般都在幾百萬的水平。然而,潛在的類藥化合物的化學空間要大得多,估計范圍從 1023 到 1060。因此如何更有效地探索如此巨大的空間并尋找具有特殊性質的新分子是極具挑戰(zhàn)性的。 隨著計算機科學的快速發(fā)展,人工智能(AI)方法在圖像處理、模式識別和自然語言處理等領域取得了成功。機器學習,尤其是深度學習也被應用于藥物發(fā)現,例如預測化合物的性質和活性以及它們與蛋白質靶標的相互作用。近年來,深度生成模型越來越受到關注,它通過學習訓練數據的概率分布,提取代表性特征,產生低維連續(xù)表示,最終從學習到的數據分布中采樣生成新數據。 生成模型的發(fā)展為解決藥物設計難題帶來了新的思路。本文專注于生成模型在從頭藥物設計中的應用,首先簡要介紹了常用的生成模型,例如循環(huán)神經網絡(RNN)、自動編碼器(AE)、生成對抗網絡(GAN)、Transformer以及深度強化學習模型(RL);其次,全面回顧了各種生成模型在藥物設計中應用的最新進展,以及評估其性能的基準和指標。最后,本文討論了藥物設計生成模型的前景。 2.生成模型的原理 生成模型大致分為四類,包括基于循環(huán)神經網絡(RNN)、自動編碼器(AE)、生成對抗網絡(GAN)的模型、transformer以及深度強化學習模型(RL)。這些流行的生成模型的基本原理和最近的發(fā)展描述如下。 2.1 基于RNN的生成模型 圖1A展示了RNN的基本網絡結構,其中,通過隱藏層上的環(huán)路連接,當前時刻可以接收到前一時刻網絡的當前狀態(tài),并且可以進一步得到當前時刻的網絡狀態(tài)傳送到下一時刻。即作為圖 1B 中展開的 RNN,隱藏單元在時間 t 從兩個方面接收數據,分別是網絡前一時刻的隱藏單元值 ht?1 和當前輸入數據 xt,通過計算得到兩個輸出隱藏單元的值,輸出向量和更新的隱藏單元,通過時間算法的反向傳播更新網絡中的參數。 為了避免 RNN 模型中的“梯度爆炸”和“梯度消失”現象,長短期記憶(LSTM) 單元使用更可控的信息流來確定哪些信息可以保留,哪些可以丟棄,實現了更精細的內部處理,可以保持其內部狀態(tài)以延長RNN中順序輸入的時間,從而提高RNN的性能。 進一步的研究表明,GRU 是 LSTM 架構的簡化實現,可以以較低的計算成本緩解梯度消失和爆炸的問題。當 RNN 模型應用于從頭藥物設計時,分子可以表示為序列(例如使用 SMILES),在用大量的SMILES字符串訓練后,RNN模型可以用來生成一個新的、原始數據集中不包含的有效SMILES,因此可以認為是一個分子結構生成模型。 圖1:RNN的結構:(A)RNN的基本網絡結構;(B) 一個展開的 RNN 結構;(C) 基本 RNN、LSTM 和 GRU 的內部結構。 2.2 基于AE的生成模型 自動編碼器(Autoencoder, AE)由兩個網絡組成:編碼器將高維數據映射到低維表示,解碼器將原始輸入重構為給定低維表示的輸出。自動編碼器反復訓練以最小化重構輸出與原始輸入之間的偏差,其目標是找到更緊湊的樣本表示。變分自動編碼器 (variational autoencoder, VAE) 和對抗自動編碼器 (adversarial autoencoder, AAE) 使用一些附加約束修改AE,以從輸入數據中學習潛在表示。與AE的目的不同,這些模型旨在學習數據集的概率分布,從而生成與數據集相似但不同的樣本。 圖2比較了VAE和AAE的結構。 圖2:VAE、AAE 的結構及其相應的條件生成模型。(A) VAE 的結構。(B) 帶有所有標記分子的ContidionalVAE 的結構。(C) ContidionalVAE 的結構與未標記分子的預測因子相結合。(D) AAE 的結構。(E) 帶有所有標記分子的CAAE 的簡化版本。 用于新藥設計的條件變分自動編碼器(ContidionalVAE)是由半監(jiān)督變分自動編碼器(semisupervised variational autoencoder, SSVAE)衍生而來的。具體地說,引入條件有兩種不同的場景。當被視為條件的分子屬性可以直接計算出所有的分子時,這些條件就可以合并到編碼器和解碼器的輸入中(圖2B);在另一個場景中,如果條件不能直接標記所有分子,如針對特定目標的生物活性,VAE應該與預測器網絡相結合來預測那些未標記的分子的性質,條件向量被認為是預測器的潛在變量(圖2C)。 對抗性自動編碼器(AAE)(圖2D)類似于VAE,但它的特點是在結構中增加了一個判別神經網絡,該神經網絡是從GAN模型衍生而來的。AAE使用帶有鑒別器D的對抗性訓練,可以區(qū)分生成器的潛在分布和先驗分布,從而避免使用KL發(fā)散。該模型的編碼器可以看作一個生成器G,G(X)的輸出模仿先驗的任意分布p(Z)來欺騙鑒別器D。同時,訓練鑒別器D來區(qū)分來自編碼器的潛在分布和先前的p(Z)。AAE的有條件擴展包括有監(jiān)督的AAE和半監(jiān)督的AAE。對于有監(jiān)督的AAE,解碼器從潛伏向量和條件向量重建分子(圖2e)。在半監(jiān)督AAE中,由于需要產生未標記分子的條件,因此增加了一個對抗性網絡,以確保后驗分布與預先定義的分類分布相匹配。 2.3 基于GAN的生成模型 生成對抗網絡(generative adversarial network, GAN)的概念由Goodfellow于 2014 年首次提出,其靈感來自兩人零和博弈的博弈論。GAN包括一個生成器 G 和一個判別器 D(圖 3A)。通常,生成器學習將隨機噪聲映射到需要接近數據分布的特定分布,而判別器確定輸入是真實數據還是生成器生成的樣本,通常是二元分類器。一旦模型經過良好訓練,就可以從生成器中獲取新樣本。 圖3:GAN結構(A);CGAN結構(B) 具體來說,在對抗過程中,同時訓練generatorG和discriminatorD兩個神經網絡模型,使得D可以找到輸入數據中的隱藏模式,準確區(qū)分真實數據和G生成的數據,G會通過優(yōu)化權重進行迭代矩陣乘法數據采樣學習欺騙訓練有素的D。 總的來說,GAN模型的本質是D和G相互競爭的零和游戲。條件生成對抗網絡 (CGAN)是 GAN 的一種變體,它通過在生成器和鑒別器中添加額外信息來調節(jié)結果(圖 3B)。 2.4 Transformer模型 Transformer是最近提出的一種新模型,在自然語言處理(NLP)中表現出良好的性能。原始版本的Transformer由encoder和decoder組成(圖4)。 圖4:Transformer結構 這個模型的關鍵是attention機制,可以考慮序列中的長程依賴。通過學習現有化合物數據庫中大量分子的隱含連接規(guī)則來建立生成模型,訓練好的模型可根據給定的起始分子片段結構和自定義的連接段(Linker)約束條件,自動生成大量符合約束條件且結構多樣的分子。 3.生成模型在藥物設計中的應用 3.1 生成化合物并擴展化合物庫 有研究者應用基于RNN的生成模型來發(fā)現小鼠白血病病毒激酶1(Pim1)和細胞周期蛋白依賴性激酶4(CDK4)的潛在抑制劑。他們根據CDK4抑制劑和Pim1抑制劑的隨機序列對模型進行訓練,并根據合成可及性選擇三種分子。這三個分子含有一些難以附著的片段,因此在合成之前進一步簡化,從而得到MJ-4、MJ-115和MJ-1055。這些分子證實了對Pim1和CDK4的抑制活性。其中,MJ-1055對Pim1具有較強的抑制活性,IC50值為9.6nm,發(fā)現它與相關Markush專利中保護的類似分子不同。相比之下,MJ-4對CDK4的抑制活性較弱,與結構相似的已知抑制劑相比,MJ-115的活性也顯著降低??偟膩碚f,這些結果很好地支持了基于RNN的生成模型在實際任務中的適用性和潛力,也表明僅由基于RNN的模型生成的分子可能無法維持所需的活性。 GAN作為一種特殊的生成模型,也被應用于基于SMILES的分子生成。GAN在分子生成中的第一個成功應用是目標增強生成對抗網絡(ORGANIC)及其改進版本,即反設計化學目標增強生成對抗網絡(ORGANIC)。Guimares等人提出了一種基于SeqGAN的具有RL的GAN框架,它可以優(yōu)化生成分子的性質??偟膩碚f,這些模型可以生成學習原始數據分布的分子,顯示所需度量的改進,并保持樣本的多樣性。是化學方向上的ORGAN的一種實現。 如前所述,ORGANIC 的主要缺點是大量無效分子,有效分子中可能有許多重復。這可能是由化學空間的粗糙度引起的,化學空間的微小變化會對分子結構產生顯著影響。Prykhodko等人將自動編碼器與生成性對抗性神經網絡相結合,以產生用于從頭分子設計的新基因。在該模型中,分子的SMILES不直接用于GAN,而是首先通過heterencoder策略轉化為潛在載體。這一過程減輕了具有相似結構的分子所造成的復雜性,這些分子可能具有不同的規(guī)范SMILES,并減少了由同一分子的多個表示所造成的過度擬合問題。 除了AE和GAN的結合,VAE和GAN的結合是新提出的,因為這兩種方法是互補的。結合這兩種方案的模型有兩個優(yōu)點。首先,它可以避免VAE中后驗分布的近似不夠靈活,這可能導致非自然分子甚至無效輸出。其次,它可以避免處理GAN中離散變量的困難,這可能導致低多樣性問題和重復生成分子。 3.2 條件分子設計 大多數分子設計任務需要生成滿足特定要求的化合物。除了通過使用諸如微調、遷移學習和強化學習等方法來優(yōu)化生成的新分子外,人們還做出了許多努力來修改先前的生成模型,以建立條件生成模型。這類模型直接結合了分子性質信息和分子結構信息,可以指導分子生成到與特定條件相關的化學空間的特定區(qū)域。因此,條件分子設計從條件生成分布中抽取新分子,而無需任何額外的優(yōu)化過程。此外,條件模型可以更容易適應同時考慮多個目標屬性。 先前有報道提出了一種基于條件變分自動編碼器的分子生成模型(CVAE),該模型可以對潛在空間施加一定的條件,例如添加類藥五原則。在訓練期間,這些目標屬性被形成為預定義的條件向量,并與潛在向量連接。可以在不改變其他參數的情況下調整LogP,并生成具有超出訓練集范圍的特定性質的分子。然而,該模型顯示生成所需分子的成功率較低,這可能是由性質之間的強相關性造成的。Kang和Cho等人建立了一個模型,使用半監(jiān)督變分自動編碼器(SSVAE)的回歸版本有條件地生成分子。Hong等人提出了基于ARAE的條件生成模型CARAE,在該模型中,他們采用了變分互信息最小化框架來生成具有特定目標性質的分子。利用預測網絡對原始分子性質進行預測,通過最小化變分互信息,將分子性質從潛在向量中分離出來。在解碼階段,根據潛在向量和分離的目標屬性信息重構分子結構。 由于新冠病毒大流行,Chentamarakshan等人提出了一種稱為受控分子生成(CogMol)的生成模型,通過在VAE模型中引入多屬性受控采樣方案,設計具有一組期望屬性的靶向新型病毒蛋白的分子。他們使用CogMol為三種SARS-CoV-2靶蛋白、主要蛋白酶、棘突蛋白的受體結合域和非結構蛋白復制酶生成新分子,受靶親和力和選擇性、藥物相似性、合成可行性和毒性的限制。結果表明,生成的分子能夠很好地結合到靶點結構的相關口袋中,并顯示出較低的預測代謝物毒性和較高的合成可行性。 4.生成模型的基準和指標 有兩個主要的新分子設計基準,即molecular sets(MOSES)和GuacaMol,它們涵蓋了常用的生成模型和評估生成模型性能的各種指標。 MOSES主要關注評估生成分子的分布問題。它針對五個基于神經網絡的基準模型,即CharRNN、VAE、AAE、JT-VAE和LatentGAN,以及三個非神經網絡的基準,即n-gram生成模型、隱馬爾科夫模型和組合生成器。 在MOSES中,"有效性"、"獨特性"和 "新穎性"是評價各種模型所生成的分子質量的三個最廣泛使用的指標。"有效性"描述了生成的分子中能被RDCit識別的SMILES的百分比,"獨特性"代表了有效分子中非冗余分子的比例,而"新穎性"是生成的分子中不在訓練集中的部分。MOSES中使用的其他指標見表4。 表4. 分子生成模型的性能指標列表 相應地,還考慮了這兩個方面的指標。對于分布學習基準,評估"有效性"、"唯一性"和 "新穎性"這三個通用指標,"FCD"也被用于GuacaMol中(表4)。此外,"KL分歧"被用來比較訓練分子和生成分子的物理化學描述符的概率分布(表4)。對于目標導向的基準,有幾類不同的優(yōu)化目標,例如重新發(fā)現目標分子、生成與目標分子相似的分子、生成與目標分子式對應的異構體等。 5.總結 從頭藥物設計是一個長周期、高投資的過程。隨著AI的快速發(fā)展,越來越多的相關方法被提出。研究人員已經提出了在其他領域(如圖像或文本生成)成功的不同架構,以生成具有預期生物和化學性質的新先導化合物。從這個視角,本文主要總結了最近報道的生成建模技術,并展示了它們在從頭藥物設計領域中的應用。 盡管已經有很多關于分子生成模型的研究,但生成模型在藥物設計中的應用仍處于起步階段,還有許多挑戰(zhàn)需要進一步解決。 為了擴展現有化合物庫,出現了許多包含有效和新穎化學結構的虛擬庫,包括GDB、ZINC、REAL、DrugspaceX等等。這些庫要么由預定義的基于規(guī)則的轉換生成,要么由數學圖生成。已經有一些通過虛擬篩選從這些化合物庫中成功發(fā)現新活性配體的例子。深度生成模型的一個明顯的優(yōu)勢是它可以訓練學習分子表征和相關性質的聯合概率分布,這使我們能夠更有效地對滿足特定性質的新分子進行取樣。有一些報道的工作試圖探索化學空間,以獲得滿足分子某些物理化學性質的分子,這是一個需要進一步探索的新興方向。 在生成模型的分子表征方面,許多人致力于研究分子拓撲圖,但由于使用的數據集和指標不同,他們的表現往往缺乏可比性。隨著方法的改進,不同生成模型之間的比較將變得更加規(guī)范和客觀。此外,一些研究正在嘗試添加有關三維化學結構的信息,旨在更準確地描述分子的結構,從而使模型生成的分子更可靠,便于進一步研究。 目前廣泛用于生成模型的性能指標也需要改進。常用的“可成藥性”和“可合成性”指標也有其自身的問題。因此,盡管提供了不同的生成模型的評估和比較指標,但這些指標對不同研究的作用和重要性仍不清楚。如何評估模型的質量和生成的分子仍然是一個懸而未決的問題,這需要共同努力以更好地改進基準評估方法并評估已發(fā)布的生成模型的能力。 現有研究的另一個明顯缺點是缺乏實驗驗證。雖然已經有很多關于使用生成模型生成新化合物的報道,但生成的化合物被合成和實驗評估的例子較少。Zhavoronkov 等使用分子 GENTRL 在 21 天內發(fā)現有效的 DDR1 抑制劑。他們在不到2個月的時間內設計、合成并實驗驗證了靶向DDR1激酶的分子,最終獲得了在實驗動物中具有良好藥代動力學特性的候選藥物。這個成功案例說明了快速藥物設計生成模型的可行性,但我們也需要謹慎,因為生成的分子仍處于藥物開發(fā)的早期階段,可能需要進一步評估其在人體中的有效性和安全性。此外,在將生成模型應用于藥物設計時,需要嚴格評估生成分子的新穎性。 總的來說,我們才剛剛開始使用生成模型來設計分子,這種模型還有很多方面需要進一步改進,需要更多的計算和實驗驗證以及基準測試。盡管如此,我們相信它會在不久的將來成為從頭藥物設計領域的重要支柱,幫助藥物化學家產生新的想法并加速藥物發(fā)現的周期。 參考資料 Xiaochu Tong, Xiaohong Liu, Xiaoqin Tan, Xutong Li, Jiaxin Jiang, Zhaoping Xiong, Tingyang Xu, Hualiang Jiang, Nan Qiao, and Mingyue Zheng , Generative Models for De Novo Drug Design , Journal of Medicinal Chemistry. https:///10.1021/acs.jmedchem.1c00927 |
|