![]()
新智元報道 【新智元導讀】AI技術加持之下,科學研究的效率被大大加強,呈現(xiàn)出了全新的機會和發(fā)展空間,但也要面對新的挑戰(zhàn)和困難。AI與各個科學領域結合后,正在發(fā)生著一場充滿潛力和挑戰(zhàn)的科技革命。 通過探索理論、設計實驗、分析數(shù)據,人工智能將為我們所熟知的科學發(fā)現(xiàn)提供超級動力。 ![]() 8月2日,谷歌團隊研究人員在Nature上發(fā)表了一項研究——人工智能時代的科學發(fā)現(xiàn),總結了AI在科學發(fā)現(xiàn)中的應用和進展。 ![]() 如何收集、轉換和理解數(shù)據為形成科學見解和理論奠定了基礎。 2010年代初興起的深度學習,極大地擴展了這些科學發(fā)現(xiàn)過程的范圍和雄心。 人工智能越來越多地應用于各個科學學科,以整合海量數(shù)據集、完善測量、指導實驗、探索與數(shù)據相匹配的理論空間,以及提供與科學工作流程相結合的可操作的可靠模型,從而實現(xiàn)自主發(fā)現(xiàn)。 ![]() 數(shù)據收集和分析是科學理解和發(fā)現(xiàn)的基礎,也是科學的兩大核心目標、定量方法和新興技術。 20世紀50年代,數(shù)字化的引入為計算機在科學研究中的普遍應用鋪平了道路。 自2010年代以來,數(shù)據科學的興起使AI能夠從大型數(shù)據集中識別出與科學相關的模式,從而提供有價值的指導。 盡管科學實踐和過程在科學研究的各個階段各不相同,但人工智能算法的發(fā)展跨越了傳統(tǒng)上孤立的學科。 這種算法可以增強科學研究的設計和執(zhí)行,正在成為研究人員不可或缺的工具。
近來,AI在科學方面最新的進展,就包括解開50年前的蛋白質折疊問題,以及人工智能驅動的數(shù)百萬粒子的分子系統(tǒng)模擬,證明了人工智能解決具有挑戰(zhàn)性的科學問題的潛力。 與任何新技術一樣,AI4Science 的成功取決于,我們是否有能力將其融入日常實踐并了解其潛力和局限性。 在科學發(fā)現(xiàn)過程中,廣泛采用人工智能的障礙包括發(fā)現(xiàn)過程每個階段特有的內部和外部因素,以及對方法、理論、軟件和硬件的實用性和潛在濫用的擔憂。 論文中,研究人員將探討人工智能科學的發(fā)展并解決關鍵問。 AI輔助科學研究數(shù)據采集與管理 數(shù)據選擇 一個典型的粒子碰撞實驗每秒產生超過100 TB的數(shù)據。這類科學實驗正在挑戰(zhàn)現(xiàn)有數(shù)據傳輸和存儲技術的極限。 在這些物理實驗中,99.99%以上的原始儀器數(shù)據都是背景事件,必須實時檢測并丟棄,以管理數(shù)據速率。 為了識別罕見事件,便于未來的科學研究,深度學習方法用「搜索離群信號」的算法取代了預先編程的硬件事件觸發(fā)器,以檢測壓縮過程中可能遺漏的意外或罕見現(xiàn)象。 背景過程可使用深度自動編碼器生成模型。 自動編碼器會為以前未見過的、不屬于背景分布的信號(罕見事件)返回較高的損失值(異常得分)。與有監(jiān)督異常檢測不同,無監(jiān)督異常檢測不需要標注,已廣泛應用于物理學、神經科學、地球科學、海洋學和天文學。 數(shù)據標注 訓練有監(jiān)督模型需要帶有標注的數(shù)據集,這些標注可提供有監(jiān)督信息,以指導模型訓練,并根據輸入估計目標變量的函數(shù)或條件分布。 在生物學領域,為新表征的分子分配功能和結構標簽的技術對于監(jiān)督模型的下游訓練至關重要,因為實驗生成標簽非常困難。 例如,盡管下一代測序技術不斷發(fā)展,但只有不到1%的測序蛋白質標注了生物學功能。 另一種數(shù)據標注策略,是利用在人工標注數(shù)據上訓練的智能體模型來標注未標注的樣本,并利用這些預測的偽標簽來監(jiān)督下游預測模型。 相比之下,標簽傳播則是通過基于特征嵌入構建的相似性圖將標簽擴散到未標記的樣本中。 除了自動標注外,主動學習還能確定需要人工標注的信息量最大的數(shù)據點或需要進行的信息量最大的實驗。 通過這種方法,可以用較少的專家提供的標簽來訓練模型。數(shù)據標注的另一種策略是利用領域知識制定標注規(guī)則。 數(shù)據生成 隨著訓練數(shù)據集的質量、多樣性和規(guī)模的提高,深度學習的性能也在不斷改善。 創(chuàng)建更好模型的一個有效方法是,通過自動數(shù)據增強和深度生成模型,生成額外的合成數(shù)據點來增強訓練數(shù)據集。 除了人工設計此類數(shù)據擴增外,強化學習方法還能發(fā)現(xiàn)一種自動數(shù)據擴增策略,這種策略既靈活又與下游模型無關。 深度生成模型,包括變異自動編碼器、生成對抗網絡、歸一化流和擴散模型,可以學習底層數(shù)據分布,并從優(yōu)化的分布中采樣訓練點。 生成式對抗網絡已被證明可用于科學圖像,因為它們可以合成許多領域的逼真圖像。 概率編程是生成模型中的一種新興技術,并將數(shù)據生成模型表達為計算機程序。 學習科學數(shù)據有意義的表示 高質量的表征應盡可能多地保留數(shù)據信息,同時保持簡單易懂。 有科學意義的表征應結構緊湊、有鑒別性、能區(qū)分潛在的變異因素,并能編碼可在多項任務中通用的潛在機制。 在此,研究人員將介紹滿足這些要求的3種新興策略:幾何先驗、自監(jiān)督學習、語言建模。 幾何先驗 由于幾何和結構在科學領域發(fā)揮著核心作用,因此在學習表征中整合「幾何先驗」已被證明是有效的。 對稱是幾何學中一個被廣泛研究的概念。它可以用不變性和等差性來描述來數(shù)學函數(shù)的行為,以表示神經特征編碼器在一組變換下的行為。 在科學圖像分析中,物體在圖像中平移時不會發(fā)生變化,這意味著圖像分割掩碼是平移等變的,因為當輸入像素平移時,它們會發(fā)生等效變化。 通過增加訓練樣本,將對稱性納入模型可使AI在有限的標注數(shù)據中受益,并可改善對與模型訓練過程中遇到的輸入明顯不同的輸入的外推預測。 幾何深度學習 圖神經網絡,已成為對具有潛在幾何和關系結構的數(shù)據集進行深度學習的主要方法。 從廣義上講,幾何深度學習包括,發(fā)現(xiàn)關系模式 ,并通過神經信息傳遞算法,以圖形和變換組的形式編碼的局部信息。
自監(jiān)督學習 當只有少數(shù)標記樣本可用于模型訓練,或當為特定任務標記數(shù)據成本過高時,監(jiān)督學習可能是不夠的。 在這種情況下,利用標記和未標記數(shù)據可以提高模型性能和學習能力。 自監(jiān)督學習是一種技術,讓模型能夠在不依賴顯式標簽的情況下學習數(shù)據集的一般特征。 自監(jiān)督學習是一個重要的預處理步驟,它可以在大型無標簽數(shù)據集中學習可轉移的特征,然后在小型有標簽數(shù)據集中微調模型,以執(zhí)行下游任務。 這種對科學領域有廣泛的了解的預訓練模型,是通用預測器,可適用于各種任務,從而提高標注效率,超越純監(jiān)督方法。 語言建模 掩碼語言建模是一種流行的方法,用于自監(jiān)督學習自然語言和生物序列。 隨著自然語言和生物序列處理的不斷發(fā)展,它們?yōu)楸舜说陌l(fā)展提供了信息。 在訓練過程中,目標是預測序列中的下一個token,而在基于掩碼的訓練 中,自監(jiān)督任務是使用雙向序列上下文恢復序列中的掩碼token。 蛋白質語言模型可以,編碼氨基酸序列以捕獲結構和功能特性,并評估病毒變體的進化適應性。 Transformer架構 Transformers是一種神經結構模型,可以通過靈活模擬任意token對之間的相互作用,來處理token序列,超越了早期使用遞歸神經網絡進行序列建模的努力。 雖然Transformers統(tǒng)一了圖神經網絡和語言模型,但Transformers的運行時間和內存占用可能與序列長度成二次方關系,從而導致遠程建模,和線性化注意機制在效率方面面臨挑戰(zhàn)。 因此,無監(jiān)督或自監(jiān)督生成式預訓練變換器被廣泛使用,隨后進行參數(shù)高效微調。 神經算子 標準神經網絡模型可能無法滿足科學應用的需要,因為它們假定數(shù)據離散度是固定的。 這種方法不適用于以不同分辨率,和網格收集的許多科學數(shù)據集。 此外,數(shù)據通常是從連續(xù)域中的潛在物理現(xiàn)象中采樣的, 神經算子通過學習函數(shù)空間之間的映射來學習,不受離散化影響的表征。 神經算子保證離散化不變,這意味著它們可以處理任何離散化的輸入,并在網格細化時收斂到一個極限。 神經算子一旦訓練完成,就可以在任何分辨率下進行評估,無需重新訓練。相比之下,當部署過程中的數(shù)據分辨率與模型訓練時的數(shù)據分辨率發(fā)生變化時,標準神經網絡的性能就會下降。 基于人工智能的科學假設生成 科學假設的黑盒預測器 為科學探究確定有希望的假設,需要有效地檢查許多候選方案,并選擇那些可以最大限度地提高下游模擬和實驗產量的假設。 在藥物發(fā)現(xiàn)中,高通量篩選可以評估數(shù)千到數(shù)百萬個分子,算法可以優(yōu)先考慮實驗研究哪些分子。模型可以被訓練來預測實驗的效用,例如相關的分子特性,或符合觀察結果的符號公式。 然而,對于許多分子來說,這些預測因子的實驗事實數(shù)據可能不可用。 因此,弱監(jiān)督學習方法可以用來訓練這些模型,其中嘈雜、有限或不精確的監(jiān)督被用作訓練信號。 這些方法可以經濟有效地替代人類專家的標注、昂貴的硅學計算或更高保真的實驗。
在高保真模擬上訓練的AI方法已被用于高效篩選大型分子庫。 為了進一步提高這些過程的效率,AI選擇的候選方案可以被送到中等或低吞吐量實驗中,以便使用實驗反饋對候選物進行持續(xù)細化。 結果可以使用主動學習和貝葉斯優(yōu)化反饋到AI模型中,使算法能夠改進其預測,并專注于最有前途的候選方案。 當假設涉及分子等復雜對象時,人工智能方法就變得非常有價值。 例如,在蛋白質折疊方面,AlphaFold2可以根據氨基酸序列預測蛋白質的三維原子坐標,其精確度甚至可以達到原子級別,即使蛋白質的結構與訓練數(shù)據集中的任何蛋白質都不同。 這一突破促進了各種人工智能驅動的蛋白質折疊方法的發(fā)展,如RoseTTAFold106。 除了正向問題,人工智能方法也越來越多地用于逆向問題,旨在了解產生一組觀測數(shù)據的因果因素。 逆向問題,如逆向折疊或固定骨架設計,可以使用在數(shù)百萬個蛋白質結構上訓練過的黑盒預測器,根據蛋白質骨架三維原子坐標預測氨基酸序列。 然而,此類黑盒人工智能預測器需要大量訓練數(shù)據集,盡管減少了對現(xiàn)有科學知識的依賴,但可解釋性有限。 導航組合假設空間 盡管對所有與數(shù)據相匹配的假設進行采樣是一件令人生畏的事情,但一個可以管理的目標是尋找一個好的假設,這可以表述為一個優(yōu)化問題。 與依賴人工設計規(guī)則的傳統(tǒng)方法相比,人工智能策略可用于估算每次搜索的回報,并優(yōu)先選擇價值較高的搜索方向。 通常采用強化學習算法訓練的智能體來學習策略。 該智能體學會在搜索空間中采取使獎勵信號最大化的行動,獎勵信號可定義為反映所生成假設的質量或其他相關標準。 為了解決優(yōu)化問題,可以使用進化算法來解決符號回歸任務。該算法生成隨機符號定律作為初始解決方案集。 在每一代中,候選解決方案會有輕微變化。 算法會檢查任何修改所產生的符號定律是否比之前的解決方案更適合觀測結果,并將最好的解決方案保留到下一代。 不過,強化學習方法正逐漸取代這一標準策略。 強化學習利用神經網絡,通過添加預定義詞匯表中的數(shù)學符號,并利用所學策略決定下一步添加哪個符號,從而依次生成數(shù)學表達式。 數(shù)學公式表示為一棵解析樹。學習策略將解析樹作為輸入,以決定擴展哪個葉節(jié)點和添加哪個符號。 使用神經網絡解決數(shù)學問題的另一種方法是,將數(shù)學公式轉化為二進制符號序列。 然后,神經網絡策略可以按概率順序每次增加一個二進制字符。 通過設計一個獎勵來衡量反駁猜想的能力,這種方法可以在沒有數(shù)學問題的先驗知識的情況下,找到對數(shù)學猜想的反駁方法。 組合優(yōu)化也適用于發(fā)現(xiàn)具有理想藥物性質的分子等任務,其中分子設計中的每一步,都是一個離散的決策過程。 在這個過程中,部分生成的分子圖被給出作為學習策略的輸入,對在哪里添加新原子以及在分子中的選定位置添加哪個原子做出離散的選擇。 通過迭代執(zhí)行這個過程,該策略可以生成一系列可能的分子結構,根據它們對目標屬性的適應性進行評估。 AI智能體學習的策略能預見一些行動,這些行動最初似乎不合常規(guī),但事實證明是有效的。 例如,在數(shù)學中,監(jiān)督模型可以識別數(shù)學對象之間的模式和關系,并幫助指導直覺并提出猜想。 這些分析指向了以前未知的模式,甚至是世界的新模型。 然而,強化學習方法可能無法在模型訓練期間很好地泛化到看不見的數(shù)據,因為一旦智能體找到一系列運行良好的動作,它可能會陷入局部最優(yōu)。 為了提高泛化,需要一些探索策略來收集更廣泛的搜索軌跡,這些軌跡可以幫助智能體在新的和修改的設置中表現(xiàn)得更好。 優(yōu)化可微分假設空間 科學假設通常采用離散對象的形式,例如物理學中的符號公式或制藥和材料科學中的化合物。 盡管組合優(yōu)化技術在其中一些問題上取得了成功,但可微空間也可以用于優(yōu)化,因為它適合基于梯度的方法,可以有效地找到局部最優(yōu)。 為了能夠使用基于梯度的優(yōu)化方法,有兩種方法經常被使用。 第一種是使用VAE等模型,將離散的候選假設映射到潛在可變空間中的點。 第二種方法是將離散假設松弛為可在可微分空間中優(yōu)化的可微分對象。 這種松弛可以采取不同的形式,例如用連續(xù)變量替換離散變量,或使用原始約束條件的軟版本。 物理學中的符號回歸應用使用語法VAE。這些模型使用上下文無關語法將離散符號表達式表示為解析樹,并將解析樹映射到可微分的潛在空間中。 然后采用貝葉斯優(yōu)化法優(yōu)化符號定律的潛在空間,同時確保表達式在語法上有效。 在許多科學學科中,假設空間可能遠遠大于實驗所能考察的范圍。 因此,我們迫切需要一種方法,在這些基本未開發(fā)的區(qū)域中高效搜索并識別高質量的候選解決方案。 AI驅動的實驗與模擬 然而,實驗室實驗的成本可能過于高昂且不切實際。 計算機模擬作為一種有前景的替代方案已經出現(xiàn),對比實驗它具有更高效靈活的優(yōu)勢。 雖然模擬依賴于手工制定的參數(shù)和開創(chuàng)式的方法來模擬真實場景,但與物理實驗相比,還需要在準確性和速度之間進行權衡,需要理解其中的基本機制。 然而,隨著深度學習的出現(xiàn),通過識別和優(yōu)化假設以進行高效測試,并賦予計算機模擬聯(lián)結觀察結果與假設的能力,這些挑戰(zhàn)正在得到解決。 高效評估科學假設具體而言,AI系統(tǒng)可以協(xié)助實驗測試的兩個重要步驟:計劃和引導。 在傳統(tǒng)方法中,這些步驟往往需要反復試驗,這可能是低效的、昂貴的,甚至有時可能危及生命。 AI計劃提供了一種系統(tǒng)化的方法來設計實驗,優(yōu)化其效率,并探索未知領域。 同時,AI引導將實驗過程導向到高產出的假設,使系統(tǒng)能夠從先前的觀察中學習并調整實驗過程。 這些AI方法可以基于模擬和先驗知識來進行模型建立,也可以基于純機器學習算法進行模型構建。 AI系統(tǒng)可以通過優(yōu)化資源使用和減少不必要的調查來協(xié)助實驗計劃。與假設搜索不同,實驗計劃涉及到科學實驗設計中涉及的程序和步驟。 一個例子是化學合成計劃。化學合成計劃涉及到找到一系列步驟,通過這些步驟可以將目標化合物從現(xiàn)有化合物合成出來。 AI系統(tǒng)可以設計合成路徑以得到所需的化合物,從而減少人工干預的需求。 主動學習也被用于材料發(fā)現(xiàn)和合成。主動學習涉及與實驗反饋進行迭代交互,以改進假設。材料合成是一個復雜而資源密集型的過程,需要對高維參數(shù)空間進行高效的探索。 主動學習利用不確定性估計來探索參數(shù)空間,并盡可能少地減少不確定性。 在進行實驗過程中,決策常常需要實時調整。然而,當只依靠人類經驗和直覺時,這個過程可能難以進行或者容易出錯。強化學習提供了一種替代方法,可以持續(xù)地對不斷變化的環(huán)境做出反應,并最大化實驗的安全和保證成功率。 例如,在磁控托卡馬克等離子體的實驗中,強化學習方法通過與托卡馬克模擬器進行交互來優(yōu)化控制過程的策略(如下圖)。 在另一項研究中,一個強化學習代理根據實時反饋(如風速和太陽高度)來控制平流層氣球,并尋找有利的風流用于導航。 在量子物理學中,實驗設計需要根據未來復雜實驗的最佳選擇進行動態(tài)調整,而強化學習方法可以通過迭代地設計實驗并從中獲得反饋來克服這個問題。 例如,強化學習算法已經被用于優(yōu)化量子系統(tǒng)的測量和控制,從而提高實驗效率和準確性。 利用模擬從假設中推導觀測量然而,現(xiàn)有的模擬技術在很大程度上依賴于人類對所研究系統(tǒng)底層機制的理解和知識,這可能使得模擬不夠優(yōu)化和高效。 AI系統(tǒng)可以通過更準確高效地學習來增強計算機模擬,更好地擬合復雜系統(tǒng)的關鍵參數(shù),解決控制復雜系統(tǒng)的微分方程,并對復雜系統(tǒng)的狀態(tài)進行建模。 科學家通常通過創(chuàng)建涉及參數(shù)化形式的模型來研究復雜系統(tǒng),這需要專業(yè)領域的知識來識別參數(shù)的初始符號表達式。 比如,分子力場是可解釋的,但在表示各種函數(shù)方面能力有限,并且需要強大的歸納偏見或科學知識來生成。 為了提高分子模擬的準確性,已經開發(fā)了一種基于AI的神經勢能,它適合昂貴但準確的量子力學數(shù)據,取代傳統(tǒng)的力場。 此外,不確定性量化已被用于在高維自由能面中定位能量障礙,從而提高分子動力學的效率169(下圖)。 對于粗?;肿觿恿W,AI模型可以通過確定系統(tǒng)需要從學習的隱藏復雜結構中粗?;某潭?,來減少大系統(tǒng)的計算成本。 在量子物理學中,由于其靈活性和準確擬合數(shù)據的能力,神經網絡已經取代了手動估計的波函數(shù)或密度泛函的符號形式。 微分方程對于模擬空間和時間中復雜系統(tǒng)的動態(tài)是至關重要的。與數(shù)值代數(shù)求解器相比,基于AI的神經求解器更加無縫地融合數(shù)據和物理。 這些神經求解器通過將神經網絡基于領域知識進行建模,將物理與深度學習的靈活性相結合(下圖)。 AI方法已被應用于各個領域的微分方程求解,包括計算流體動力學,預測玻璃體系的結構,解決難解化學動力學問題,以及解決Eikonal方程以表征地震波的傳播時間。 在動力學建模中,神經常微分方程可以對連續(xù)時間進行建模。神經網絡可以通過物理信息損失對Navier-Stokes方程的解在時空域中進行參數(shù)化。 然而,標準的卷積神經網絡對于解的細粒度特征建模能力有限。這個問題可以通過學習用神經網絡對函數(shù)之間的映射進行建模的運算符來解決。 此外,求解器必須能夠適應不同的域和邊界條件,這可以通過將神經微分方程與圖神經網絡相結合來通過圖劃分實現(xiàn)。 統(tǒng)計建模是一種強大的工具,可以通過對復雜系統(tǒng)中狀態(tài)的分布進行建模來提供對復雜系統(tǒng)的全面定量描述。 歸一化流可以使用一系列可逆神經網絡將任何復雜分布映射到先驗分布(例如簡單的高斯分布),并進行反向映射。 雖然計算成本較高(通常需要數(shù)百或數(shù)千個神經層),但歸一化流提供了精確的密度函數(shù),從而實現(xiàn)了采樣和訓練。 與傳統(tǒng)模擬不同,歸一化流可以通過直接從先驗分布中進行采樣并應用神經網絡來生成平衡狀態(tài),這樣計算成本就是固定的。 這增強了格點場和規(guī)范理論中的采樣,改進了馬爾可夫鏈蒙特卡洛方法,否則可能由于模態(tài)混合而無法收斂。 重大挑戰(zhàn) 這種整合為科學發(fā)現(xiàn)開辟了新的契機。 然而,為了進一步提升AI在科學領域的影響,需要在理論、方法、軟件和硬件基礎設施方面取得重大進展。 跨學科的合作對于實現(xiàn)通過AI推進科學的全面和實用方法至關重要。 實踐考慮需要標準化和透明的格式來減輕數(shù)據處理的工作量。 模型卡片和數(shù)據表是一些努力的例子,用于記錄科學數(shù)據集和模型的操作特性。 此外,聯(lián)邦學習和加密算法可以用于防止將具有高商業(yè)價值的敏感數(shù)據公開發(fā)布到公共領域。 利用開放的科學文獻,自然語言處理和知識圖譜技術可以促進文獻挖掘,有助于材料發(fā)現(xiàn),化學合成和治療科學的進步。 深度學習的使用對于人類參與的AI驅動設計、發(fā)現(xiàn)和評估提出了復雜的挑戰(zhàn)。 為了自動化科學工作流程,優(yōu)化大規(guī)模模擬代碼和操作儀器,自主機器人控制可以利用預測并在高通量合成和測試線上進行實驗,創(chuàng)建自主實驗室。 在材料探索中早期應用生成模型表明,可以識別出數(shù)百萬種,具有期望性能和功能的可能材料,并對其可合成性進行評估。 例如,King等人將邏輯AI和機器人技術結合起來,自主生成關于酵母的功能基因組學假設,并使用實驗室自動化來實驗性地測試這些假設。 在化學合成中,AI優(yōu)化候選合成路徑,然后機器人根據預測的合成路徑引導化學反應。 實施AI系統(tǒng)涉及復雜的軟件和硬件工程,需要一系列相互依賴的步驟,從數(shù)據篩選和處理到算法實現(xiàn)和用戶應用界面設計。 實現(xiàn)中的微小差異可能導致性能上的顯著變化,并影響將AI模型整合到科學實踐中的成功。 因此,需要考慮數(shù)據和模型的標準化。由于模型訓練的隨機性、模型參數(shù)的變化和不斷變化的訓練數(shù)據集,AI方法可能存在可重復性問題,這些問題既與數(shù)據相關又與任務相關。 標準化的基準測試和實驗設計可以減輕這些問題。改善可重復性的另一個方向是通過發(fā)布開放模型、數(shù)據集和教育項目的開源倡議。 算法創(chuàng)新超出分布范圍的泛化問題是AI研究的前沿。 在特定范圍的數(shù)據上訓練的神經網絡可能會發(fā)現(xiàn)不適用于不同范圍的數(shù)據的規(guī)律,因為后者的基礎分布發(fā)生了偏移。 雖然許多科學定律并不是普遍適用的,但一般來說也會具有廣泛的適用性。而與最先進的AI相比,人類大腦可以更好、更快地適應修改后的環(huán)境。 有一個很有意思的假設是這么說的,人類不僅根據自己觀察到的內容建立的統(tǒng)計模型,而且還建立了一個因果模型。 這是一個由所有可能的干預(例如,不同的初始狀態(tài)、不同的代理的行為或不同的情況)來進行索引的統(tǒng)計模型集合。 將因果性納入AI仍然是一個尚待研究的領域,還有很多工作要做。 自監(jiān)督學習等技術在科學問題上具有巨大潛力,因為它們可以利用大量未標記的數(shù)據,并將里面包含的知識轉移給低數(shù)據領域。 然而,目前的遷移學習方案可能是特定情況下的臨時解決方案,缺乏理論指導,并且容易受到基礎分布的變化的影響。 雖然一些初步嘗試已經解決了這一挑戰(zhàn),但還需要進一步探索,以系統(tǒng)地衡量跨領域的可遷移性,并防止負面遷移。 此外,為了解決科學家關心的困難,AI方法的開發(fā)和評估必須在現(xiàn)實世界的情況下進行,例如在藥物設計中可能實現(xiàn)的合成路徑,并在將其轉移到實際應用之前包括經過良好校準的不確定性估計來評估模型的可靠性。 科學數(shù)據是多模態(tài)的,包括圖像(例如宇宙學中的黑洞圖像)、自然語言(例如科學文獻)、時間序列(例如材料的熱黃變)、序列(例如生物序列)、圖(例如復雜系統(tǒng))和結構(例如3D蛋白-配體構象)。 AI方法通常作為黑盒操作,意味著用戶無法完全理解輸出是如何生成的,以及在生成輸出時哪些輸入是關鍵的。 黑盒模型可能會降低用戶對預測的信任,并且在必須在實現(xiàn)之前理解模型輸出的領域中應用有限,例如在人類太空探索中,在預測指導政策的領域中,比如在氣候科學中。 盡管有大量的解釋技術,透明的深度學習模型仍然難以實現(xiàn)。 然而,人類大腦能夠綜合高層次的解釋,即使不完美,也能說服其他人類。 這提供了希望,通過在類似高層次抽象的現(xiàn)象模擬下,未來的AI模型將提供至少與人類大腦提供的一樣有價值的解釋和理解。 這也表明,研究高級認知可能會激發(fā)未來的深度學習模型,將當前的深度學習能力與操縱可言述抽象、因果推理和超出分布泛化的能力結合起來。 AI對于科學研究事業(yè)的影響 展望未來,對AI專業(yè)知識的需求將受到兩種力量的影響。 首先,一些領域馬上就能能從AI應用中受益,比如自主實驗室。 其次,智能工具能夠提升最先進技術水平,并創(chuàng)造新機會,比如研究在實驗中無法觀測到的生物、化學或物理過程的長度和時間尺度相關的研究。 基于這兩個力量,我們預計研究團隊的組成將發(fā)生變化,包括AI專家、軟件和硬件工程師,以及涉及各級政府、教育機構和公司的新形式合作。 最近最先進的深度學習模型不斷增長10,234。這些模型由數(shù)百萬甚至數(shù)十億個參數(shù)組成,并且每年的規(guī)模增長了十倍。 訓練這些模型涉及通過復雜參數(shù)化的數(shù)學運算傳遞數(shù)據,參數(shù)更新以將模型輸出推向所需的值。 然而,計算和數(shù)據要求以計算這些更新是巨大的,導致了巨大的能源消耗和高昂的計算成本。 因此,大型科技公司已經大量投資于計算基礎設施和云服務,推動了規(guī)模和效率的極限。 雖然盈利和非學術組織擁有大規(guī)模計算基礎設施,但高等教育機構在跨學科整合方面可能更為優(yōu)勢。 此外,學術機構往往擁有獨特的歷史數(shù)據庫和測量技術,這些可能在其他地方不存在,但對于AI4Science是必要的。 這些互補的資產促進了新型產學合作模式,這可以影響所選擇的研究問題。 隨著AI系統(tǒng)逼近并超越人類的性能,將其作為例行實驗室工作的替代品變得可行。 這種方法使研究人員能夠從實驗數(shù)據中開發(fā)預測模型,并選擇實驗來改進這些模型,而無需手動執(zhí)行繁重和重復的任務。 為了支持這種范式轉變,教育計劃正在涌現(xiàn),培訓科學家在設計、實施和應用實驗室自動化和AI在科學研究中。這些計劃幫助科學家了解何時使用AI是合適的,并防止對AI分析的錯誤解釋。 結論 為了實現(xiàn)這一潛力,必須通過負責任和深思熟慮的技術部署來解決使用AI所帶來的安全問題。 在科學研究中負責任地使用AI,科學研究需要確定AI系統(tǒng)的不確定性、誤差和效用水平。 這種理解對于準確解釋AI輸出并確保我們不過分依賴可能存在缺陷的結果至關重要。 隨著AI系統(tǒng)不斷發(fā)展,優(yōu)先考慮可靠的實施并采取適當?shù)谋U洗胧┦亲畲笙薅冉档惋L險和最大化收益的關鍵。 AI有潛力揭示以前無法觸及的科學發(fā)現(xiàn)。 |
|