“從5億只狗里，把混入的幾只貓?zhí)舫鰜怼?，怎么做到的?/span>

fxiaog 2021-09-11

展開全文

本文轉(zhuǎn)自【科技日報】；

◎ 科技日報記者 金鳳

在天文領(lǐng)域，近年最引人關(guān)注的發(fā)現(xiàn)之一，是一種瞬時亮度超過太陽上億倍的未知天體。這類天體在射電頻段上的超常爆發(fā)，被稱為“快速射電暴”。它們能在你眨眼的百分之一的瞬間，甚至更短時間內(nèi)，完成一次極高的能量釋放。這種前所未有的爆發(fā)，究竟是在怎樣極端的環(huán)境下產(chǎn)生，成為近年來天文學領(lǐng)域的研究熱點。

自2007年有學者發(fā)現(xiàn)了第一個快速射電暴，目前已經(jīng)有100多個快速射電暴被探測到了。常用的篩選方法無法甄別全部的快速射電暴疑似信號，只能進一步縮小疑似信號的數(shù)目，再在較少的樣本中通過人工挑選可信的信號，費時費力。

如何高效而精準地捕捉這些神秘的信號？中國科學院紫金山天文臺與中國科學技術(shù)大學、上海交通大學、貴州師范學院，以及澳大利亞聯(lián)邦科學與工業(yè)研究組織、西悉尼大學、西澳大學等機構(gòu)的學者，引入機器學習算法，從5億個疑似信號中找到81個快速射電暴候選體， 該成果近日發(fā)表于英國《皇家天文學會月刊》。

銀道坐標系下帕克斯望遠鏡觀測天區(qū)的空間分布圖，橙色星號展示了81個快速射電暴候選體的分布，受訪者供圖

依靠傳統(tǒng)方法，單人要花50年才能甄別完5.6億個疑似信號

研究快速射電暴的手段有很多。2007年，美國西弗吉尼亞大學的Duncan Lorimer等人利用澳大利亞的帕克斯射電望遠鏡，發(fā)現(xiàn)第一個快速射電暴。

但僅有觀測還不夠?！翱焖偕潆姳┚嚯x遙遠，它們傳播到地球上的能量，比藍牙耳機的信號都要差很多。要想從儀器的背景噪聲，和人類制造的電磁干擾中把它們找出來，非常困難。這也是為什么射電天文觀測那么多年了，直到2007年才首次發(fā)現(xiàn)它。”本篇論文的通訊作者、中澳天文聯(lián)合研究中心ACAMAR博士后張松波還在讀博士期間，就決心對帕克斯望遠鏡觀測的歷史數(shù)據(jù)進行一遍“查戶口”式的搜尋，看看里面是否還有新的快速射電暴。

中國科學院紫金山天文臺高能時域天文研究團組最近幾年開展快速射電暴研究，已經(jīng)利用帕克斯望遠鏡的觀測數(shù)據(jù)構(gòu)建了一個完整的單脈沖數(shù)據(jù)庫。該數(shù)據(jù)庫內(nèi)包含了快速射電暴標準搜尋方法所尋找出的5.6億個信噪比大于7的單脈沖疑似信號。

張松波說，傳統(tǒng)的搜尋程序，無法準確識區(qū)分噪聲信號、人造信號和快速射電暴信號。所以這5億多個結(jié)果，只能被稱為疑似信號。假設工作人員每天能看三萬張圖，那么這5.6億個疑似信號需要不眠不休地看50年才能看完。

殘差神經(jīng)網(wǎng)絡篩選出81個新的快速射電暴候選體

機器學習中的殘差神經(jīng)網(wǎng)絡是人工神經(jīng)網(wǎng)絡的一個變種，它模擬最基本的生物神經(jīng)元，將接收到的信號進行分析，并判別信號的種類，從識別準確度到識別速度都有很大的提升。

雖然這是一個很成熟的機器學習算法，但快速射電暴不管從形態(tài)上，還是訓練樣本的收集上都很困難。

“這相當于訓練機器從5億只狗里，把混入的幾只貓?zhí)舫鰜??！?/strong> 論文的第一作者、中科院紫金山天文臺高能時域天文團組博士研究生楊軒說。

經(jīng)過摸索，楊軒發(fā)現(xiàn)通過降采樣率的方式縮小圖片尺寸，能夠明顯改善識別結(jié)果。同時通過對候選體信號的到達時間與色散量進行分析，可以大大降低需要檢查的圖片數(shù)量。

運用訓練好的模型，最終，研究團隊從數(shù)據(jù)庫里找出了81個新的快速射電暴候選體。

其中一個證據(jù)來自這些候選體的色散量?！拔覀儚耐馓帐占纳⒘吭酱?，說明天體距離我們越遠。這些候選體的色散量已經(jīng)超出了銀河系色散量貢獻的估計值，證明它們很可能是來自銀河系外的?！睆埶刹ㄕf。

另一個佐證來自候選體所在的波束。張松波介紹，在帕克斯望遠鏡的多波束觀測中，快速射電暴的候選體只被其中一個波束探測到，說明信號的來源指向性非常明確，而來自地面的射電信號則不可能只出現(xiàn)在如此小的區(qū)域內(nèi)。這表明它們來自地面射電干擾的可能性很小。

科研團隊進一步研究分析，將這81個候選體和當前已發(fā)表的快速射電暴樣本的輻射能量、脈沖寬度的累積分布進行對比，結(jié)果發(fā)現(xiàn)二者在統(tǒng)計行為上是一致的。楊軒介紹，這說明兩者對應的信號，其物理起源和輻射機制很可能是相似的，進一步驗證了81個候選體信號的真實性。

正用“天眼”FAST收集的數(shù)據(jù)訓練算法

在張波松看來，此次研究也對從觀測角度嚴格判定射電信號是否為快速射電暴提出了挑戰(zhàn)?！把芯恐械妮椛淠芰糠植急砻?，新候選體在低能端的事件數(shù)目高于已知快速射電暴，這說明以往的搜尋方法還存在不足，可能有非常多信號稍暗弱的快速射電暴被遺漏?！彼硎荆@些新發(fā)現(xiàn)的候選體也將為搜索更大樣本的重復暴提供了比較有價值的預選目標。

天文學正在迎來大數(shù)據(jù)時代，射電觀測采集的數(shù)據(jù)量日益巨大，中國500米口徑球面射電望遠鏡（FAST）、澳大利亞平方公里陣探路者望遠鏡，以及正在建設中的平方公里陣列望遠鏡都正在或即將展現(xiàn)更高的靈敏度，同時也將帶來更為驚人的數(shù)據(jù)量，這也對信號的篩選方法提出極高的要求。

“目前，我們正在用FAST收集的數(shù)據(jù)來訓練AI算法，希望能訓練出適用性更廣的AI模型。同時，也正在嘗試在現(xiàn)有模型中增加更新的機器學習方法，如深度卷積生成對抗網(wǎng)絡、顯著圖等，來提高現(xiàn)有模型的準確性，降低誤報率。”張松波說。

來源：科技日報