乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      PubMed及類似網(wǎng)絡(luò)檢索系統(tǒng)的分析

       薄荷饃饃 2012-01-12

              高通量技術(shù)和大規(guī)模數(shù)據(jù)處理技術(shù)在過去10年發(fā)展迅猛,作為二者載體的文獻(xiàn)也呈現(xiàn)爆炸性增長(zhǎng)的勢(shì)頭。文獻(xiàn)的閱讀對(duì)于許多從事生物醫(yī)學(xué)研究的科學(xué)家和醫(yī)務(wù)工作者都是至關(guān)重要的,但是囿于文獻(xiàn)數(shù)量的龐大和迅速增長(zhǎng),想要全面掌握和跟蹤最新的科學(xué)進(jìn)展顯得尤為困難。為此,NCBI不斷地為PubMed添加功能,使之更加有利于用戶的使用;同時(shí),一些其他機(jī)構(gòu)(如Google Scholar)也投入到文獻(xiàn)服務(wù)中來,開發(fā)出一系列更加適于用戶使用的文獻(xiàn)服務(wù)工具。這些嘗試與文字信息挖掘(text mining)技術(shù)一起提供了更加先進(jìn)的網(wǎng)絡(luò)工具,使PubMed的檢索質(zhì)量進(jìn)一步提高。NCBI的Lu回顧了28種與PubMed相關(guān)的工具,闡明了它們的創(chuàng)新點(diǎn)、與PubMed及互相之間的關(guān)系,并前瞻了PubMed未來的發(fā)展方向。

      巨量文獻(xiàn)需要更有效的檢索工具

          文獻(xiàn)檢索即是指檢索人根據(jù)不同的需求通過工具來查找所需文獻(xiàn)的過程。在本文中檢索工具是網(wǎng)絡(luò)為基礎(chǔ)的在線系統(tǒng),文獻(xiàn)僅限于生物醫(yī)學(xué)領(lǐng)域,檢索人包括對(duì)特定內(nèi)容感興趣的用戶和需要特定文章中數(shù)據(jù)的用戶。2010年,PubMed中已有兩千多萬文獻(xiàn)。PubMed是NCBI數(shù)據(jù)庫系統(tǒng)的一個(gè)組成部分,提供38個(gè)數(shù)據(jù)庫的檢索?,F(xiàn)在PubMed包括5000余種從1948年起生物醫(yī)學(xué)雜志的全文或摘要,成為至今為止最重要的生物醫(yī)學(xué)檢索工具,為全世界的研究人員提供最新的醫(yī)學(xué)信息。

          盡管PubMed是一種強(qiáng)勁的檢索工具,但是對(duì)于個(gè)人來說,迅速檢索到自己感興趣的文章越來越難。結(jié)果,用戶經(jīng)常被成百上千的條目所困:1/3在PubMed上進(jìn)行的檢索,其結(jié)果超過100條文獻(xiàn)。NCBI不得不建議用戶用更加精確的檢索詞來回避這種信息超載,除此以外,PubMed的公開性使得一些外部的工具得以替代PubMed成為更加有效的檢索方法。

          對(duì)于這些替代工具以前也有過介紹,但本文與之不同的是首先大部分替代檢索系統(tǒng)以前未經(jīng)過詳細(xì)的介紹或是2008年以后出現(xiàn)的系統(tǒng);其次我們使用了不同的分類標(biāo)準(zhǔn)來對(duì)系統(tǒng)進(jìn)行分類和比較,以便使用戶可以更加詳細(xì)地了解這些系統(tǒng)的異同;第三,我們提供了這些系統(tǒng)的細(xì)節(jié),并提供了我們對(duì)于PubMed認(rèn)識(shí)的第一手資料;最后我們建立了一個(gè)這些工具的統(tǒng)一接口并且為將來新系統(tǒng)的注冊(cè)提供地址(http://www.ncbi.nlm./CBBresearch/Lu/search/)。我們提供了文獻(xiàn)檢索的一站式服務(wù)(one-stop shopping)。

      PubMed的工作方式

          PubMed提供自然語言(英語)檢索,自由寫入文字,反饋給用戶與檢索詞匹配的文獻(xiàn)列表。搜索策略有兩點(diǎn)特征:首先PubMed具有詞匯自動(dòng)轉(zhuǎn)換功能(Automatic Term Mapping),這包括MeSH轉(zhuǎn)換表(MeSH Translation Table),包括MeSH詞、參見詞、副主題詞等;刊名轉(zhuǎn)換表(Journal Tanslation Table);短語表(Phrase list)及著者索引(Author Index)。并且支持布爾運(yùn)算。

          其次,PubMed的文獻(xiàn)排序并不以相關(guān)性而以時(shí)間為準(zhǔn),即所謂的逆時(shí)間排序。

      類似檢索系統(tǒng)及特征比較

          在本文中,我們選擇檢索工具的原則有三:首先,它們應(yīng)當(dāng)基于網(wǎng)絡(luò)而提供的內(nèi)容應(yīng)當(dāng)與PubMed相同。所以超出摘要檢索的檢索工具例如以全文為檢索對(duì)象的谷歌學(xué)術(shù)(google scholar)、PubMed central和以圖/表格為檢索對(duì)象的Biotext、耶魯大學(xué)的Yale image finder被排除在外。由于我們只關(guān)心生物醫(yī)學(xué)領(lǐng)域,所以一些更加普遍的工具例如谷歌被排除在外;第二,這些工具應(yīng)當(dāng)涵蓋大多數(shù)的生物醫(yī)學(xué)領(lǐng)域,換言之,能夠提供更加廣泛的背景材料;第三,這些工具必須免費(fèi)。以上面三點(diǎn)為標(biāo)準(zhǔn),一共入選28種檢索工具,詳見表1及表2。表1所表示的是這些工具在何時(shí)面世以及各自的基本技術(shù)特征,表2則對(duì)28種工具及PubMed之間做出比較。這種比較的結(jié)論是基于我們所做的一項(xiàng)研究所得出的,以PubMed為參照,比較這些工具與PubMed的檢索結(jié)果的區(qū)別。

      共同特征

          通過表1及表2,我們很明顯可以得出以下結(jié)論:

      1. 大多數(shù)的工具的名稱都包含“Pub”或“Med”,表現(xiàn)出這些工具與PubMed的相關(guān)性
      2. 這些工具均是過去10年中開發(fā)出來的,這也正是文字信息挖掘技術(shù)取得進(jìn)展并成熟的一個(gè)階段。
      3. 大多數(shù)此類工具都是大學(xué)或?qū)W院開發(fā)的。也有少數(shù)工具屬于個(gè)人。
      4. 大多數(shù)此類工具的查詢結(jié)果以條目的方式列出,也有一類工具提供了查詢?cè)~的聚類查詢。
      5. 盡管僅有少數(shù)幾個(gè)工具提供全文鏈接,并且可通過文獻(xiàn)管理軟件來導(dǎo)出查詢結(jié)果,但幾乎所有的工具都提供對(duì)PubMed的鏈接。
      6. 衡量下來,參考文獻(xiàn)排序類的工具占大多數(shù),體現(xiàn)了現(xiàn)有技術(shù)的方向。

      (一)查詢結(jié)果排序

      1. RefMed基于用戶的反饋來進(jìn)行持續(xù)改進(jìn)的排序算法。
      2. Quertle是一種語義檢索平臺(tái),由Quertle公司與PubMed聯(lián)合推出。其技術(shù)核心是允許用戶將查詢結(jié)果與生物醫(yī)學(xué)概念相結(jié)合,這樣更容易使用戶獲得一種縱觀的印象并易于進(jìn)一步的查詢。
      3. MedlineRanker使用貝葉斯模型對(duì)某一主題進(jìn)行闡釋,當(dāng)一些關(guān)鍵詞被提出來之后,某一主題的大致樣貌便浮出水面,然后利用貝葉斯模型來進(jìn)行修改。這樣更有利于當(dāng)新文獻(xiàn)出現(xiàn)后可以對(duì)某一主題重新審視。
      4. Misearch也是種基于用戶反饋的排序系統(tǒng),與RefMed不同的是它可以記錄用戶的檢索詞,然后根據(jù)這些有反饋的檢索詞以及用戶點(diǎn)擊文章的順序來獲得用戶的實(shí)際需求。
      5. Hikia是一個(gè)封閉系統(tǒng),由專業(yè)公司提供,它包括數(shù)千萬個(gè)條目,但具體排序算法未知。
      6. Semantic MEDLINE與Hikia類似,基本算法未知,但可能是以檢索詞概念和認(rèn)知理論為基礎(chǔ)。
      7. MScanner與MedlineRanker最為相似,它不使用檢索詞,而使用期刊縮寫和Mesh。
      8. eTBLAST專注于相關(guān)文獻(xiàn),與PubMed不同的是它首先使用文字統(tǒng)計(jì)來獲得兩篇文章重疊的部分。
      9. PubFocus則利用一些特定的參數(shù)來控制文獻(xiàn)排序,例如影響因子、每一作者的貢獻(xiàn)、文獻(xiàn)歷史、文獻(xiàn)動(dòng)態(tài)(reference dynamics)。
      10. Twease采用傳統(tǒng)的BM25排序算法。

          (二)參考文獻(xiàn)聚類

      1. Anne O' Tate將PubMed的檢索結(jié)果作為初步結(jié)果,以關(guān)鍵詞、MeSH主題詞、相關(guān)性、附屬關(guān)系、作者等實(shí)現(xiàn)設(shè)定含義的參數(shù)為指標(biāo)對(duì)結(jié)果進(jìn)行分類。
      2. McSyBi最重要的一點(diǎn)是可以確定參考文獻(xiàn)間的相關(guān)性,并允許用戶對(duì)其進(jìn)行重排。
      3. GOPubMed GO即是基因?qū)嶓w(gene Ontology),它允許用戶在以下四個(gè)方面對(duì)文獻(xiàn)進(jìn)行聚類:生物醫(yī)學(xué)概念、作者、文獻(xiàn)所在期刊以及日期。
      4. ClusterMed允許用戶進(jìn)行如下排序:①標(biāo)題、摘要、MeSH;②標(biāo)題、摘要;③MeSH;④作者名;⑤從屬關(guān)系;⑥日期。
      5. XplorMed則代表一種逼近算法,當(dāng)用戶獲得文獻(xiàn)后,既可以繼續(xù)下一步的查詢,也可以分析現(xiàn)有文獻(xiàn)中的關(guān)鍵詞以便進(jìn)一步地進(jìn)行分析,或者對(duì)參數(shù)進(jìn)行限定來獲得更精確的檢索結(jié)果。

      (三)基于語義的結(jié)果擴(kuò)充

      1. MedEvi提供10類生物研究實(shí)體(例如基因、蛋白),這樣檢索結(jié)果便可以附著于每類實(shí)體的后面。
      2. EBIMED提取每篇文章中的概念實(shí)體(藥物、蛋白)將其匯總在一起。這樣之間的關(guān)系就更為明確。
      3. CiteXplore則將生物數(shù)據(jù)提取出來,除了PubMed中的數(shù)據(jù)之外,它還提供歐洲專利局的專利和中科院上海生命信息中心的數(shù)據(jù)。
      4. MEDIE則將每個(gè)MeSH嵌合到摘要的句群中,來獲得生物實(shí)體間的相互關(guān)系。這一點(diǎn)與下面的iHOP類似。
      5. Pubnet其中的net表示的是生物實(shí)體間的相互關(guān)系,當(dāng)查詢結(jié)果出現(xiàn)后實(shí)際上輸出為XML語言的網(wǎng)絡(luò)圖。

          (四)改善的檢索界面

      1. iPubMed是一個(gè)互動(dòng)的檢索窗口,隨著查詢?cè)~的不斷增加,參考文獻(xiàn)的數(shù)量不斷減少。
      2. PubGet直接顯示PDF。
      3. Babelmesh提供非英語的查詢。
      4. Hubmed包括多種文獻(xiàn)的顯示方法,既有以日期和相關(guān)性為基礎(chǔ)的文獻(xiàn)排序,也包括文獻(xiàn)聚類。
      5. askMEDLINE,所謂ask就是提出真正的問題而非檢索詞來讓PubMed回答,例如一些臨床上處置的問題。
      6. SLIM提供滑塊界面。
      7. PICO主要面向臨床醫(yī)生,以問題的形式進(jìn)行查詢。
      8. PubCrawler每日的更新提醒。

      (五)其他有益的嘗試

      1. iHOP以摘要的句子為基礎(chǔ),每句話一個(gè)條目。這樣便可以得到最迅速的關(guān)于某個(gè)基因的信息。
      2. PubMed Assistant、alibaba、PubMed-EX三者都是基于網(wǎng)絡(luò)的查詢助手,其中PubMed Assistant提供關(guān)鍵詞強(qiáng)調(diào)、易于導(dǎo)出到文獻(xiàn)管理軟件等功能,而alibaba、PubMed-EX則屬于基于語義的結(jié)果擴(kuò)充工具,同時(shí)alibaba還以圖表形式提供生物實(shí)體間共出現(xiàn)的頻次。

      對(duì)于新特征的討論

      •     查詢的相關(guān)性

          由于多數(shù)的查詢者僅僅關(guān)心極少量的查詢結(jié)果,所以文獻(xiàn)的相關(guān)性就顯得尤為重要。目前有十種工具可以解決這一問題。盡管它們都是用戶輸入關(guān)鍵詞然后將結(jié)果反饋給用戶,但是它們處理這些關(guān)鍵詞的方法不盡相同。例如與PubMed的詞匯自動(dòng)轉(zhuǎn)換功能類似的,Twease在反饋參考文獻(xiàn)時(shí)還反饋相關(guān)的MeSH,這樣檢索者就可以沿著MeSH繼續(xù)查詢,這一點(diǎn)對(duì)于檢索結(jié)果為0篇及1篇時(shí)尤為重要。另外,檢索結(jié)果排序是針對(duì)PubMed默認(rèn)排序的有效補(bǔ)充,但這種排序的技術(shù)路線又有很大差別,從最初的用戶排序,到相關(guān)性排序算法,再到特定領(lǐng)域重要因素算法以及一些未知的算法。

      •     結(jié)果分析

          PubMed的默認(rèn)搜索結(jié)果為一個(gè)長(zhǎng)的條目,每頁20個(gè),點(diǎn)擊每個(gè)條目后將顯示文獻(xiàn)的基本信息和摘要?,F(xiàn)有的其他系統(tǒng)對(duì)PubMed的查詢結(jié)果改善包括兩個(gè)方面。第一個(gè)方面是由于PubMed的檢索結(jié)果總是一列條目并且需要手動(dòng)檢索,參考文獻(xiàn)聚類下面的各個(gè)工具則是為了把這個(gè)長(zhǎng)的條目縮減為短的、意義明確的聚類條目,參考文獻(xiàn)被分配在條目之下,這樣當(dāng)檢索者查看文獻(xiàn)時(shí)就會(huì)迅速地找到他們感興趣的文章。有鑒于此,選擇合適的主題詞匯到合適的聚類下面成為此類工具開發(fā)的中心。現(xiàn)在所有的主題詞都是生物醫(yī)學(xué)參照詞匯(例如MeSH)。

          第二種拓展來源于信息挖掘技術(shù),而基于語義學(xué)的數(shù)據(jù)挖掘有可能成為檢索技術(shù)的一項(xiàng)里程碑。基于詞匯內(nèi)涵的數(shù)據(jù)挖掘和生物信息提取技術(shù)使“基于語義的結(jié)果擴(kuò)充”一類的工具有了長(zhǎng)足的發(fā)展,不管這項(xiàng)技術(shù)將來的發(fā)展程度如何,疾病、藥物、基因、蛋白及它們之間的相互關(guān)系可能會(huì)在信息檢索之外的領(lǐng)域中大放光彩。

      • 界面和易用性
          為了改善PubMed的檢索質(zhì)量,一些工具從不同的角度對(duì)其進(jìn)行了改良,例如用戶特定的問題、非英語人士文獻(xiàn)檢索、新的限定條件的技術(shù)方法。結(jié)果輸出和直觀性改善則表現(xiàn)為兩個(gè)主要的方面,添加圖表顯示以增加摘要的可讀性,及提供更便捷的PDF下載。

      PubMed的改變及未來趨勢(shì)

          為了滿足文獻(xiàn)搜索的需要,PubMed自身也有了很多變化,在過去的10年中,28種工具因運(yùn)而生。它們之間有可能會(huì)互相學(xué)習(xí),例如“相關(guān)文獻(xiàn)”是由PubMed首先提出的,而郵件更新提醒則是由其他工具提出的。PubMed也一直致力于生物醫(yī)學(xué)數(shù)據(jù)的整合,例如基因和蛋白序列等信息,現(xiàn)在已在較為醒目的位置給予檢索者提示。

          其他值得一提的還有為了提醒檢索者其他一些重要的參考文獻(xiàn)或綜述,PubMed還提供了相關(guān)文獻(xiàn)的窗口。雖然eBLAST也提供類似的服務(wù),但兩者獲取相關(guān)文獻(xiàn)的算法并不相同。另外,對(duì)于臨床研究人員來說,有時(shí)僅需獲得臨床上的數(shù)據(jù)便可,所以PubMed最近又提供了臨床查詢界面,使文章僅限于臨床報(bào)道。另外一個(gè)例子是PubMed所提供的參考文獻(xiàn)匹配器(citation matcher)。最后為了改善從一長(zhǎng)串文獻(xiàn)列表中提取出最重要的文獻(xiàn),“also try”按鈕為檢索者提供包含有檢索詞的最重要的文獻(xiàn)。

          考慮到界面和易用性,PubMed為所有的用戶提供特定的服務(wù),例如用戶可以自己添加喜好和篩選參數(shù)。另外2009年P(guān)ubMed重新設(shè)計(jì)了檢索界面和主頁,使用戶更容易使用。

          為了使用戶跟上日益增長(zhǎng)的新文獻(xiàn),PubMed利用數(shù)據(jù)挖掘和提取技術(shù)使文獻(xiàn)檢索能力更加符合科學(xué),同時(shí),PubMed還整合了上述各種工具在同一頁面下,使得“一站式”檢索成為可能。這樣也使當(dāng)某種更加先進(jìn)的檢索工具進(jìn)入人們視野時(shí)可以更容易與現(xiàn)有檢索技術(shù)相融合。

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多