面試題：文本摘要中的NLP技術(shù)

印度阿三17 2021-03-26

展開全文

解析：

人類很難手動匯總大型文本文檔。文本摘要是NLP為源文檔創(chuàng)建簡短、準(zhǔn)確和流暢的摘要問題。

隨著推送通知和文章摘要獲得越來越多的注意力，為長文本生成智能且準(zhǔn)確摘要的任務(wù)每天都在增長。

通過首先計(jì)算整個文本文檔的單詞頻率來自動匯總文本。

然后，存儲和排序100個最常用的單詞。

然后根據(jù)它包含的高頻詞數(shù)對每個句子進(jìn)行評分，更高頻率的詞，價(jià)值更大。

最后，根據(jù)它們在原始文本中的位置來獲取和排序前X個句子。

[object Object]

文本摘要有兩種基本方法：提取和抽象。

前者從原始文本中提取單詞和單詞短語以創(chuàng)建摘要。

后者是學(xué)習(xí)內(nèi)部語言表示以生成更像人類的摘要，解釋原始文本的意圖。

提取摘要的方法是通過選擇子集來工作。

這是通過從實(shí)際文章中提取短語或句子以形成摘要來完成的，LexRank和TextRank是眾所周知的摘要總結(jié)，它們都使用了Google PageRank算法的變體。

· LexRank是一種無監(jiān)督的基于圖形的算法，它使用IDF修改的余弦作為兩個句子之間的相似性度量。

該相似度用作兩個句子之間的圖形邊緣的權(quán)重。

LexRank還采用了智能后處理步驟，確保為摘要選擇的頂級句子彼此不太相似。

· TextRank是一種類似于LexRank的算法，具有一些增強(qiáng)功能，例如使用詞形化而不是詞干，結(jié)合詞性標(biāo)注和命名實(shí)體分辨率，從文章中提取關(guān)鍵短語，以及根據(jù)這些短語提取摘要句子。

除了文章摘要外，TextRank還從文章中提取了有意義的關(guān)鍵短語。

抽象概括的模型屬于深度學(xué)習(xí)。

使用深度學(xué)習(xí)的文本摘要已經(jīng)取得了一定的突破。

以下是一些NLP領(lǐng)域最大公司最顯著的公布結(jié)果：

· Facebook的神經(jīng)注意是一種神經(jīng)網(wǎng)絡(luò)架構(gòu)，它利用基于本地注意力的模型，能夠根據(jù)輸入句子生成摘要中的每個單詞。

· Google Brain的Sequence-to-Sequence模型遵循編碼器-解碼器架構(gòu)。

編碼器負(fù)責(zé)讀取源文檔并將其編碼為內(nèi)部表示，解碼器是一種語言模型，負(fù)責(zé)使用源文檔的編碼表示在輸出摘要中生成每個單詞。

· IBM Watson使用類似的序列到序列模型，但具有注意力和雙向遞歸神經(jīng)網(wǎng)絡(luò)功能。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：印度阿三17 > 《開發(fā)》

舉報(bào)/認(rèn)領(lǐng)