手把手 | 基于TextRank算法的文本摘要（附Python代碼）

昵稱16619343 2018-12-27

展開全文

大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自數(shù)據(jù)派THU

作者：Prateek Joshi

翻譯：王威力

校對：丁楠雅

TextRank 算法是一種用于文本的基于圖的排序算法，通過把文本分割成若干組成單元（句子），構(gòu)建節(jié)點連接圖，用句子之間的相似度作為邊的權(quán)重，通過循環(huán)迭代計算句子的TextRank值，最后抽取排名高的句子組合成文本摘要。本文介紹了抽取型文本摘要算法TextRank，并使用Python實現(xiàn)TextRank算法在多篇單領(lǐng)域文本數(shù)據(jù)中抽取句子組成摘要的應(yīng)用。

介紹

文本摘要是自然語言處理（NLP）的應(yīng)用之一，一定會對我們的生活產(chǎn)生巨大影響。隨著數(shù)字媒體的發(fā)展和出版業(yè)的不斷增長，誰還會有時間完整地瀏覽整篇文章、文檔、書籍來決定它們是否有用呢？值得高興的是，這項技術(shù)已經(jīng)在這里了。

你有沒有用過inshorts這個手機app？它是一個創(chuàng)新的新聞app，可以將新聞文章轉(zhuǎn)化成一篇60字的摘要，這正是我們將在本文中學(xué)習(xí)的內(nèi)容——自動文本摘要。

自動文本摘要是自然語言處理（NLP）領(lǐng)域中最具挑戰(zhàn)性和最有趣的問題之一。它是一個從多種文本資源（如書籍、新聞文章、博客帖子、研究類論文、電子郵件和微博）生成簡潔而有意義的文本摘要的過程。

由于大量文本數(shù)據(jù)的可獲得性，目前對自動文本摘要系統(tǒng)的需求激增。

通過本文，我們將探索文本摘要領(lǐng)域，將了解TextRank算法原理，并將在Python中實現(xiàn)該算法。上車，這將是一段有趣的旅程！

一、文本摘要方法

二、TextRank算法介紹

三、問題背景介紹

四、TextRank算法實現(xiàn)

五、下一步是什么？

早在20世紀(jì)50年代，自動文本摘要已經(jīng)吸引了人們的關(guān)注。在20世紀(jì)50年代后期，Hans Peter Luhn發(fā)表了一篇名為《The automatic creation of literature abstract》的研究論文，它利用詞頻和詞組頻率等特征從文本中提取重要句子，用于總結(jié)內(nèi)容。

參考鏈接：

另一個重要研究是由Harold P Edmundson在20世紀(jì)60年代后期完成，他使用線索詞的出現(xiàn)（文本中出現(xiàn)的文章題目中的詞語）和句子的位置等方法來提取重要句子用于文本摘要。此后，許多重要和令人興奮的研究已經(jīng)發(fā)表，以解決自動文本摘要的挑戰(zhàn)。

文本摘要可以大致分為兩類——抽取型摘要和抽象型摘要：

抽取型摘要：這種方法依賴于從文本中提取幾個部分，例如短語、句子，把它們堆疊起來創(chuàng)建摘要。因此，這種抽取型的方法最重要的是識別出適合總結(jié)文本的句子。
抽象型摘要：這種方法應(yīng)用先進(jìn)的NLP技術(shù)生成一篇全新的總結(jié)?？赡芸偨Y(jié)中的文本甚至沒有在原文中出現(xiàn)。

本文，我們將關(guān)注于抽取式摘要方法。

二、TextRank算法介紹

在開始使用TextRank算法之前，我們還應(yīng)該熟悉另一種算法——PageRank算法。事實上它啟發(fā)了TextRank！PageRank主要用于對在線搜索結(jié)果中的網(wǎng)頁進(jìn)行排序。讓我們通過一個例子快速理解這個算法的基礎(chǔ)。

PageRank算法簡介：

圖 1 PageRank算法

假設(shè)我們有4個網(wǎng)頁——w1，w2，w3，w4。這些頁面包含指向彼此的鏈接。有些頁面可能沒有鏈接，這些頁面被稱為懸空頁面。

w1有指向w2、w4的鏈接
w2有指向w3和w1的鏈接
w4僅指向w1
w3沒有指向的鏈接，因此為懸空頁面

為了對這些頁面進(jìn)行排名，我們必須計算一個稱為PageRank的分?jǐn)?shù)。這個分?jǐn)?shù)是用戶訪問該頁面的概率。

為了獲得用戶從一個頁面跳轉(zhuǎn)到另一個頁面的概率，我們將創(chuàng)建一個正方形矩陣M，它有n行和n列，其中n是網(wǎng)頁的數(shù)量。

矩陣中得每個元素表示從一個頁面鏈接進(jìn)另一個頁面的可能性。比如，如下高亮的方格包含的是從w1跳轉(zhuǎn)到w2的概率。

如下是概率初始化的步驟：

1. 從頁面i連接到頁面j的概率，也就是M[i][j]，初始化為1/頁面i的出鏈接總數(shù)wi

2. 如果頁面i沒有到頁面j的鏈接，那么M[i][j]初始化為0

3. 如果一個頁面是懸空頁面，那么假設(shè)它鏈接到其他頁面的概率為等可能的，因此M[i][j]初始化為1/頁面總數(shù)

因此在本例中，矩陣M初始化后如下：

最后，這個矩陣中的值將以迭代的方式更新，以獲得網(wǎng)頁排名。

三、TextRank算法

現(xiàn)在我們已經(jīng)掌握了PageRank，讓我們理解TextRank算法。我列舉了以下兩種算法的相似之處：

用句子代替網(wǎng)頁
任意兩個句子的相似性等價于網(wǎng)頁轉(zhuǎn)換概率
相似性得分存儲在一個方形矩陣中，類似于PageRank的矩陣M

TextRank算法是一種抽取式的無監(jiān)督的文本摘要方法。讓我們看一下我們將遵循的TextRank算法的流程：

1. 第一步是把所有文章整合成文本數(shù)據(jù)

2. 接下來把文本分割成單個句子

3. 然后，我們將為每個句子找到向量表示（詞向量）。

4. 計算句子向量間的相似性并存放在矩陣中

5. 然后將相似矩陣轉(zhuǎn)換為以句子為節(jié)點、相似性得分為邊的圖結(jié)構(gòu)，用于句子TextRank計算。

6. 最后，一定數(shù)量的排名最高的句子構(gòu)成最后的摘要。

讓我們啟動Jupyter Notebook，開始coding！

備注：如果你想了解更多圖論知識，我推薦你參考這篇文章

https://www./blog/2018/09/introduction-graph-theory-applications-python/

三、問題背景介紹

作為一個網(wǎng)球愛好者，我一直試圖通過對盡可能多的網(wǎng)球新聞的閱讀瀏覽來使自己隨時了解這項運動的最新情況。然而，事實證明這已經(jīng)是一項相當(dāng)困難的工作！花費太多的資源和時間是一種浪費。

因此，我決定設(shè)計一個系統(tǒng)，通過掃描多篇文章為我提供一個要點整合的摘要。如何著手做這件事？這就是我將在本教程中向大家展示的內(nèi)容。我們將在一個爬取得到的文章集合的文本數(shù)據(jù)集上應(yīng)用TextRank算法，以創(chuàng)建一個漂亮而簡潔的文章摘要。

請注意：這是一個單領(lǐng)域多文本的摘要任務(wù)，也就是說，我們以多篇文章輸入，生成的是一個單要點摘要。本文不討論多域文本摘要，但您可以自己嘗試一下。

數(shù)據(jù)集下載鏈接：

四、TextRank算法實現(xiàn)

所以，不用再費心了，打開你的Jupyter Notebook，讓我們實現(xiàn)我們迄今為止所學(xué)到的東西吧！

1. 導(dǎo)入所需的庫

首先導(dǎo)入解決本問題需要的庫

2. 讀入數(shù)據(jù)

現(xiàn)在讀取數(shù)據(jù)，在上文我已經(jīng)提供了數(shù)據(jù)集的下載鏈接。

3. 檢查數(shù)據(jù)

讓我們快速了解以下數(shù)據(jù)。

數(shù)據(jù)集有三列，分別是‘a(chǎn)rticle_id’，‘a(chǎn)rticle_text’，和‘source’。我們對‘a(chǎn)rticle_text’列的內(nèi)容最感興趣，因為它包含了文章的文本內(nèi)容。讓我們打印一些這個列里的變量的值，具體看看它們是什么樣。

輸出：

現(xiàn)在我們有兩種選擇，一個是總結(jié)單個文章，一個是對所有文章進(jìn)行內(nèi)容摘要。為了實現(xiàn)我們的目的，我們繼續(xù)后者。

4. 把文本分割成句子

下一步就是把文章的文本內(nèi)容分割成單個的句子。我們將使用nltk庫中的sent_tokenize函數(shù)來實現(xiàn)。

打印出句子列表中的幾個元素。

輸出：

5. 下載GloVe詞向量

GloVe詞向量是單詞的向量表示。這些詞向量將用于生成表示句子的特征向量。我們也可以使用Bag-of-Words或TF-IDF方法來為句子生成特征，但這些方法忽略了單詞的順序，并且通常這些特征的數(shù)量非常大。

我們將使用預(yù)訓(xùn)練好的Wikipedia 2014 + Gigaword 5 （補充鏈接）GloVe向量，文件大小是822 MB。

GloVe詞向量下載鏈接：

讓我們提取詞向量：

現(xiàn)在我們在字典中存儲了400000個不同術(shù)語的詞向量。