資源干貨,第一時(shí)間送達(dá) KMP算法 內(nèi)部涉及到的數(shù)學(xué)原理與知識太多,本文只會(huì)對 KMP算法 的運(yùn)行過程、 部分匹配表 、next數(shù)組 進(jìn)行介紹,如果理解了這三點(diǎn)再去閱讀其它有關(guān) KMP算法 的文章肯定能有個(gè)清晰的認(rèn)識。 以下的文字描述請結(jié)合視頻動(dòng)畫來閱讀~ 定義Knuth-Morris-Pratt 字符串查找算法,簡稱為 KMP算法,常用于在一個(gè)文本串 S 內(nèi)查找一個(gè)模式串 P 的出現(xiàn)位置。 這個(gè)算法由 Donald Knuth、Vaughan Pratt、James H. Morris 三人于 1977 年聯(lián)合發(fā)表,故取這 3 人的姓氏命名此算法。 是不是感覺 Donald Knuth 這個(gè)名字很眼熟?沒錯(cuò),在前面 這或許是講解 Knuth 洗牌算法最好的文章 一文中也出現(xiàn)了他! KMP算法 的操作流程如下:
運(yùn)行過程以下圖文本串 S 與模式串 P 為例: 首先,列出模式串 P 的所有子串:
然后,求得每一個(gè)子串的所有前綴與后綴。 前綴 指除了最后一個(gè)字符以外,一個(gè)字符串的全部頭部組合;后綴 指除了第一個(gè)字符以外,一個(gè)字符串的全部尾部組合。 以第五列為例進(jìn)行演示。 前綴為
后綴為
因此,它的前綴后綴的公共元素的最大長度為 2。 求得原模式串 P 的子串對應(yīng)的各個(gè)前綴后綴的公共元素的 最大長度表 下圖。 根據(jù)最大長度表 去求 next 數(shù)組:next 數(shù)組相當(dāng)于“最大長度值” 整體向右移動(dòng)一位,然后初始值賦為-1。 好了,獲取了 next 數(shù)組 后,KMP 算法 的操作就很清晰了。 將模式串 P 與文本串 S 的字母一個(gè)個(gè)進(jìn)行匹配,當(dāng)失配的時(shí)候,模式串向右移動(dòng)。 怎么移動(dòng)? 比如模式串的 b 與文本串的 c 失配了,找出失配處模式串的 next數(shù)組 里面對應(yīng)的值,這里為 0,然后將索引為 0 的位置移動(dòng)到失配處。 后記市面上好多講解 KMP算法 的文章的寫的太混亂了,很多人因此產(chǎn)生了恐懼,這一章目的就是為了能讓大家能大概理解 KMP算法 的運(yùn)行過程,不會(huì)畏懼 KMP算法 。 |
|