有同學(xué)問(wèn)起昨天那段測(cè)試代碼里的問(wèn)題,我來(lái)簡(jiǎn)單說(shuō)一下。
1.
r"hi"
這里字符串前面加了r,是raw的意思,它表示對(duì)字符串不進(jìn)行轉(zhuǎn)義。為什么要加這個(gè)?你可以試試print
"\bhi"和r"\bhi"的區(qū)別。
>>> print "\bhi"
hi
>>> print r"\bhi"
\bhi
可以看到,不加r的話,\b就沒(méi)有了。因?yàn)閜ython的字符串碰到“\”就會(huì)轉(zhuǎn)義它后面的字符。如果你想在字符串里打“\”,則必須要打“\\”。
>>> print "\\bhi"
\bhi
這樣的話,我們的正則表達(dá)式里就會(huì)多出很多“\”,讓本來(lái)就已經(jīng)復(fù)雜的字符串混亂得像五仁月餅一般。但加上了“r”,就表示不要去轉(zhuǎn)義字符串中的任何字符,保持它的原樣。
2.
re.findall(r"hi", text)
re是python里的正則表達(dá)式模塊。findall是其中一個(gè)方法,用來(lái)按照提供的正則表達(dá)式,去匹配文本中的所有符合條件的字符串。返回結(jié)果是一個(gè)包含所有匹配的list。
3.
今天主要說(shuō)兩個(gè)符號(hào)“.”和“*”,順帶說(shuō)下“\S”和“?”。
“.”在正則表達(dá)式中表示除換行符以外的任意字符。在上節(jié)課提供的那段例子文本中:
Hi, I am Shirley Hilton. I am his wife.
如果我們用“i.”去匹配,就會(huì)得到
['i,', 'ir', 'il', 'is', 'if']
你若是暴力一點(diǎn),也可以直接用“.”去匹配,看看會(huì)得到什么。
與“.”類(lèi)似的一個(gè)符號(hào)是“\S”,它表示的是不是空白符的任意字符。注意是大寫(xiě)字符S。
4.
在很多搜索中,會(huì)用“?”表示任意一個(gè)字符,“*”表示任意數(shù)量連續(xù)字符,這種被稱(chēng)為通配符。但在正則表達(dá)式中,任意字符是用“.”表示,而“*”則不是表示字符,而是表示數(shù)量:它表示前面的字符可以重復(fù)任意多次(包括0次),只要滿(mǎn)足這樣的條件,都會(huì)被表達(dá)式匹配上。
結(jié)合前面的“.*”,用“I.*e”去匹配,想一下會(huì)得到什么結(jié)果?
['I am Shirley Hilton. I am his wife']
是不是跟你想的有些不一樣?也許你會(huì)以為是
['I am Shirle', 'I am his wife']
這是因?yàn)椤?”在匹配時(shí),會(huì)匹配盡可能長(zhǎng)的結(jié)果。如果你想讓他匹配到最短的就停止,需要用“.*?”。如“I.*?e”,就會(huì)得到第二種結(jié)果。這種匹配方式被稱(chēng)為懶惰匹配,而原本盡可能長(zhǎng)的方式被稱(chēng)為貪婪匹配。
最后留一道習(xí)題:
從下面一段文本中,匹配出所有s開(kāi)頭,e結(jié)尾的單詞。
site sea sue sweet see case sse ssee loses
|