1.我們已經(jīng)了解了正則表達式中的一些特殊符號,如\b、\d、.、\S等等。這些具有特殊意義的專用字符被稱作“元字符”。常用的元字符還有:
\w - 匹配字母或數(shù)字或下劃線或漢字(我試驗下了,發(fā)現(xiàn)3.x版本可以匹配漢字,但2.x版本不可以)
\s - 匹配任意的空白符
^ - 匹配字符串的開始
$ - 匹配字符串的結(jié)束
2.
\S其實就是\s的反義,任意不是空白符的字符。同理,還有:
\W - 匹配任意不是字母,數(shù)字,下劃線,漢字的字符
\D - 匹配任意非數(shù)字的字符
\B - 匹配不是單詞開頭或結(jié)束的位置
[a]的反義是[^a],表示除a以外的任意字符。[^abcd]就是除abcd以外的任意字符。
3.
之前我們用過*、+、{}來表示字符的重復。其他重復的方式還有:
? - 重復零次或一次
{n,} - 重復n次或更多次
{n,m} - 重復n到m次
正則表達式不只是用來從一大段文字中抓取信息,很多時候也被用來判斷輸入的文本是否符合規(guī)范,或進行分類。來點例子看看:
^\w{4,12}$
這個表示一段4到12位的字符,包括字母或數(shù)字或下劃線或漢字,可以用來作為用戶注冊時檢測用戶名的規(guī)則。(但漢字在python2.x里面可能會有問題)
\d{15,18}
表示15到18位的數(shù)字,可以用來檢測身份證號碼
^1\d*[x]?
以1開頭的一串數(shù)字,數(shù)字結(jié)尾有字母x,也可以沒有。有的話就帶上x。
另外再說一下之前提到的轉(zhuǎn)義字符\。如果我們確實要匹配.或者*字符本身,而不是要它們所代表的元字符,那就需要用\.或\*。\本身也需要用\\。
比如"\d+\.\d+"可以匹配出123.456這樣的結(jié)果。
留一道稍稍有難度的習題:
寫一個正則表達式,能匹配出多種格式的電話號碼,包括
(021)88776543
010-55667890
02584453362
0571 66345673
|