一、正則表達(dá)式正則表達(dá)式是處理字符串的強(qiáng)大工具,它有自己特定的語(yǔ)法結(jié)構(gòu),有了它,實(shí)現(xiàn)字符串的檢索、替換、匹配驗(yàn)證都不在話下,正則表達(dá)式在所有編程里通用,所以不僅僅是python使用。 以下是常用的正則表達(dá)式,用的時(shí)候參考即可,不需要死記硬背,用得多了自然就熟悉了。
1、python爬蟲(chóng)最常用組合 死記硬背,估計(jì)很難記住,很多人就不想學(xué)了。但是只要記住最常用的組合即可。 .*? 是我們?cè)谄ヅ溥^(guò)程中最常使用到的,表示的就是匹配任意字符。 \d+ 匹配任意數(shù)字組合。 上面的 .*? 為什么不直接用 .* 而需要加個(gè) ?,這個(gè)涉及到貪婪還是非貪婪匹配。 2、貪婪還是非貪婪匹配 貪婪匹配:就是我們的第一段代碼,一個(gè)數(shù)一個(gè)數(shù)都要去匹配,會(huì)盡可能多地去匹配內(nèi)容。 非貪婪匹配:會(huì)盡量少的匹配符合條件的內(nèi)容 也就是說(shuō),一旦發(fā)現(xiàn)匹配符合要求,立馬就匹配成功,而不會(huì)繼續(xù)匹配下去。 例子: aacbacbc 用 a.*b 貪婪匹配的內(nèi)容是:aacbacbaacbacbc 用 a.*?b 非貪婪匹配的內(nèi)容是:aacb 二、Python的Re庫(kù)Python語(yǔ)言中的re模塊擁有全部的正則表達(dá)式功能。 1、re.match函數(shù) 函數(shù)語(yǔ)法:
匹配成功re.match方法返回一個(gè)匹配的對(duì)象,否則返回None。 示例: import reprint(re.match('ywbj', 'ywbj.cc')) # 在起始位置匹配print(re.match('ywbj', 'ywbj.cc').span()) # 在起始位置匹配print(re.match('ywbj', 'www.ywbj.cc')) # 不在起始位置匹配 執(zhí)行結(jié)果:
從例子中我們可以看出,re.match()方法返回一個(gè)匹配的對(duì)象,而不是匹配的內(nèi)容。 通過(guò)調(diào)用span()可以獲得匹配結(jié)果的位置。 而如果從起始位置開(kāi)始沒(méi)有匹配成功,即便其他部分包含需要匹配的內(nèi)容,re.match()也會(huì)返回None。 2、分組捕獲 以上可以看到返回的是匹配的對(duì)象,不是匹配的內(nèi)容。 需要獲取匹配的內(nèi)容,我們可以使用group(num) 或 groups() 匹配對(duì)象函數(shù)來(lái)獲取匹配表達(dá)式。 一般一個(gè)小括號(hào)括起來(lái)就是一個(gè)捕獲組。我們可以使用group()來(lái)提取每組匹配到的字符串。
示例: import recontent = 'I have 100 dogs and cats'res = re.match('^I.*?(\d+)(.*?)and(.*?)$',content)print(res.group())print(res.groups())print(res.group(1))print(res.group(2))print(res.group(3)) 執(zhí)行結(jié)果:
以上成功通過(guò)group捕獲需要的詞組和內(nèi)容。 3、re.search()函數(shù) re.match只匹配字符串的開(kāi)始,如果字符串開(kāi)始不符合正則表達(dá)式,則匹配失敗,函數(shù)返回None;而re.search匹配整個(gè)字符串,直到找到一個(gè)匹配。 示例: import recontent = 'I have 100 dogs and 200 cats'res = re.search('\d+',content)print(res.group()) 執(zhí)行結(jié)果:
以上,如果用re.match則無(wú)法匹配,因?yàn)檎齽t表達(dá)式不符合字符串規(guī)范,會(huì)報(bào)錯(cuò)。 而用re.search,直接匹配整個(gè)字符串。找到第一個(gè)符合 \d+ 的字符串100。 注:僅僅是匹配第一個(gè)符合的,所以只有100,后面的200不會(huì)匹配。 4、re.findall()函數(shù) re.search可以直接匹配找到符合正則的字符串,但是僅僅是**第一個(gè)**符合的。 如果需要匹配全部的符合的,則用到re.findall()函數(shù)。 re.findall()在字符串中找到正則表達(dá)式所匹配的所有子串,并返回一個(gè)列表,如果有多個(gè)匹配模式,則返回元組列表,如果沒(méi)有找到匹配的,則返回空列表。 示例: import recontent = 'I have 100 dogs and 200 cats'res = re.findall('\d+',content)print(res) 執(zhí)行結(jié)果:
由于返回的是返回一個(gè)列表或元組,所以也不需要group來(lái)捕獲。如果需要一個(gè)一個(gè)捕獲,用res[0] 或res[1]來(lái)一個(gè)一個(gè)顯示捕獲的值。 5:re.sub()函數(shù) 檢索和替換,Python 的 re 模塊提供了re.sub用于替換字符串中的匹配項(xiàng)。 語(yǔ)法: re.sub(pattern, repl, string, count=0, flags=0)參數(shù):pattern : 正則中的模式字符串。repl : 替換的字符串,也可為一個(gè)函數(shù)。string : 要被查找替換的原始字符串。count : 模式匹配后替換的最大次數(shù),默認(rèn) 0 表示替換所有的匹配。 示例:
執(zhí)行結(jié)果: I have 300 dogs and 300 cats 6:re.compile()函數(shù) 這個(gè)主要就是把我們的匹配符封裝一下,這個(gè)也是很常用的一個(gè)函數(shù)。 表達(dá)式:
參數(shù): pattern : 一個(gè)字符串形式的正則表達(dá)式 flags : 可選,表示匹配模式,比如忽略大小寫(xiě),多行模式等,具體參數(shù)為:
示例: import recontent = 'I have 100 dogs and cats'res = re.match('^I.*?(\d+)(.*?)and(.*?)$',content,re.S)print(res.group())print(res.groups()) 以上,我們可以先用re.compile把正則表達(dá)式封裝,便于以后反復(fù)使用。封裝后如下:
執(zhí)行結(jié)果相同: I have 100 dogs and cats('100', ' dogs ', ' cats') 7、其他函數(shù) re.finditer,和 findall 類(lèi)似,在字符串中找到正則表達(dá)式所匹配的所有子串,并把它們作為一個(gè)迭代器返回。
輸出結(jié)果: 1232433 re.split,split 方法按照能夠匹配的子串將字符串分割后返回列表。 示例:
執(zhí)行結(jié)果 ['abc', 'efg', 'ijk', 'mno', 'qrs'] 其他函數(shù),具體用法可參考官方文檔: 三、網(wǎng)頁(yè)中的正則提取1、正則表達(dá)式分析 慣例,同樣以豆瓣電影排行做分析,鏈接為: 查看源代碼,簡(jiǎn)單點(diǎn),我們提取4個(gè)信息即可。分別是排名序號(hào)、電影名稱(chēng)、導(dǎo)演演員、年份類(lèi)型。 ![]() 分析,所有信息在li標(biāo)簽中,所以首尾用在 li 標(biāo)簽中找就行了。需要的提取的信息,用()分組捕獲就行。 1:第一個(gè)信息,排名序號(hào),排名序號(hào)1在class></em之間。em是唯一的,比較簡(jiǎn)單。
2:第二個(gè)信息,電影名稱(chēng),有很多地方,但是我們選個(gè)唯一明顯不重復(fù)的,alt= 后面是標(biāo)簽里唯一的,整個(gè)標(biāo)簽里面就一個(gè)信息,所以這里比較簡(jiǎn)單,這時(shí)正則表達(dá)式為。 <li.*?(\d+)</em.*?alt='(.*?)'.*?li> 3:第三個(gè)信息,導(dǎo)演演員,在<p 標(biāo)簽里面,br>標(biāo)簽上方,這時(shí)正則表達(dá)式為。
4:第四個(gè)信息,年份類(lèi)型,同理br>標(biāo)簽后方,</p結(jié)束,這個(gè)也很明顯,最后的正則表達(dá)式為。 <li.*?(\d+)</em.*?alt='(.*?)'.*?<p.*?'>(.*?)<br>(.*?)</p.*?li> 2、頁(yè)面信息提取 正則表達(dá)式完成后,基本完成一大半了。現(xiàn)在簡(jiǎn)單提取相關(guān)信息。 這里用到兩個(gè)庫(kù),re庫(kù)正則表達(dá)式,和requests庫(kù)抓取頁(yè)面
執(zhí)行結(jié)果,返回一個(gè)列表,還有\(zhòng)n空格等,比較亂,類(lèi)似如下: [('1', '肖申克的救贖', '\n 導(dǎo)演: 弗蘭克·德拉邦特 Frank Darabont 主演: 蒂姆·羅賓斯 Tim Robbins ', '\n 1994 / 美國(guó) / 犯罪 劇情\n '), ('2', '霸王別姬', '\n 導(dǎo)演: 陳凱歌 Kaige Chen 主演: 張國(guó)榮 Leslie Cheung ', '\n 1993 / 中國(guó)大陸 中國(guó)香港 / 劇情 愛(ài)情 同性\n '), ('3', '阿甘正傳', '\n 導(dǎo)演: 羅伯特·澤米吉斯 Robert Zemeckis 主演: 湯姆·漢克斯 Tom Hanks ', '\n 1994 / 美國(guó) / 劇情 愛(ài)情\n '), ('4', '泰坦尼克號(hào)', '\n ... 3、列表去\n空格 為了整潔,我們先抓取列表第一個(gè)數(shù)據(jù) 即 items[0] ,并去掉\n和空格。 列表去除\n,需要用到 strip() 函數(shù), strip() 方法用于移除字符串頭尾指定的字符(默認(rèn)為空格或換行符)或字符序列。但是該函數(shù)只支持字符串,不支持列表。所以需要用循環(huán)的方式。如下:
最后更改后的代碼為: import requestsimport reheaders = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko)Chrome/65.0.3325.162 Safari/537.36'}url='https://movie.douban.com/top250'req=requests.get(url,headers=headers)html=req.text#print(req.text)pattern= re.compile('<li.*?(\d+)</em.*?alt='(.*?)'.*?<p.*?'>(.*?)<br>(.*?)</p.*?li>',re.S)items=re.findall(pattern,html)#print(items[0])new=[x.strip() for x in items[0] if x.strip()!='']print(new) 執(zhí)行結(jié)果這時(shí)候整潔多了:
4、循環(huán)提前整個(gè)頁(yè)面信息 以上只有第一個(gè)信息,整個(gè)頁(yè)面有很多信息,需要全部提取,并排列整齊,所以需要再次用到for循環(huán),一列一列的顯示出來(lái)。 最終代碼為: import requestsimport reheaders = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko)Chrome/65.0.3325.162 Safari/537.36'}url='https://movie.douban.com/top250'req=requests.get(url,headers=headers)html=req.text#print(req.text)#pattern= re.compile('<li.*?(\d+)</em.*?alt='(.*?)'.*?</li>',re.S)pattern= re.compile('<li.*?(\d+)</em.*?alt='(.*?)'.*?<p.*?'>(.*?)<br>(.*?)</p.*?li>',re.S)items=re.findall(pattern,html)#print(items[0])for item in items: new=[x.strip() for x in item if x.strip()!=''] print(new) 執(zhí)行結(jié)果:
到這里,單個(gè)頁(yè)面的信息就已經(jīng)提取完成了,也算是完成了爬蟲(chóng)的一小步了。 |
|