談及 雖然它低調(diào),但功能非常強(qiáng)大,用于抓取Table表格型數(shù)據(jù)時(shí),簡(jiǎn)直是個(gè)神器。下面來(lái)詳細(xì)介紹一下。 大家逛網(wǎng)頁(yè)時(shí),經(jīng)常會(huì)看到這樣一些數(shù)據(jù)表格,比如: 電影票房數(shù)據(jù) 世界大學(xué)排行榜數(shù)據(jù) 財(cái)經(jīng)數(shù)據(jù) 如果查看一下網(wǎng)頁(yè)的HTML結(jié)構(gòu)(Chrome瀏覽器F12),會(huì)發(fā)現(xiàn)它們有個(gè)共同的特點(diǎn),不僅是表格,還是以Table結(jié)構(gòu)展示的表格數(shù)據(jù),大致的網(wǎng)頁(yè)結(jié)構(gòu)如下 <table class='...' id='...'> 針對(duì)網(wǎng)頁(yè)結(jié)構(gòu)類似的表格類型數(shù)據(jù), 先介紹一下 read_html
接下來(lái)以爬取新浪財(cái)經(jīng)的基金重倉(cāng)股為例演示一下,URL為: 這部分有6頁(yè),點(diǎn)擊不同的頁(yè)數(shù)可以發(fā)現(xiàn),請(qǐng)求URL主要是
整個(gè)過(guò)程不需要用到正則表達(dá)式或者 日后在爬一些小型數(shù)據(jù)時(shí),只要遇到這種Table類型的表格,就可以直接祭出 Python中文社區(qū)作為一個(gè)去中心化的全球技術(shù)社區(qū),以成為全球20萬(wàn)Python中文開(kāi)發(fā)者的精神部落為愿景,目前覆蓋各大主流媒體和協(xié)作平臺(tái),與阿里、騰訊、百度、微軟、亞馬遜、開(kāi)源中國(guó)、CSDN等業(yè)界知名公司和技術(shù)社區(qū)建立了廣泛的聯(lián)系,擁有來(lái)自十多個(gè)國(guó)家和地區(qū)數(shù)萬(wàn)名登記會(huì)員,會(huì)員來(lái)自以工信部、清華大學(xué)、北京大學(xué)、北京郵電大學(xué)、中國(guó)人民銀行、中科院、中金、華為、BAT、谷歌、微軟等為代表的政府機(jī)關(guān)、科研單位、金融機(jī)構(gòu)以及海內(nèi)外知名公司,全平臺(tái)近20萬(wàn)開(kāi)發(fā)者關(guān)注。 |
|
來(lái)自: F2967527 > 《數(shù)據(jù)分析》