Python爬蟲使用Selenium PhantomJS抓取Ajax和動態(tài)HTML內容

東西二王 2019-05-11

展開全文

源代碼和實驗過程

假如我們要抓取京東手機頁面的手機名稱和價格(價格在網頁源碼是找不到的)，如下圖：

第一步：利用集搜客謀數(shù)臺的直觀標注功能，可以極快速度自動生成一個調試好的抓取規(guī)則，其實是一個標準的xslt程序，如下圖，把生成的xslt程序拷貝到下面的程序中即可。注意：本文只是記錄實驗過程，實際系統(tǒng)中，將采用多種方式把xslt程序注入到內容提取器重。

Python爬蟲使用Selenium PhantomJS抓取Ajax和動態(tài)HTML內容

第二步：執(zhí)行如下代碼(在windows10， python3.2下測試通過)，請注意：xslt是一個比較長的字符串，如果刪除這個字符串，代碼沒有幾行，足以見得Python之強大

Python爬蟲使用Selenium PhantomJS抓取Ajax和動態(tài)HTML內容

第三步：下圖可以看到，網頁中的手機名稱和價格被正確抓取下來了

Python爬蟲使用Selenium PhantomJS抓取Ajax和動態(tài)HTML內容

本站是提供個人知識管理的網絡存儲空間，所有內容均由用戶發(fā)布，不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權內容，請點擊一鍵舉報。

轉藏分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：東西二王 > 《Python》

舉報/認領

0條評論

請遵守用戶評論公約

類似文章 更多

東西二王

關注對話

喜歡該文的人也喜歡更多

熱門閱讀換一換

乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9