源代碼和實驗過程 假如我們要抓取京東手機頁面的手機名稱和價格(價格在網頁源碼是找不到的),如下圖: 第一步:利用集搜客謀數(shù)臺的直觀標注功能,可以極快速度自動生成一個調試好的抓取規(guī)則,其實是一個標準的xslt程序,如下圖,把生成的xslt程序拷貝到下面的程序中即可。注意:本文只是記錄實驗過程,實際系統(tǒng)中,將采用多種方式把xslt程序注入到內容提取器重。 . 第二步:執(zhí)行如下代碼(在windows10, python3.2下測試通過),請注意:xslt是一個比較長的字符串,如果刪除這個字符串,代碼沒有幾行,足以見得Python之強大 第三步:下圖可以看到,網頁中的手機名稱和價格被正確抓取下來了 |
|