乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      Python爬蟲實戰(zhàn)入門五:獲取JS動態(tài)內容—爬取今日頭條

       ly88 2018-09-15

      之前我們爬取的網頁,多是HTML靜態(tài)生成的內容,直接從HTML源碼中就能找到看到的數(shù)據和內容,然而并不是所有的網頁都是這樣的。

      有一些網站的內容由前端的JS動態(tài)生成,由于呈現(xiàn)在網頁上的內容是由JS生成而來,我們能夠在瀏覽器上看得到,但是在HTML源碼中卻發(fā)現(xiàn)不了。比如今日頭條:

      瀏覽器呈現(xiàn)的網頁是這樣的:

      Python爬蟲實戰(zhàn)入門五:獲取JS動態(tài)內容—爬取今日頭條

      查看源碼,卻是這樣的:

      Python爬蟲實戰(zhàn)入門五:獲取JS動態(tài)內容—爬取今日頭條

      網頁的新聞在HTML源碼中一條都找不到,全是由JS動態(tài)生成加載。

      遇到這種情況,我們應該如何對網頁進行爬取呢?有兩種方法:

      1、從網頁響應中找到JS腳本返回的JSON數(shù)據;2、使用Selenium對網頁進行模擬訪問

      在此只對第一種方法作介紹,關于Selenium的使用,后面有專門的一篇。

      一、從網頁響應中找到JS腳本返回的JSON數(shù)據

      即使網頁內容是由JS動態(tài)生成加載的,JS也需要對某個接口進行調用,并根據接口返回的JSON數(shù)據再進行加載和渲染。

      所以我們可以找到JS調用的數(shù)據接口,從數(shù)據接口中找到網頁中最后呈現(xiàn)的數(shù)據。

      就以今日頭條為例來演示:

      1、從找到JS請求的數(shù)據接口

      F12打開網頁調試工具

      Python爬蟲實戰(zhàn)入門五:獲取JS動態(tài)內容—爬取今日頭條

      網頁調試工具

      選擇“網絡”選項卡后,發(fā)現(xiàn)有很多響應,我們篩選一下,只看XHR響應。

      (XHR是Ajax中的概念,表示XMLHTTPrequest)

      然后我們發(fā)現(xiàn)少了很多鏈接,隨便點開一個看看:

      我們選擇city,預覽中有一串json數(shù)據:

      Python爬蟲實戰(zhàn)入門五:獲取JS動態(tài)內容—爬取今日頭條


      我們再點開看看:

      Python爬蟲實戰(zhàn)入門五:獲取JS動態(tài)內容—爬取今日頭條


      原來全都是城市的列表,應該是加載地區(qū)新聞之用的。

      現(xiàn)在大概了解了怎么找JS請求的接口的吧?但是剛剛我們并沒有發(fā)現(xiàn)想要的新聞,再找找看:

      有一個focus,我們點開看看:

      Python爬蟲實戰(zhàn)入門五:獲取JS動態(tài)內容—爬取今日頭條


      與首頁的圖片新聞呈現(xiàn)的數(shù)據是一樣的,那么數(shù)據應該就在這里面了。

      看看其他的鏈接:

      Python爬蟲實戰(zhàn)入門五:獲取JS動態(tài)內容—爬取今日頭條


      這應該是熱搜關鍵詞

      Python爬蟲實戰(zhàn)入門五:獲取JS動態(tài)內容—爬取今日頭條


      這個就是圖片新聞下面的新聞了。

      我們打開一個接口鏈接看看:

      Python爬蟲實戰(zhàn)入門五:獲取JS動態(tài)內容—爬取今日頭條


      返回一串亂碼,但從響應中查看的是正常的編碼數(shù)據:

      Python爬蟲實戰(zhàn)入門五:獲取JS動態(tài)內容—爬取今日頭條


      有了對應的數(shù)據接口,我們就可以仿照之前的方法對數(shù)據接口進行請求和獲取響應了

      2、請求和解析數(shù)據接口數(shù)據

      先上完整代碼:

      # coding:utf-8

      import requests

      import json

      url = 'http://www.toutiao.com/api/pc/focus/'

      wbdata = requests.get(url).text

      data = json.loads(wbdata)

      news = data['data']['pc_feed_focus']

      for n in news:

      title = n['title']

      img_url = n['image_url']

      url = n['media_url']

      print(url,title,img_url)

      返回出來的結果如下:

      Python爬蟲實戰(zhàn)入門五:獲取JS動態(tài)內容—爬取今日頭條


      照例,稍微講解一下代碼:

      代碼分為四部分,

      第一部分:引入相關的庫

      # coding:utf-8

      import requests

      import json

      第二部分:對數(shù)據接口進行http請求

      url = 'http://www.toutiao.com/api/pc/focus/'

      wbdata = requests.get(url).text

      第三部分:對HTTP響應的數(shù)據JSON化,并索引到新聞數(shù)據的位置

      data = json.loads(wbdata)

      news = data['data']['pc_feed_focus']

      第四部分:對索引出來的JSON數(shù)據進行遍歷和提取

      for n in news:

      title = n['title']

      img_url = n['image_url']

      url = n['media_url']

      print(url,title,img_url)

      如此,就完成了從JS網頁中爬取數(shù)據。


      之前我們爬取的網頁,多是HTML靜態(tài)生成的內容,直接從HTML源碼中就能找到看到的數(shù)據和內容,然而并不是所有的網頁都是這樣的。

      有一些網站的內容由前端的JS動態(tài)生成,由于呈現(xiàn)在網頁上的內容是由JS生成而來,我們能夠在瀏覽器上看得到,但是在HTML源碼中卻發(fā)現(xiàn)不了。比如今日頭條:

      瀏覽器呈現(xiàn)的網頁是這樣的:

      Python爬蟲實戰(zhàn)入門五:獲取JS動態(tài)內容—爬取今日頭條

      查看源碼,卻是這樣的:

      Python爬蟲實戰(zhàn)入門五:獲取JS動態(tài)內容—爬取今日頭條

      網頁的新聞在HTML源碼中一條都找不到,全是由JS動態(tài)生成加載。

      遇到這種情況,我們應該如何對網頁進行爬取呢?有兩種方法:

      1、從網頁響應中找到JS腳本返回的JSON數(shù)據;2、使用Selenium對網頁進行模擬訪問

      在此只對第一種方法作介紹,關于Selenium的使用,后面有專門的一篇。

      一、從網頁響應中找到JS腳本返回的JSON數(shù)據

      即使網頁內容是由JS動態(tài)生成加載的,JS也需要對某個接口進行調用,并根據接口返回的JSON數(shù)據再進行加載和渲染。

      所以我們可以找到JS調用的數(shù)據接口,從數(shù)據接口中找到網頁中最后呈現(xiàn)的數(shù)據。

      就以今日頭條為例來演示:

      1、從找到JS請求的數(shù)據接口

      F12打開網頁調試工具

      Python爬蟲實戰(zhàn)入門五:獲取JS動態(tài)內容—爬取今日頭條

      網頁調試工具

      選擇“網絡”選項卡后,發(fā)現(xiàn)有很多響應,我們篩選一下,只看XHR響應。

      (XHR是Ajax中的概念,表示XMLHTTPrequest)

      然后我們發(fā)現(xiàn)少了很多鏈接,隨便點開一個看看:

      我們選擇city,預覽中有一串json數(shù)據:

      Python爬蟲實戰(zhàn)入門五:獲取JS動態(tài)內容—爬取今日頭條


      我們再點開看看:

      Python爬蟲實戰(zhàn)入門五:獲取JS動態(tài)內容—爬取今日頭條


      原來全都是城市的列表,應該是加載地區(qū)新聞之用的。

      現(xiàn)在大概了解了怎么找JS請求的接口的吧?但是剛剛我們并沒有發(fā)現(xiàn)想要的新聞,再找找看:

      有一個focus,我們點開看看:

      Python爬蟲實戰(zhàn)入門五:獲取JS動態(tài)內容—爬取今日頭條


      與首頁的圖片新聞呈現(xiàn)的數(shù)據是一樣的,那么數(shù)據應該就在這里面了。

      看看其他的鏈接:

      Python爬蟲實戰(zhàn)入門五:獲取JS動態(tài)內容—爬取今日頭條


      這應該是熱搜關鍵詞

      Python爬蟲實戰(zhàn)入門五:獲取JS動態(tài)內容—爬取今日頭條


      這個就是圖片新聞下面的新聞了。

      我們打開一個接口鏈接看看:

      Python爬蟲實戰(zhàn)入門五:獲取JS動態(tài)內容—爬取今日頭條


      返回一串亂碼,但從響應中查看的是正常的編碼數(shù)據:

      Python爬蟲實戰(zhàn)入門五:獲取JS動態(tài)內容—爬取今日頭條


      有了對應的數(shù)據接口,我們就可以仿照之前的方法對數(shù)據接口進行請求和獲取響應了

      2、請求和解析數(shù)據接口數(shù)據

      先上完整代碼:

      # coding:utf-8

      import requests

      import json

      url = 'http://www.toutiao.com/api/pc/focus/'

      wbdata = requests.get(url).text

      data = json.loads(wbdata)

      news = data['data']['pc_feed_focus']

      for n in news:

      title = n['title']

      img_url = n['image_url']

      url = n['media_url']

      print(url,title,img_url)

      返回出來的結果如下:

      Python爬蟲實戰(zhàn)入門五:獲取JS動態(tài)內容—爬取今日頭條


      照例,稍微講解一下代碼:

      代碼分為四部分,

      第一部分:引入相關的庫

      # coding:utf-8

      import requests

      import json

      第二部分:對數(shù)據接口進行http請求

      url = 'http://www.toutiao.com/api/pc/focus/'

      wbdata = requests.get(url).text

      第三部分:對HTTP響應的數(shù)據JSON化,并索引到新聞數(shù)據的位置

      data = json.loads(wbdata)

      news = data['data']['pc_feed_focus']

      第四部分:對索引出來的JSON數(shù)據進行遍歷和提取

      for n in news:

      title = n['title']

      img_url = n['image_url']

      url = n['media_url']

      print(url,title,img_url)

      如此,就完成了從JS網頁中爬取數(shù)據。

      著作權歸作者所有:來自51CTO博客作者菜鳥學Python的原創(chuàng)作品,如需轉載,請注明出處,否則將追究法律責任

        本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內容,請點擊一鍵舉報。
        轉藏 分享 獻花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多