爬蟲是什么-摘自峽州仙士

小原渚 2021-01-17

展開全文

分享：有關Python爬蟲

爬蟲是什么？

網(wǎng)絡爬蟲是一種按照一定的規(guī)則自動地抓取網(wǎng)絡信息的程序或者腳本。簡單來說，網(wǎng)絡爬蟲就是根據(jù)一定的算法實現(xiàn)編程開發(fā)，主要通過URL實現(xiàn)數(shù)據(jù)的抓取和發(fā)掘。

隨著大數(shù)據(jù)時代的發(fā)展，數(shù)據(jù)規(guī)模越來越龐大，數(shù)據(jù)類型繁多，但是數(shù)據(jù)價值普遍較低。

為了從龐大的數(shù)據(jù)體系里獲取有價值的數(shù)據(jù)，從而延伸了網(wǎng)絡爬蟲、數(shù)據(jù)分析等多個職位。近幾年，網(wǎng)絡爬蟲的需求更是井噴式地爆發(fā)，在招聘的供求市場上往往是供不應求，造成這個現(xiàn)狀的主要原因就是求職者的專業(yè)水平低于需求企業(yè)的要求。

傳統(tǒng)的爬蟲有百度、Google、必應等搜索引擎，這類通用的搜索引擎都有自己的核心算法。

但是，通用的搜索引擎存在著一定的局限性：

（1）不同的搜索引擎對于同一個搜索會有不同的結果，搜索出來的結果未必是用戶需要的信息。

（2）通用的搜索引擎擴大了網(wǎng)絡覆蓋率，但有限的搜索引擎服務器資源與無限的網(wǎng)絡數(shù)據(jù)資源之間的矛盾將進一步加深。

（3）隨著網(wǎng)絡上數(shù)據(jù)形式繁多和網(wǎng)絡技術的不斷發(fā)展，圖片、數(shù)據(jù)庫、音頻、視頻多媒體等不同數(shù)據(jù)大量出現(xiàn)，通用搜索引擎往往對這些信息含量密集且具有一定結構的數(shù)據(jù)無能為力，不能很好地發(fā)現(xiàn)和獲取。

因此，為了得到準確的數(shù)據(jù)，定向抓取相關網(wǎng)頁資源的聚焦爬蟲應運而生。聚焦爬蟲是一個自動下載網(wǎng)頁的程序，可根據(jù)設定的抓取目標有目的性地訪問互聯(lián)網(wǎng)上的網(wǎng)頁與相關的URL，從而獲取所需要的信息。與通用爬蟲不同，聚焦爬蟲并不追求全面的覆蓋率，而是抓取與某一特定內(nèi)容相關的網(wǎng)頁，為面向特定的用戶提供準備數(shù)據(jù)資源。