乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      Larbin 一種高效的搜索引擎爬蟲工具:Search Engine搜索引擎研究

       龍蟄 2006-02-14

      Larbin 一種高效的搜索引擎爬蟲工具::[Search Engine]


      Liang

      離開dallas已經(jīng)整整十天了,基本上除了到處見見人之外基本上沒有其它的時間來學習新知識,也沒有空將要完成的工作收尾。

      Niu.la ,Booso,luliang.dhs.org 和 wespoke 相繼宕機,看來年底各個地方的維護都不力。

      itseek的開發(fā)者多次問起 larbin 的事情,我就在這里對larbin做一個簡單的介紹。因為相對于復雜的系統(tǒng)來講,larbin具有高度的可配置性,和良好的工作效率。

      1]larbin的簡介
      larbin是一種開源的網(wǎng)絡(luò)爬蟲/網(wǎng)絡(luò)蜘蛛,由法國的年輕人 Sébastien Ailleret獨立開發(fā)。larbin目的是能夠跟蹤頁面的url進行擴展的抓取,最后為搜索引擎提供廣泛的數(shù)據(jù)來源。

      Larbin只是一個爬蟲,也就是說larbin只抓取網(wǎng)頁,至于如何parse的事情則由用戶自己完成。另外,如何存儲到數(shù)據(jù)庫以及建立索引的事情 larbin也不提供。

      latbin最初的設(shè)計也是依據(jù)設(shè)計簡單但是高度可配置性的原則,因此我們可以看到,一個簡單的larbin的爬蟲可以每天獲取500萬的網(wǎng)頁,實在是非常高效。

      2] Larbin的性能特征
      高效是我對 larbin 的評價。
      今年四月份的時候我對larbin的性能做過一個測試,luliang.dhs.org是我自己常用的服務(wù)器,CPU 為1G,內(nèi)存512,其它的性能一般,因為是三年前購置的。

      我將我自己的網(wǎng)頁 六翼作為入口,運行l(wèi)arbin進行5層內(nèi)的url的抓取。

      當時紀錄的一些數(shù)據(jù):
      Internet IO: 500-700k/per second (我想大約我的網(wǎng)絡(luò)下載的瓶頸了吧)
      CPU top: 5%-15%
      disk consume: 1M/s ,基本上一個小時爬 3個G 的網(wǎng)頁。差不多20萬的頁面
      url 解析: 200萬-300萬每小時

      3] larbin 的作用
      很多人初見 larbin 不知道從哪里下手,那么我來簡單介紹一下 larbin 的功能和實際應用。
      1. larbin 獲取單個、確定網(wǎng)站的所有聯(lián)結(jié),甚至可以鏡像一個網(wǎng)站。
      2. larbin建立 url 列表群,例如針對所有的網(wǎng)頁進行 url retrive后,進行xml的聯(lián)結(jié)的獲取?;蛘呤?mp3 。
      3. larbin 定制后可以作為搜索引擎的信息的來源(例如可以將抓取下來的網(wǎng)頁每2000一組存放在一系列的目錄結(jié)構(gòu)里面)。

      總歸,larbin應當是一個被廣大搜索引擎愛好者應當引起注意的一個產(chǎn)品,雖然其功能逐漸被 Nutch 所接受和替代,但是其在爬蟲上的優(yōu)美設(shè)計的確值得稱道。

        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多