乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      火車(chē)采集器采集原理,流程介紹

       LibraryPKU 2013-03-01
      先說(shuō)一下,什么是數(shù)據(jù)采集呢?我們可以這樣理解,我們打開(kāi)一個(gè)網(wǎng)站,看到有一篇文章很不錯(cuò),于是我們就將文章的標(biāo)題和內(nèi)容復(fù)制了一下,將這篇文章轉(zhuǎn)到我們的網(wǎng)站上.我們的這個(gè)過(guò)程,就可以稱(chēng)作一個(gè)采集,將別人網(wǎng)站上對(duì)自己有用的信息轉(zhuǎn)到自己網(wǎng)站上.

        采集器也是這樣,不過(guò)整個(gè)過(guò)程是由軟件完成的.我們可以這樣理解,我們復(fù)制文章的標(biāo)題和內(nèi)容,是我們可以知道什么地方是內(nèi)容,什么地方是標(biāo)題, 但是軟件是不知道的,所以我們要告訴軟件,要怎么采,這就是寫(xiě)規(guī)則的過(guò)程..我們復(fù)制完了,打開(kāi)我們網(wǎng)站,比如論壇發(fā)帖的地方,然后粘帖發(fā)表,對(duì)軟件來(lái) 說(shuō),就是模仿我們發(fā)表帖子的過(guò)程,去發(fā)表文章,怎么發(fā)布,這就是發(fā)布模塊的事了..

        火車(chē)采集器就是一款用來(lái)采集數(shù)據(jù)的軟件,它是目前網(wǎng)絡(luò)上最強(qiáng)大的采集器.它幾乎可以采到你所見(jiàn)到的任何網(wǎng)頁(yè)內(nèi)容。

        火車(chē)采集器數(shù)據(jù)抓取原理:

        火車(chē)采集器如何去抓取數(shù)據(jù),取決于您的規(guī)則。您要獲取一個(gè)欄目的網(wǎng)頁(yè)里的所有內(nèi)容,需要先將這個(gè)網(wǎng)頁(yè)的網(wǎng)址采下來(lái),這就是采網(wǎng)址。程序按您的規(guī) 則抓取列表頁(yè)面,從中分析出網(wǎng)址,然后再去抓取獲得網(wǎng)址的網(wǎng)頁(yè)里的內(nèi)容。再根據(jù)您的采集規(guī)則,對(duì)下載到的網(wǎng)頁(yè)分析,將標(biāo)題內(nèi)容等信息分離開(kāi)來(lái)并保存下來(lái)。 如果您選擇了下載圖片等網(wǎng)絡(luò)資源,程序會(huì)對(duì)采集到的數(shù)據(jù)進(jìn)行分析,找出文章下載地址并下載到本地。

        火車(chē)采集器數(shù)據(jù)發(fā)布原理:

      在我們將數(shù)據(jù)采集下來(lái)后數(shù)據(jù)默認(rèn)是保存在本地的,我們可以使用以下幾種方式對(duì)種據(jù)進(jìn)行處理。

      1.不做任何處理。因?yàn)閿?shù)據(jù)本身是保存在數(shù)據(jù)庫(kù)的(access或是db3),您如果只是想看一下,直接用相關(guān)軟件查看就可以了。

      2.web發(fā)布到網(wǎng)站。程序會(huì)模仿瀏覽器向您的網(wǎng)站發(fā)送數(shù)據(jù),可以實(shí)現(xiàn)您手工發(fā)布的效果。

      3.直接入數(shù)據(jù)庫(kù)。您只需寫(xiě)幾個(gè)SQL語(yǔ)句,程序會(huì)將數(shù)據(jù)按您的SQL語(yǔ)句導(dǎo)入到數(shù)據(jù)庫(kù)中。

      4.保存為本地文件。程序會(huì)讀取數(shù)據(jù)庫(kù)里的數(shù)據(jù),按一定格式保存為本地sql或是文本文件。

        火車(chē)采集器工作流程:

        火車(chē)頭采集是可以分成兩個(gè)步驟的,一是采集數(shù)據(jù),二是發(fā)布數(shù)據(jù)。這兩個(gè)過(guò)程是可以分開(kāi)的。

        1.采集數(shù)據(jù),這個(gè)包括采集網(wǎng)址,采集內(nèi)容。這個(gè)過(guò)程是獲得數(shù)據(jù)的過(guò)程。我們做規(guī)則,在采的過(guò)程中也算是對(duì)內(nèi)容做了處理。

        2.發(fā)布內(nèi)容就是將數(shù)據(jù)發(fā)布到自己的論壇,CMS的過(guò)程,也是實(shí)現(xiàn)數(shù)據(jù)為已有的過(guò)程??梢杂肳EB在線(xiàn)發(fā)布,數(shù)據(jù)庫(kù)入庫(kù)或存為本地文件。

        具體的使用其實(shí)是很靈活的,可以根據(jù)實(shí)際來(lái)決定。比如我可以采集時(shí)先采集不發(fā)布,有時(shí)間了再發(fā)布,或是同時(shí)采集發(fā)布,或是先做發(fā)布配置,也可以在采集完了再添加發(fā)布配置。總之,具體過(guò)程由您而定,火車(chē)采集器的強(qiáng)大功能之一也就是體現(xiàn)在靈活中。


        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶(hù) 評(píng)論公約

        類(lèi)似文章 更多