網(wǎng)站怎么樣防止被人采集
一、背景 空間就不能正常訪問了,打電話詢問空間服務(wù)提供商,原來是空間服務(wù)提供商為了節(jié)省帶寬,給各種類型的用戶限制了流量每天斷流的情況,告訴說的B型空間每日流量不能超過300M,問到是什么占用流量時,空間服務(wù)提供商告訴說大部分流量來源于搜索引擎??蓯旱乃阉饕妫≡趺床蛔尵W(wǎng)站內(nèi)容被蜘蛛抓取呢?當(dāng)時這么想。后來隨著原創(chuàng)文章數(shù)的增多,導(dǎo)致文章被轉(zhuǎn)貼、采集、附件經(jīng)常被盜鏈,這些也成為了日益需要解決的問題。 二、 基礎(chǔ)概念 其實最簡單的單元就是程序代碼,程序代碼構(gòu)造了程序,比如簡單的抓取 wget 程序,比如假設(shè)要抓取天空軟件站的“創(chuàng)新英語單詞通” ,直接在命令行: wget http://jlbc./down/recite.rar --referer=http://www./soft/31870.html這樣就能抓取到天空軟件站的這個軟件。很多的程序構(gòu)造起來,給定了一定的名稱,富有更多的功能 ,這樣升級成爬蟲或者蜘蛛,又稱機(jī)器人,像Yahoo! Slurp China,baiduspider,Google bot等等。 現(xiàn)在的采集更為精準(zhǔn),采集標(biāo)題、需要采集的內(nèi)容、采集的地址、采集所需要的屏蔽內(nèi)容,等都可以讓已經(jīng)編譯好的程序通過后臺進(jìn)行簡單的操作即可。 三、 解決之道 方案一,環(huán)境變量 根據(jù)系統(tǒng)環(huán)境變量,我們可以指定蜘蛛該收錄一些什么不收錄一些什么,提高需采集的技術(shù)難度。 使用 HTTP_USER_AGENT 指定蜘蛛類型以及識別蜘蛛和非蜘蛛抓取,根據(jù)其類型反應(yīng)出不同的內(nèi)容; 使用 HTTP_ACCEPT_LANGUAGE 可以識別基本的套接字類抓取以及蜘蛛和非蜘蛛,畢竟采集機(jī)器人能識別語種的占少數(shù),像本人的主站點使用的就是這個參數(shù); 使用 HTTP_REFERER 可以偵測盜鏈狀況,如果referer來源不是本站或者指定的站點,跳轉(zhuǎn)或者指向其他頁面,本人站點的處理防止圖片盜鏈的方法就是一種高級的利用referer反盜鏈方法,然后引導(dǎo)到 一個字節(jié)很小的頁面; 使用 REMOTE_PORT 記錄蜘蛛的地址,緩存起來,可以直接屏蔽該地址,杜絕采集或者針對搜索引擎進(jìn)行優(yōu)化; 使用 HTTP認(rèn)證 來屏蔽匿名蜘蛛的抓取; 方案二,程序本身控制 深究網(wǎng)站頻繁訪問以及大量被采集,主要還是自身網(wǎng)站程序原因?qū)е隆?br>更改目錄 是一種比較土的辦法,但是非常使用有效,編寫程序擁有自動在一段時間某個ip頻繁訪問的情況下,自動更換目錄路徑,這樣減少外界機(jī)器人的頻繁訪問; 提升網(wǎng)站本身的權(quán)限 ,比如需要注冊ID訪問,每個ID對應(yīng)于不同的權(quán)限;或是根據(jù)IP加時間結(jié)合的方法進(jìn)行訪問控制等; 使用隱藏文字 方式進(jìn)行干擾,比如用CSS的DIsplay:none,或者直接把字體顏色和背景顏色一致,這樣采集者要分離文章需要大量的時間處理,比如我的BBS論壇使用的就是此方式; Javascript 的干擾,目前一般很少有人使用此方式來做站,估計大部分站長考慮到搜索引擎解析Javascript差,擔(dān)心不會被收錄的問題;本人的站點就是比較另類的一個,用JS作為輸出,所有的正文全 部在JS里面; XML 化的頁面是比較難被蜘蛛所識別,特別是Javascript+Xml化后,使用了ajax技術(shù),即保證了速度,又保護(hù)了有效的數(shù)據(jù),這種類型的網(wǎng)站還沒有蜘蛛能夠完全的解析,像澳門官方體彩網(wǎng)站; 方案三,網(wǎng)站結(jié)構(gòu) 網(wǎng)站結(jié)構(gòu)可以很大的影響采集以及搜索引擎收錄。 網(wǎng)站圖片化 早些年,一些很精美的韓國模板都是圖片拼成的,像IKdiary; Flash 結(jié)構(gòu)的網(wǎng)站,一些高超的閃客把一些動態(tài)頁面全部用flash繪制而成,簡直就是蜘蛛的克星; 使用非80端口的更安全協(xié)議 比如HTTPS協(xié)議,雖然成本比較高,但是也是防止匿名蜘蛛抓取的好辦法; 四、 后記 從搜索引擎的出發(fā)點來看,上面的方法與之背道而馳,不管怎樣,我們的目的是做一個站,做站就是做的有特色,保留自己網(wǎng)站上的特色,把精髓奉獻(xiàn)給大家,這就是互聯(lián)網(wǎng)的初衷。而隨著互連網(wǎng) 的日益壯大,采集已經(jīng)成為一個普遍的問題,區(qū)區(qū)已拋磚引玉,把過度蜘蛛抓取的解決的辦法一一告訴大家,希望大家能有更多的想法一起討論噢。 |
|