360doc--太湖草的文章 360doc--太湖草的文章 http://www.hbhlny.cn/rssperson/5087188.aspx 360doc (http://www.hbhlny.cn) zh-cn 360doc--個人圖書館 oracle 連接數(shù)想關(guān)的查詢語句 http://www.hbhlny.cn/content/11/0426/08/5087188_112353069.shtml 2011/4/26 8:19:17
oracle 連接數(shù)想關(guān)的查詢語句。怎樣查看oracle當(dāng)前的連接數(shù)呢?select * from v$session where username is not null.select username,count(username) from v$session where username is not null group by username #查看不同用戶的連接數(shù)./home/oracle9i/app/oracle9i/dbs/init.ora./home/oracle9i/app/oracle9i/dbs/spfilexxx.ora ## open_cursor.
日期表達式格式 http://www.hbhlny.cn/content/11/0225/16/5087188_96055421.shtml 2011/2/25 16:08:53
Linux 下 查找某文件 http://www.hbhlny.cn/content/11/0112/16/5087188_85999630.shtml 2011/1/12 16:27:03
HTTP錯誤代碼列表 http://www.hbhlny.cn/content/10/1214/14/5087188_78034775.shtml 2010/12/14 14:50:45
HTTP錯誤代碼列表所有 HTTP 狀態(tài)代碼及其定義。代碼 指示 2xx 成功 200 正常;3xx 重定向 301 已移動 — 請求的數(shù)據(jù)具有新的位置且更改是永久的。4xx 客戶機中出現(xiàn)的錯誤 400 錯誤請求 — 請求中有語法問題,或不能滿足請求。5xx 服務(wù)器中出現(xiàn)的錯誤 500 內(nèi)部錯誤 — 因為意外情況,服務(wù)器不能完成請求。502 錯誤網(wǎng)關(guān) — 服務(wù)器接收到來自上游服務(wù)器的無效響應(yīng)。
靜態(tài)頁面更新判別方法 http://www.hbhlny.cn/content/10/1214/12/5087188_77996425.shtml 2010/12/14 12:58:39
靜態(tài)頁面更新判別方法HTTP Header 里面的 Last-modified 字段。以下是通過long類型值獲取日期類型:long l=c.getLastModified();String reString=new SimpleDateFormat("yyyy-MM-dd").format(new Date(l)); Date date=new Date(l);一般正常返回為正確的修改時間,但有時候返回的可能是long值為0,這種情況下更新后也不會改變,不能以此作為判斷更新的依據(jù)。
java.io.IOException: Server returned HTTP response code: 403 for URL http://www.hbhlny.cn/content/10/1214/12/5087188_77988147.shtml 2010/12/14 12:31:48
IOException: Server returned HTTP response code: 403 for URL.java.io.因為服務(wù)器的安全設(shè)置不接受Java程序作為客戶端訪問,解決方案是設(shè)置客戶端的User Agent.url = new URL("http://physics.whu.edu.cn/show.asp?id=278"); HttpURLConnection connection = (HttpURLConnection) url.其中還有對 500 for URL 等問題的解釋。
Heritrix源碼分析(十三) Heritrix的控制中心(大腦)CrawlContro... http://www.hbhlny.cn/content/10/0914/13/2793979_53552944.shtml 2010/12/13 20:01:03
啟動Heritrix的代碼相對較少.可以看見這里主要是初始化處理器,以及發(fā)送狀態(tài),同時開啟統(tǒng)計監(jiān)聽器線程??梢钥吹紿eritrix的暫停實際上是線程的暫停,不過每一個多線程應(yīng)用的暫停也都是線程的暫停吧。這里我說下自己的理解,由于Heritrix停止后允許讓Heritrix暫停,可以通過配置命令配置,所以這里并沒有做到大家想象中的那種停止,而是讓Heritrix的調(diào)度中心啟動在那,而所有的處理模塊卻都停止了,實際上還是無法進行任何抓取。
Heritrix源碼分析(十二) Heritrix的控制中心(大腦)CrawlContro... http://www.hbhlny.cn/content/10/0914/13/2793979_53552862.shtml 2010/12/13 19:58:03
Heritrix源碼分析(十一) Heritrix中的URL--CandidateURI和... http://www.hbhlny.cn/content/10/0914/13/2793979_53552771.shtml 2010/12/13 19:56:35
//獲得屬性的值,該值為Int類型public int getInt(String key) {return getAList().getInt(key);}//獲得屬性的值,該值為Long類型public long getLong(String key) {return getAList().getLong(key);}//獲得屬性的值,該值為Object類型public Object getObject(String key) {return getAList().getObject(key);}//獲得屬性的值,該值為String類型public String getString(String key) {return getAList().getString(key);}
Heritrix源碼分析(十) Heritrix中的Http Status Code(Ht... http://www.hbhlny.cn/content/10/0914/13/2793979_53552653.shtml 2010/12/13 19:56:03
以前在做Web開發(fā)的時候就接觸過一些HttpStatus Code,比如404,500.后來接觸Heritrix之后才知道HttpStatus Code竟然有如此之多。Heritrix自己也根據(jù)自己的需求增加了一些,同時由于Heritrix通過HttpClient去獲取網(wǎng)絡(luò)資源,其中一部分HttpStatus Code也來源于HttpClient,接下來我會逐個介紹。Heritrix屬性。Heritrix也自定義了規(guī)則去限制URL.heritrix可以多線程抓取,用戶可以刪除線程,當(dāng)前狀態(tài)就表示運行該URL的線程被刪除。
Heritrix源碼分析(九) Heritrix的二次抓取以及如何讓Heritrix抓取你... http://www.hbhlny.cn/content/10/0914/13/2793979_53552547.shtml 2010/12/13 19:56:02
Heritrix源碼分析(八) Heritrix8個處理器(Processor)介紹 - ... http://www.hbhlny.cn/content/10/0914/13/2793979_53552454.shtml 2010/12/13 19:55:07
FrontierScheduler 調(diào)度處理器,將URL放入調(diào)度中心,以便接下來可以抓取 1) 先驗證該URL是否有先決條件URL要先處理,有的話則將該先決條件URL放入調(diào)度中心,同時退出該處理器 2) 如果以上該URL沒有先決條件URL要處理,則獲取該URL抽取到的所有鏈接,循環(huán)將他們放入調(diào)度中心,以便下次可以抓取。
Heritrix源碼分析(七) Heritrix總體介紹 - 真人假天下 - JavaEy... http://www.hbhlny.cn/content/10/0914/12/2793979_53552180.shtml 2010/12/13 19:54:48
歡迎加入Heritrix群(QQ):10447185.很多服務(wù)器肯定無法承受爬蟲無節(jié)制的抓取,所以我們得需要在爬蟲上做一些控制,而Heritrix在這一方面做好。2)Heritrix對中文支持不夠,比如URL中有中文的URL肯定抽取不到,但這個改動部分代碼頁就是它的正則表達式即可。5)綜合以上兩點就意味著Heritrix沒有很好的容錯性以及回復(fù)機制,只能自己改動代碼來改善這一點,比如Heritrix停止后可以延續(xù)上一次的抓取繼續(xù)抓取,當(dāng)線程不夠可以自動補充....
Heritrix源碼分析(六) Heritrix的文件結(jié)構(gòu)分析 - 真人假天下 - Jav... http://www.hbhlny.cn/content/10/0914/12/2793979_53552063.shtml 2010/12/13 19:53:36
種子文件,Heritrix從里面的URL開始抓取。種子抓取匯報,主要針對seeds.txt里的種子URL做個說明。3.抓取host匯報(按urls個數(shù)從大到小排序):hosts-report.txt [#urls]:該host下URL個數(shù) [#bytes]:該host下所抓取的字節(jié)數(shù) [host]:host [#robots]:被爬蟲協(xié)議拒絕的url個數(shù) [#remaining]:剩下還未處理的URL個數(shù)。
Heritrix源碼分析(五) 如何讓Heritrix在Ecplise等IDE下編程啟動 ... http://www.hbhlny.cn/content/10/0914/12/2793979_53551894.shtml 2010/12/13 19:53:33
Heritrix源碼分析(四) 各個類說明(二) - 真人假天下 - JavaEye技術(shù)網(wǎng)... http://www.hbhlny.cn/content/10/0914/12/2793979_53551730.shtml 2010/12/13 19:52:45
BDB調(diào)度器,用BDB數(shù)據(jù)庫去管理所有的URL,如保存哪些待抓取的URL,哪些已經(jīng)抓取的URL,Heritrix最復(fù)雜的地方之一,接下來會重點分析。抓取隊列由BDB存儲管理,相同classkey的URL為一個隊列.classkey由用戶配置決定,Heritrix默認(rèn)是相同host的URL就為一個隊列.Heritrix最復(fù)雜的地方之一,接下來會重點分析。URL ClassKey獲得策略,Heritrix的默認(rèn)策略,通過域名來獲得URL的class key。
Heritrix源碼分析(四) 各個類說明(一) - 真人假天下 - JavaEye技術(shù)網(wǎng)... http://www.hbhlny.cn/content/10/0914/12/2793979_53550691.shtml 2010/12/13 19:52:27
封裝Servlet,如此才可以通過Web啟動Heritrix,里面裝載Heritrix對象。Heritrix核心類,統(tǒng)計跟蹤器,貫穿整個Heritrix的運行,如統(tǒng)計抓取了多少URL,以后會著重說明。Heritrix會定期備份它的數(shù)據(jù),如日志、正在獲取的URL內(nèi)容,都是在底層定時運行,當(dāng)Heritrix異常中斷可以通過它來恢復(fù).也類似于各個數(shù)據(jù)庫的Ckeckpoint.如果URL中有先決條件URL則接受,也就是該CandidateURI里的pathFromSeed屬性里含有P,表示運行該URL之前有先要運行的URL.
Heritrix源碼分析(二) 配置文件order.xml介紹 http://www.hbhlny.cn/content/10/0914/12/2793979_53549860.shtml 2010/12/13 19:51:52
Heritrix源碼分析(三) 修改配置文件order.xml加快你的抓取速度 http://www.hbhlny.cn/content/10/0914/12/2793979_53550320.shtml 2010/12/13 19:50:58
<integer name="max-toe-threads">3</integer><integer name="max-delay-ms">20000</integer><integer name="min-delay-ms">2000</integer><integer name="max-retries">30</integer><integer name="total-bandwidth-usage-KB-sec">0</integer><integer name="max-per-host-bandwidth-usage-KB-sec">0</integer><integer name="robot-validity-duration-seconds">86400</integer>
Heritrix源碼分析(一) 包介紹 - 真人假天下 - JavaEye技術(shù)網(wǎng)站 http://www.hbhlny.cn/content/10/0914/12/2793979_53548704.shtml 2010/12/13 19:50:05
Heritrix源碼分析(一) 包介紹 - 真人假天下 - JavaEye技術(shù)網(wǎng)站Heritrix源碼分析(一) 包介紹文章分類:互聯(lián)網(wǎng)本博客屬原創(chuàng)文章,歡迎轉(zhuǎn)載!想了很久,還是先從Heritrix的包開始說起,然后再說類,最后講下如何加工Heritrix,也就是將其打造成自己想要的爬蟲,這里補充下,我用的版本是1.14.3. 同時歡迎加入我建的Heritrix爬蟲群一起討論學(xué)習(xí): 10447185.Heritrix的數(shù)據(jù)模型包,如在Heritrix中代表一個URL的CandidateURI.