WEB日志數(shù)據(jù)預(yù)處理算法研究與實(shí)現(xiàn)是小柯論文網(wǎng)通過網(wǎng)絡(luò)搜集,并由本站工作人員整理后發(fā)布的,WEB日志數(shù)據(jù)預(yù)處理算法研究與實(shí)現(xiàn)是篇質(zhì)量較高的學(xué)術(shù)論文,供本站訪問者學(xué)習(xí)和學(xué)術(shù)交流參考之用,不可用于其他商業(yè)目的,WEB日志數(shù)據(jù)預(yù)處理算法研究與實(shí)現(xiàn)的論文版權(quán)歸原作者所有,因網(wǎng)絡(luò)整理,有些文章作者不詳,敬請(qǐng)諒解,如需轉(zhuǎn)摘,請(qǐng)注明出處小柯論文網(wǎng),如果此論文無(wú)法滿足您的論文要求,您可以申請(qǐng)本站幫您代寫論文,以下是正文。
[摘 要] Web日志挖掘是Web數(shù)據(jù)挖掘研究領(lǐng)域中一個(gè)最重要的應(yīng)用方面。而數(shù)據(jù)預(yù)處理在Web日志挖掘過程中起著至關(guān)重要的作用。文中深入探討了數(shù)據(jù)預(yù)處理各環(huán)節(jié)的主要任務(wù),提出了一種數(shù)據(jù)預(yù)處理算法,并實(shí)現(xiàn)。實(shí)驗(yàn)結(jié)果表明,本算法能很好的分割服務(wù)器日志為單獨(dú)的用戶和用戶會(huì)話模式。
[關(guān)鍵詞] Web日志挖掘 數(shù)據(jù)預(yù)處理 算法 一、引言 在Web數(shù)據(jù)挖掘中,最重要的應(yīng)用是Web日志挖掘,即通過挖掘服務(wù)器的日志文件,得出用戶的訪問模式,從而可以進(jìn)一步分析和研究日志記錄的規(guī)律,來(lái)改進(jìn)網(wǎng)站的組織結(jié)構(gòu)及其性能,構(gòu)造自適應(yīng)網(wǎng)站;還可以通過統(tǒng)計(jì)和關(guān)聯(lián)分析,增加個(gè)性化服務(wù),發(fā)現(xiàn)潛在的用戶群體,這在電子商務(wù)等領(lǐng)域是很有市場(chǎng)的。 Web日志挖掘主要分為三個(gè)步驟: 1.數(shù)據(jù)預(yù)處理 根據(jù)挖掘的目的,對(duì)原始Web日志文件中的數(shù)據(jù)進(jìn)行提取、分解、合并,最后轉(zhuǎn)化為適合進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)格式,并保存。 2.模式識(shí)別 運(yùn)用各種算法對(duì)處理后的數(shù)據(jù)進(jìn)行挖掘,生成模式。 3.模式分析 進(jìn)行用戶訪問模式的分析,從而將有價(jià)值的模式提取出來(lái)的過程。 其中,數(shù)據(jù)預(yù)處理這個(gè)環(huán)節(jié)是整個(gè)過程的基礎(chǔ)和實(shí)施有效挖掘算法的前提。本文深入探討了數(shù)據(jù)預(yù)處理各環(huán)節(jié)的主要任務(wù),并提出了新的數(shù)據(jù)預(yù)處理算法,實(shí)現(xiàn)之。 二、Web日志預(yù)處理過程 Web服務(wù)器日志中的內(nèi)容非常豐富,而且用戶訪問和服務(wù)器資源不是一對(duì)一的關(guān)系,比如,服務(wù)器端日志可能記載了一個(gè)用戶可以在多個(gè)客戶端提交請(qǐng)求,多個(gè)用戶也可以在一個(gè)客戶端提交請(qǐng)求。因此,在實(shí)施數(shù)據(jù)挖掘之前,首先必須對(duì)Web log 文件進(jìn)行數(shù)據(jù)清洗、用戶識(shí)別、會(huì)話識(shí)別、頁(yè)面過濾、路徑補(bǔ)充等一系列的工作。 1.數(shù)據(jù)清洗 是指刪除Web日志中與數(shù)據(jù)挖掘不相關(guān)的冗余項(xiàng),同時(shí)將有用的Web日志記錄信息轉(zhuǎn)換為適當(dāng)?shù)臄?shù)據(jù)格式。 2.用戶識(shí)別 是指從日志中的每一條記錄中識(shí)別出相應(yīng)的用戶。 3.會(huì)話識(shí)別 就是將用戶的訪問記錄劃分成單個(gè)的會(huì)話,不同用戶訪問的頁(yè)面屬于不同的會(huì)話。 4.路徑補(bǔ)充 根據(jù)引用日志和網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)提供的信息對(duì)用戶訪問路徑進(jìn)行完善,推斷出用戶從訪問緩存中訪問的頁(yè)面信息。 三、數(shù)據(jù)預(yù)處理算法實(shí)現(xiàn) 1.概念定義 進(jìn)行操作的數(shù)據(jù)源是服務(wù)器端的日志文件。現(xiàn)將服務(wù)器日志中的每一個(gè)記錄用一組數(shù)學(xué)符號(hào)來(lái)表示如下: 定義1:服務(wù)器日志中的一個(gè)頁(yè)面視圖L可用如下的符號(hào)定義: L=[A∶V] V= A={a1,a2,…,ak} 每一個(gè)頁(yè)面視圖包括一個(gè)頁(yè)面的定義vi(通常為這個(gè)頁(yè)面Url),參考頁(yè)面文件ri(通常為這個(gè)頁(yè)面的Referer),訪問時(shí)間ti(通常為這個(gè)頁(yè)面的Data或叫Time),至于{d1,d2,……,dm}則為客戶端向服務(wù)器通過表單發(fā)送的數(shù)據(jù)項(xiàng)及值對(duì)。 定義2:日志中的記錄經(jīng)過預(yù)處理過以后,所形成的單個(gè)用戶對(duì)單個(gè)站點(diǎn)的一次訪問的數(shù)據(jù)定義如下: 設(shè)L是服務(wù)器日志文件中記錄的集合,其中的每一個(gè)記錄L均適合上面定義的記錄的格式,這里L(fēng)∈L。每一個(gè)L包括客戶端IP地址L.IP,客戶端瀏覽器L.agent,客戶端訪問的頁(yè)面的Url為L(zhǎng).url,訪問頁(yè)面時(shí)間L.time 等。則用戶的一次會(huì)話或叫事務(wù)t為下式: t= 這里滿足:1≤k≤m,ltk∈L,ltk.ip=ipt,ltk.agent=agentt 2.具體的算法實(shí)現(xiàn) (1)數(shù)據(jù)清理,簡(jiǎn)單的就是檢查每一個(gè)日志記錄L的Url的擴(kuò)展名,消除擴(kuò)展名為gif,jpg,jpeg的日志記錄就可以了。 (2)首先將原日志文件劃分成相同的IP和Agent的用戶訪問的序列集的形式,集合中的每一個(gè)序列形如Hi={f1,f2,…,fn},每一個(gè)Hi執(zhí)行算法(3)。 (3)將相同的IP和Agent的用戶訪問序列劃分成用戶的一次訪問序列。 ?、僦鞒绦?br> 輸入:經(jīng)過清洗過的日志記錄L。 輸出:用戶會(huì)話文件 對(duì)于每一個(gè)Hi={f1,fn,……fn}是一個(gè)時(shí)間序列的日志記錄集,其中l(wèi)j,fj,rj,tj分別定義日志記錄的頁(yè)面視圖,Url,Referer,訪問時(shí)間Time。 定義T為一個(gè)時(shí)間戳: for each unique IP/Agent Pair do for each lj do if((tj-tj-1)>T)∨rj∈Hthen f Timeout()then i++; Add lj to Hi else assign=Distance(H,rj) add rj to Hassign // Hassign是包含rj頁(yè)面視圖的序列集中,rj距離最短的那個(gè)序列集 end. ?、赥imeout()函數(shù) 此函數(shù)完成的主要功能是測(cè)試包含lj的請(qǐng)求頁(yè)的rj頁(yè),在Hi中是否已經(jīng)過時(shí)了,也就是是否已經(jīng)大于T。如果大于T返回真,否則返回假。 value=true; For each Hi∈H do If lj∈H If(tj-tj-1)∈T value=false end return value ?、跠istance(H,rj)函數(shù) Distance(H,rj)函數(shù)主要是計(jì)算頁(yè)面的距離函數(shù),當(dāng)一個(gè)日志記錄視圖的參考頁(yè)面rj為不同的Hi所包含時(shí),確定該頁(yè)面文件是屬于那一個(gè)序列集。 對(duì)于每一個(gè)Hi={f1,f2,…,fn}是一個(gè)時(shí)間序列的日志紀(jì)錄集,設(shè)f是一個(gè)日志記錄文件: set min=∞ // 設(shè)置頁(yè)面距離; for each Hi H do if rj Hi di=Hi.size()-Hi.index(),//計(jì)算頁(yè)面距離;Hi.size()序列集的總頁(yè)數(shù)Hi.index()該請(qǐng)求頁(yè)在序列集中的位置; ti=hi.tn-Hi.tj if(di assign=i min=di else if(di=min) if(ti=tassign) assign=i tin=tj return assign end 四、實(shí)驗(yàn)結(jié)果 本文引用南京工業(yè)大學(xué)網(wǎng)絡(luò)中心的2005年5月24日的日志文件542條日志記錄作為實(shí)驗(yàn)數(shù)據(jù),其實(shí)驗(yàn)結(jié)果如下: 1.日志數(shù)據(jù) #Fields:date time s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent)sc-status sc-substatus sc-win32-status 2005~05~24 00:19:13 202.119.248.87 GET/styles/default.css-80-218.13.136.59 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.0;+Poco+0.31;+TencentTraveler+) 200 0 0 ………. 2005~05~24 23:54:12 202.119.248.87 GET/images/weather/0.gif-80-218.58.78.114 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+Maxthon) 200 0 0 2.運(yùn)行結(jié)果 經(jīng)過數(shù)據(jù)預(yù)處理,共有77個(gè)不同的IP用戶,共包括111段會(huì)話。實(shí)驗(yàn)證明,此算法效果良好。 3.運(yùn)行界面剪切如下: 五、結(jié)論 由于日志文件不同于傳統(tǒng)的數(shù)據(jù)庫(kù)文件,所以其預(yù)處理方法也有明顯的差別。本文深入討論了對(duì)Web日志文件進(jìn)行數(shù)據(jù)清洗、用戶識(shí)別、用戶會(huì)話識(shí)別、路徑補(bǔ)充等預(yù)處理方法,并實(shí)現(xiàn)。實(shí)驗(yàn)結(jié)果表明,本算法能很好的分割服務(wù)器日志為單獨(dú)的用戶和用戶會(huì)話模式。 參考文獻(xiàn): [1]KamdafT JoshiA:On Creating Adaptive Web Servers Using Weblog Mining [EB/OL].http//:/citeseer.nj./kamdar00creating.html.2002 [2]Bucbber AG,Anandss,MulvennaMD,et al.Discovering Internet Marketing Intelligence Through Weblog Mining [EB/OL].http://citeseer.nj./244461.html,1998 [3]張健沛 劉建東 楊 靜:基于Web的日志挖掘數(shù)據(jù)預(yù)處理方法的研究[J].計(jì)算機(jī)工程與應(yīng)用,2003(10):191~193 |
|
來(lái)自: 風(fēng)自向前 > 《日志挖掘》