ＷＥＢ日志數(shù)據(jù)預(yù)處理算法研究與實(shí)現(xiàn) - 論文 - 小柯論文網(wǎng)

風(fēng)自向前 2010-08-03

展開全文

ＷＥＢ日志數(shù)據(jù)預(yù)處理算法研究與實(shí)現(xiàn)是小柯論文網(wǎng)通過網(wǎng)絡(luò)搜集，并由本站工作人員整理后發(fā)布的，ＷＥＢ日志數(shù)據(jù)預(yù)處理算法研究與實(shí)現(xiàn)是篇質(zhì)量較高的學(xué)術(shù)論文，供本站訪問者學(xué)習(xí)和學(xué)術(shù)交流參考之用，不可用于其他商業(yè)目的，ＷＥＢ日志數(shù)據(jù)預(yù)處理算法研究與實(shí)現(xiàn)的論文版權(quán)歸原作者所有，因網(wǎng)絡(luò)整理，有些文章作者不詳，敬請(qǐng)諒解，如需轉(zhuǎn)摘，請(qǐng)注明出處小柯論文網(wǎng)，如果此論文無(wú)法滿足您的論文要求，您可以申請(qǐng)本站幫您代寫論文，以下是正文。

　　[摘要] Web日志挖掘是Web數(shù)據(jù)挖掘研究領(lǐng)域中一個(gè)最重要的應(yīng)用方面。而數(shù)據(jù)預(yù)處理在Web日志挖掘過程中起著至關(guān)重要的作用。文中深入探討了數(shù)據(jù)預(yù)處理各環(huán)節(jié)的主要任務(wù)，提出了一種數(shù)據(jù)預(yù)處理算法，并實(shí)現(xiàn)。實(shí)驗(yàn)結(jié)果表明，本算法能很好的分割服務(wù)器日志為單獨(dú)的用戶和用戶會(huì)話模式。
　　[關(guān)鍵詞] Web日志挖掘數(shù)據(jù)預(yù)處理算法
　　
　　一、引言
　　在Web數(shù)據(jù)挖掘中，最重要的應(yīng)用是Web日志挖掘，即通過挖掘服務(wù)器的日志文件，得出用戶的訪問模式，從而可以進(jìn)一步分析和研究日志記錄的規(guī)律，來(lái)改進(jìn)網(wǎng)站的組織結(jié)構(gòu)及其性能，構(gòu)造自適應(yīng)網(wǎng)站;還可以通過統(tǒng)計(jì)和關(guān)聯(lián)分析，增加個(gè)性化服務(wù)，發(fā)現(xiàn)潛在的用戶群體，這在電子商務(wù)等領(lǐng)域是很有市場(chǎng)的。
　　Web日志挖掘主要分為三個(gè)步驟：
　　1.數(shù)據(jù)預(yù)處理
　　根據(jù)挖掘的目的，對(duì)原始Web日志文件中的數(shù)據(jù)進(jìn)行提取、分解、合并，最后轉(zhuǎn)化為適合進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)格式，并保存。
　　2.模式識(shí)別
　　運(yùn)用各種算法對(duì)處理后的數(shù)據(jù)進(jìn)行挖掘,生成模式。
　　3.模式分析
　　進(jìn)行用戶訪問模式的分析，從而將有價(jià)值的模式提取出來(lái)的過程。
　　其中，數(shù)據(jù)預(yù)處理這個(gè)環(huán)節(jié)是整個(gè)過程的基礎(chǔ)和實(shí)施有效挖掘算法的前提。本文深入探討了數(shù)據(jù)預(yù)處理各環(huán)節(jié)的主要任務(wù)，并提出了新的數(shù)據(jù)預(yù)處理算法，實(shí)現(xiàn)之。
　　二、Web日志預(yù)處理過程
　　Web服務(wù)器日志中的內(nèi)容非常豐富，而且用戶訪問和服務(wù)器資源不是一對(duì)一的關(guān)系，比如，服務(wù)器端日志可能記載了一個(gè)用戶可以在多個(gè)客戶端提交請(qǐng)求，多個(gè)用戶也可以在一個(gè)客戶端提交請(qǐng)求。因此，在實(shí)施數(shù)據(jù)挖掘之前，首先必須對(duì)Web log 文件進(jìn)行數(shù)據(jù)清洗、用戶識(shí)別、會(huì)話識(shí)別、頁(yè)面過濾、路徑補(bǔ)充等一系列的工作。
　　1.數(shù)據(jù)清洗
　　是指刪除Web日志中與數(shù)據(jù)挖掘不相關(guān)的冗余項(xiàng)，同時(shí)將有用的Web日志記錄信息轉(zhuǎn)換為適當(dāng)?shù)臄?shù)據(jù)格式。
　　2.用戶識(shí)別
　　是指從日志中的每一條記錄中識(shí)別出相應(yīng)的用戶。
　　3.會(huì)話識(shí)別
　　就是將用戶的訪問記錄劃分成單個(gè)的會(huì)話，不同用戶訪問的頁(yè)面屬于不同的會(huì)話。
　　4.路徑補(bǔ)充
　　根據(jù)引用日志和網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)提供的信息對(duì)用戶訪問路徑進(jìn)行完善，推斷出用戶從訪問緩存中訪問的頁(yè)面信息。
　　三、數(shù)據(jù)預(yù)處理算法實(shí)現(xiàn)
　　1.概念定義
　　進(jìn)行操作的數(shù)據(jù)源是服務(wù)器端的日志文件。現(xiàn)將服務(wù)器日志中的每一個(gè)記錄用一組數(shù)學(xué)符號(hào)來(lái)表示如下:
　　定義1:服務(wù)器日志中的一個(gè)頁(yè)面視圖L可用如下的符號(hào)定義:
　　L=[A∶V]
　　V=
　　A={a1,a2,…,ak}
　　每一個(gè)頁(yè)面視圖包括一個(gè)頁(yè)面的定義vi(通常為這個(gè)頁(yè)面Url）,參考頁(yè)面文件ri(通常為這個(gè)頁(yè)面的Referer),訪問時(shí)間ti(通常為這個(gè)頁(yè)面的Data或叫Time),至于{d1,d2,……,dm}則為客戶端向服務(wù)器通過表單發(fā)送的數(shù)據(jù)項(xiàng)及值對(duì)。
　　定義2:日志中的記錄經(jīng)過預(yù)處理過以后，所形成的單個(gè)用戶對(duì)單個(gè)站點(diǎn)的一次訪問的數(shù)據(jù)定義如下:
　　設(shè)L是服務(wù)器日志文件中記錄的集合，其中的每一個(gè)記錄L均適合上面定義的記錄的格式,這里L(fēng)∈L。每一個(gè)L包括客戶端IP地址L.IP，客戶端瀏覽器L.agent，客戶端訪問的頁(yè)面的Url為L(zhǎng).url，訪問頁(yè)面時(shí)間L.time 等。則用戶的一次會(huì)話或叫事務(wù)t為下式:
　　t=
　　這里滿足:1≤k≤m,ltk∈L,ltk.ip=ipt,ltk.agent=agentt
　　2.具體的算法實(shí)現(xiàn)
　　(1)數(shù)據(jù)清理,簡(jiǎn)單的就是檢查每一個(gè)日志記錄L的Url的擴(kuò)展名,消除擴(kuò)展名為gif,jpg,jpeg的日志記錄就可以了。
　　(2)首先將原日志文件劃分成相同的IP和Agent的用戶訪問的序列集的形式，集合中的每一個(gè)序列形如Hi={f1,f2,…,fn},每一個(gè)Hi執(zhí)行算法(3)。
　　(3)將相同的IP和Agent的用戶訪問序列劃分成用戶的一次訪問序列。
　?、僦鞒绦?br>　　輸入:經(jīng)過清洗過的日志記錄L。
　　輸出:用戶會(huì)話文件
　　對(duì)于每一個(gè)Hi={f1,fn,……fn}是一個(gè)時(shí)間序列的日志記錄集，其中l(wèi)j,fj,rj,tj分別定義日志記錄的頁(yè)面視圖，Url,Referer,訪問時(shí)間Time。
　　定義T為一個(gè)時(shí)間戳:
　　for each unique IP/Agent Pair do
　　for each lj do
　　if((tj-tj-1)>T)∨rj∈Hthen
　　f Timeout()then
　　i++;
　　Add lj to Hi
　　else
　　assign=Distance(H,rj)
　　add rj to Hassign // Hassign是包含rj頁(yè)面視圖的序列集中，rj距離最短的那個(gè)序列集
　　end.
　?、赥imeout()函數(shù)
　　此函數(shù)完成的主要功能是測(cè)試包含lj的請(qǐng)求頁(yè)的rj頁(yè)，在Hi中是否已經(jīng)過時(shí)了，也就是是否已經(jīng)大于T。如果大于T返回真，否則返回假。
　　value=true;
　　For each Hi∈H do
　　If lj∈H
　　If(tj-tj-1)∈T
　　value=false
　　end
　　return value
　?、跠istance(H,rj)函數(shù)
　　Distance(H,rj)函數(shù)主要是計(jì)算頁(yè)面的距離函數(shù)，當(dāng)一個(gè)日志記錄視圖的參考頁(yè)面rj為不同的Hi所包含時(shí)，確定該頁(yè)面文件是屬于那一個(gè)序列集。
　　對(duì)于每一個(gè)Hi={f1,f2,…,fn}是一個(gè)時(shí)間序列的日志紀(jì)錄集，設(shè)f是一個(gè)日志記錄文件:
　　set min=∞ // 設(shè)置頁(yè)面距離;
　　for each Hi H do
　　if rj Hi
　　di=Hi.size()-Hi.index(),//計(jì)算頁(yè)面距離;Hi.size()序列集的總頁(yè)數(shù)Hi.index()該請(qǐng)求頁(yè)在序列集中的位置;
　　ti=hi.tn-Hi.tj
　　if(di　　assign=i
　　min=di
　　else
　　if(di=min)
　　if(ti=tassign)
　　assign=i
　　tin=tj
　　return assign
　　end
　　四、實(shí)驗(yàn)結(jié)果
　　本文引用南京工業(yè)大學(xué)網(wǎng)絡(luò)中心的2005年5月24日的日志文件542條日志記錄作為實(shí)驗(yàn)數(shù)據(jù)，其實(shí)驗(yàn)結(jié)果如下:
　　1.日志數(shù)據(jù)
　　#Fields:date time s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent)sc-status sc-substatus sc-win32-status
　　2005～05～24 00:19:13 202.119.248.87 GET/styles/default.css-80-218.13.136.59 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.0;+Poco+0.31;+TencentTraveler+) 200 0 0
　　……….
　　2005～05～24 23:54:12 202.119.248.87 GET/images/weather/0.gif-80-218.58.78.114 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+Maxthon) 200 0 0
　　2.運(yùn)行結(jié)果
　　經(jīng)過數(shù)據(jù)預(yù)處理，共有77個(gè)不同的IP用戶，共包括111段會(huì)話。實(shí)驗(yàn)證明，此算法效果良好。
　　3.運(yùn)行界面剪切如下:
　　五、結(jié)論
　　由于日志文件不同于傳統(tǒng)的數(shù)據(jù)庫(kù)文件，所以其預(yù)處理方法也有明顯的差別。本文深入討論了對(duì)Web日志文件進(jìn)行數(shù)據(jù)清洗、用戶識(shí)別、用戶會(huì)話識(shí)別、路徑補(bǔ)充等預(yù)處理方法，并實(shí)現(xiàn)。實(shí)驗(yàn)結(jié)果表明，本算法能很好的分割服務(wù)器日志為單獨(dú)的用戶和用戶會(huì)話模式。
　　
　　參考文獻(xiàn)：
　　[1]KamdafT JoshiA:On Creating Adaptive Web Servers Using Weblog Mining [EB/OL].http//:/citeseer.nj./kamdar00creating.html.2002
　　[2]Bucbber AG,Anandss，MulvennaMD,et al.Discovering Internet Marketing Intelligence Through Weblog Mining [EB/OL].http://citeseer.nj./244461.html,1998
　　[3]張健沛劉建東楊靜:基于Web的日志挖掘數(shù)據(jù)預(yù)處理方法的研究[J].計(jì)算機(jī)工程與應(yīng)用,2003(10）:191～193

該文章轉(zhuǎn)自《小柯論文網(wǎng)》網(wǎng)址:www.
原文地址：http://www./lunwen23/10292.html

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：風(fēng)自向前 > 《日志挖掘》

舉報(bào)/認(rèn)領(lǐng)