乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      WEB日志數(shù)據(jù)預(yù)處理算法研究與實(shí)現(xiàn) - 論文 - 小柯論文網(wǎng)

       風(fēng)自向前 2010-08-03
      WEB日志數(shù)據(jù)預(yù)處理算法研究與實(shí)現(xiàn)是小柯論文網(wǎng)通過網(wǎng)絡(luò)搜集,并由本站工作人員整理后發(fā)布的,WEB日志數(shù)據(jù)預(yù)處理算法研究與實(shí)現(xiàn)是篇質(zhì)量較高的學(xué)術(shù)論文,供本站訪問者學(xué)習(xí)和學(xué)術(shù)交流參考之用,不可用于其他商業(yè)目的,WEB日志數(shù)據(jù)預(yù)處理算法研究與實(shí)現(xiàn)的論文版權(quán)歸原作者所有,因網(wǎng)絡(luò)整理,有些文章作者不詳,敬請(qǐng)諒解,如需轉(zhuǎn)摘,請(qǐng)注明出處小柯論文網(wǎng),如果此論文無(wú)法滿足您的論文要求,您可以申請(qǐng)本站幫您代寫論文,以下是正文。
        [摘 要] Web日志挖掘是Web數(shù)據(jù)挖掘研究領(lǐng)域中一個(gè)最重要的應(yīng)用方面。而數(shù)據(jù)預(yù)處理在Web日志挖掘過程中起著至關(guān)重要的作用。文中深入探討了數(shù)據(jù)預(yù)處理各環(huán)節(jié)的主要任務(wù),提出了一種數(shù)據(jù)預(yù)處理算法,并實(shí)現(xiàn)。實(shí)驗(yàn)結(jié)果表明,本算法能很好的分割服務(wù)器日志為單獨(dú)的用戶和用戶會(huì)話模式。
        [關(guān)鍵詞] Web日志挖掘 數(shù)據(jù)預(yù)處理 算法
        
        一、引言
        在Web數(shù)據(jù)挖掘中,最重要的應(yīng)用是Web日志挖掘,即通過挖掘服務(wù)器的日志文件,得出用戶的訪問模式,從而可以進(jìn)一步分析和研究日志記錄的規(guī)律,來(lái)改進(jìn)網(wǎng)站的組織結(jié)構(gòu)及其性能,構(gòu)造自適應(yīng)網(wǎng)站;還可以通過統(tǒng)計(jì)和關(guān)聯(lián)分析,增加個(gè)性化服務(wù),發(fā)現(xiàn)潛在的用戶群體,這在電子商務(wù)等領(lǐng)域是很有市場(chǎng)的。
        Web日志挖掘主要分為三個(gè)步驟:
        1.數(shù)據(jù)預(yù)處理
        根據(jù)挖掘的目的,對(duì)原始Web日志文件中的數(shù)據(jù)進(jìn)行提取、分解、合并,最后轉(zhuǎn)化為適合進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)格式,并保存。
        2.模式識(shí)別
        運(yùn)用各種算法對(duì)處理后的數(shù)據(jù)進(jìn)行挖掘,生成模式。
        3.模式分析
        進(jìn)行用戶訪問模式的分析,從而將有價(jià)值的模式提取出來(lái)的過程。
        其中,數(shù)據(jù)預(yù)處理這個(gè)環(huán)節(jié)是整個(gè)過程的基礎(chǔ)和實(shí)施有效挖掘算法的前提。本文深入探討了數(shù)據(jù)預(yù)處理各環(huán)節(jié)的主要任務(wù),并提出了新的數(shù)據(jù)預(yù)處理算法,實(shí)現(xiàn)之。
        二、Web日志預(yù)處理過程
        Web服務(wù)器日志中的內(nèi)容非常豐富,而且用戶訪問和服務(wù)器資源不是一對(duì)一的關(guān)系,比如,服務(wù)器端日志可能記載了一個(gè)用戶可以在多個(gè)客戶端提交請(qǐng)求,多個(gè)用戶也可以在一個(gè)客戶端提交請(qǐng)求。因此,在實(shí)施數(shù)據(jù)挖掘之前,首先必須對(duì)Web log 文件進(jìn)行數(shù)據(jù)清洗、用戶識(shí)別、會(huì)話識(shí)別、頁(yè)面過濾、路徑補(bǔ)充等一系列的工作。
        1.數(shù)據(jù)清洗
        是指刪除Web日志中與數(shù)據(jù)挖掘不相關(guān)的冗余項(xiàng),同時(shí)將有用的Web日志記錄信息轉(zhuǎn)換為適當(dāng)?shù)臄?shù)據(jù)格式。
        2.用戶識(shí)別
        是指從日志中的每一條記錄中識(shí)別出相應(yīng)的用戶。
        3.會(huì)話識(shí)別
        就是將用戶的訪問記錄劃分成單個(gè)的會(huì)話,不同用戶訪問的頁(yè)面屬于不同的會(huì)話。
        4.路徑補(bǔ)充
        根據(jù)引用日志和網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)提供的信息對(duì)用戶訪問路徑進(jìn)行完善,推斷出用戶從訪問緩存中訪問的頁(yè)面信息。
        三、數(shù)據(jù)預(yù)處理算法實(shí)現(xiàn)
        1.概念定義
        進(jìn)行操作的數(shù)據(jù)源是服務(wù)器端的日志文件。現(xiàn)將服務(wù)器日志中的每一個(gè)記錄用一組數(shù)學(xué)符號(hào)來(lái)表示如下:
        定義1:服務(wù)器日志中的一個(gè)頁(yè)面視圖L可用如下的符號(hào)定義:
        L=[A∶V]
        V=
        A={a1,a2,…,ak}
        每一個(gè)頁(yè)面視圖包括一個(gè)頁(yè)面的定義vi(通常為這個(gè)頁(yè)面Url),參考頁(yè)面文件ri(通常為這個(gè)頁(yè)面的Referer),訪問時(shí)間ti(通常為這個(gè)頁(yè)面的Data或叫Time),至于{d1,d2,……,dm}則為客戶端向服務(wù)器通過表單發(fā)送的數(shù)據(jù)項(xiàng)及值對(duì)。
        定義2:日志中的記錄經(jīng)過預(yù)處理過以后,所形成的單個(gè)用戶對(duì)單個(gè)站點(diǎn)的一次訪問的數(shù)據(jù)定義如下:
        設(shè)L是服務(wù)器日志文件中記錄的集合,其中的每一個(gè)記錄L均適合上面定義的記錄的格式,這里L(fēng)∈L。每一個(gè)L包括客戶端IP地址L.IP,客戶端瀏覽器L.agent,客戶端訪問的頁(yè)面的Url為L(zhǎng).url,訪問頁(yè)面時(shí)間L.time 等。則用戶的一次會(huì)話或叫事務(wù)t為下式:
        t=
        這里滿足:1≤k≤m,ltk∈L,ltk.ip=ipt,ltk.agent=agentt
        2.具體的算法實(shí)現(xiàn)
        (1)數(shù)據(jù)清理,簡(jiǎn)單的就是檢查每一個(gè)日志記錄L的Url的擴(kuò)展名,消除擴(kuò)展名為gif,jpg,jpeg的日志記錄就可以了。
        (2)首先將原日志文件劃分成相同的IP和Agent的用戶訪問的序列集的形式,集合中的每一個(gè)序列形如Hi={f1,f2,…,fn},每一個(gè)Hi執(zhí)行算法(3)。
        (3)將相同的IP和Agent的用戶訪問序列劃分成用戶的一次訪問序列。
       ?、僦鞒绦?br>  輸入:經(jīng)過清洗過的日志記錄L。
        輸出:用戶會(huì)話文件
        對(duì)于每一個(gè)Hi={f1,fn,……fn}是一個(gè)時(shí)間序列的日志記錄集,其中l(wèi)j,fj,rj,tj分別定義日志記錄的頁(yè)面視圖,Url,Referer,訪問時(shí)間Time。
        定義T為一個(gè)時(shí)間戳:
        for each unique IP/Agent Pair do
        for each lj do
        if((tj-tj-1)>T)∨rj∈Hthen
        f Timeout()then
        i++;
        Add lj to Hi
        else
        assign=Distance(H,rj)
        add rj to Hassign // Hassign是包含rj頁(yè)面視圖的序列集中,rj距離最短的那個(gè)序列集
        end.
       ?、赥imeout()函數(shù)
        此函數(shù)完成的主要功能是測(cè)試包含lj的請(qǐng)求頁(yè)的rj頁(yè),在Hi中是否已經(jīng)過時(shí)了,也就是是否已經(jīng)大于T。如果大于T返回真,否則返回假。
        value=true;
        For each Hi∈H do
        If lj∈H
        If(tj-tj-1)∈T
        value=false
        end
        return value
       ?、跠istance(H,rj)函數(shù)
        Distance(H,rj)函數(shù)主要是計(jì)算頁(yè)面的距離函數(shù),當(dāng)一個(gè)日志記錄視圖的參考頁(yè)面rj為不同的Hi所包含時(shí),確定該頁(yè)面文件是屬于那一個(gè)序列集。
        對(duì)于每一個(gè)Hi={f1,f2,…,fn}是一個(gè)時(shí)間序列的日志紀(jì)錄集,設(shè)f是一個(gè)日志記錄文件:
        set min=∞ // 設(shè)置頁(yè)面距離;
        for each Hi H do
        if rj Hi
        di=Hi.size()-Hi.index(),//計(jì)算頁(yè)面距離;Hi.size()序列集的總頁(yè)數(shù)Hi.index()該請(qǐng)求頁(yè)在序列集中的位置;
        ti=hi.tn-Hi.tj
        if(di  assign=i
        min=di
        else
        if(di=min)
        if(ti=tassign)
        assign=i
        tin=tj
        return assign
        end
        四、實(shí)驗(yàn)結(jié)果
        本文引用南京工業(yè)大學(xué)網(wǎng)絡(luò)中心的2005年5月24日的日志文件542條日志記錄作為實(shí)驗(yàn)數(shù)據(jù),其實(shí)驗(yàn)結(jié)果如下:
        1.日志數(shù)據(jù)
        #Fields:date time s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent)sc-status sc-substatus sc-win32-status
        2005~05~24 00:19:13 202.119.248.87 GET/styles/default.css-80-218.13.136.59 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.0;+Poco+0.31;+TencentTraveler+) 200 0 0
        ……….
        2005~05~24 23:54:12 202.119.248.87 GET/images/weather/0.gif-80-218.58.78.114 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+Maxthon) 200 0 0
        2.運(yùn)行結(jié)果
        經(jīng)過數(shù)據(jù)預(yù)處理,共有77個(gè)不同的IP用戶,共包括111段會(huì)話。實(shí)驗(yàn)證明,此算法效果良好。
        3.運(yùn)行界面剪切如下:
        五、結(jié)論
        由于日志文件不同于傳統(tǒng)的數(shù)據(jù)庫(kù)文件,所以其預(yù)處理方法也有明顯的差別。本文深入討論了對(duì)Web日志文件進(jìn)行數(shù)據(jù)清洗、用戶識(shí)別、用戶會(huì)話識(shí)別、路徑補(bǔ)充等預(yù)處理方法,并實(shí)現(xiàn)。實(shí)驗(yàn)結(jié)果表明,本算法能很好的分割服務(wù)器日志為單獨(dú)的用戶和用戶會(huì)話模式。
        
        參考文獻(xiàn):
        [1]KamdafT JoshiA:On Creating Adaptive Web Servers Using Weblog Mining [EB/OL].http//:/citeseer.nj./kamdar00creating.html.2002
        [2]Bucbber AG,Anandss,MulvennaMD,et al.Discovering Internet Marketing Intelligence Through Weblog Mining [EB/OL].http://citeseer.nj./244461.html,1998
        [3]張健沛 劉建東 楊 靜:基于Web的日志挖掘數(shù)據(jù)預(yù)處理方法的研究[J].計(jì)算機(jī)工程與應(yīng)用,2003(10):191~193

      該文章轉(zhuǎn)自《小柯論文網(wǎng)》網(wǎng)址:www.
      原文地址:http://www./lunwen23/10292.html

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多