數(shù)據(jù)挖掘--極具發(fā)展前景的新領(lǐng)域
一、數(shù)據(jù)挖掘是什么?
人們在日常生活中經(jīng)常會遇到這樣的情況:超市的經(jīng)營者希望將經(jīng)常被同時購買的商品放在一起,以增加銷售;保險公司想知道購買保險的客戶一般具有哪些特征;醫(yī)學(xué)研究人員希望從已有的成千上萬份病歷中找出患某種疾病的病人的共同特征,從而為治愈這種疾病提供一些幫助。對于以上問題,現(xiàn)有信息管理系統(tǒng)中的數(shù)據(jù)分析工具無法給出答案。因為無論是查詢、統(tǒng)計還是報表,其處理方式都是對指定的數(shù)據(jù)進(jìn)行簡單的數(shù)字處理,而不能對這些數(shù)據(jù)所包含的內(nèi)在信息進(jìn)行提取。隨著信息管理系統(tǒng)的廣泛應(yīng)用和數(shù)據(jù)量激增,人們希望能夠提供更高層次的數(shù)據(jù)分析功能,從而更好地對決策或科研工作提供支持。正是為了滿足這種要求,從大量數(shù)據(jù)中提取出隱藏在其中的有用信息,將機(jī)器學(xué)習(xí)應(yīng)用于大型數(shù)據(jù)庫的數(shù)據(jù)挖掘(Data Mining)技術(shù)得到了長足的發(fā)展。 數(shù)據(jù)挖掘,也可以稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discover Database,KDD),是從大量數(shù)據(jù)中提取出可信、新穎、有效并能被人理解的模式的高級處理過程。數(shù)據(jù)庫中的知識發(fā)現(xiàn)是一個多步驟的處理過程,一般分為:問題定義了解相關(guān)領(lǐng)域的有關(guān)情況,熟悉背景知識,弄清用戶要求。數(shù)據(jù)提取根據(jù)要求從數(shù)據(jù)庫中提取相關(guān)的數(shù)據(jù)。數(shù)據(jù)預(yù)處理主要對前一階段產(chǎn)生的數(shù)據(jù)進(jìn)行再加工,檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對其中的噪音數(shù)據(jù)進(jìn)行處理,對丟失的數(shù)據(jù)進(jìn)行填補(bǔ)。 數(shù)據(jù)挖掘運(yùn)用選定的知識發(fā)現(xiàn)算法,從數(shù)據(jù)中提取出用戶所需要的知識,這些知識可以用一種特定的方式表示或使用一些常用的表示方式。知識評估將發(fā)現(xiàn)的知識以用戶能了解的方式呈現(xiàn),根據(jù)需要對知識發(fā)現(xiàn)過程中的某些處理階段進(jìn)行優(yōu)化,直到滿足要求。由此可見,數(shù)據(jù)挖掘只是數(shù)據(jù)庫中知識發(fā)現(xiàn)的一個步驟,但又是最重要的一步。因此,往往可以不加區(qū)別地使用KDD和數(shù)據(jù)挖掘。一般在研究領(lǐng)域被稱作數(shù)據(jù)庫中知識發(fā)現(xiàn)的,在工程領(lǐng)域則稱之為數(shù)據(jù)挖掘。 二、數(shù)據(jù)挖掘能做什么? 數(shù)據(jù)挖掘所涉及的學(xué)科領(lǐng)域和方法很多,以下四種是非常重要的發(fā)現(xiàn)任務(wù)。數(shù)據(jù)總結(jié)其目的是對數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述。數(shù)據(jù)挖掘主要關(guān)心從數(shù)據(jù)泛化的角度來討論數(shù)據(jù)總結(jié)。數(shù)據(jù)泛化是一種把數(shù)據(jù)庫中的有關(guān)數(shù)據(jù)從低層次抽象到高層次上的過程。 分類其目的是學(xué)會一個分類函數(shù)或分類模型(也稱作分類器),該模型能把數(shù)據(jù)庫的數(shù)據(jù)項映射到給定類別中的某一個。 聚類是把一組個體按照相似性歸類,即"物以類聚"。它的目的是使屬于同一類別的個體之間的距離盡可能地小,而不同類別的個體間的距離盡可能地大。 關(guān)聯(lián)規(guī)則是形式如下的一種規(guī)則,"在購買面包和黃油的顧客中,有90%的人同時也買了牛奶"(面包+黃油+牛奶)。關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的思路還可以用于序列模式發(fā)現(xiàn)。用戶在購買物品時,除了具有上述關(guān)聯(lián)規(guī)律,還有時間或序列上的規(guī)律。 三、前途光明的數(shù)據(jù)挖掘技術(shù) 隨著KDD在學(xué)術(shù)界和工業(yè)界的影響越來越大,國際KDD組委會于1995年把專題討論會更名為國際會議,在加拿大蒙特利爾市召開了第一屆KDD國際學(xué)術(shù)會議,以后每年召開一次。 近年來,KDD在研究和應(yīng)用方面發(fā)展迅速,尤其是在商業(yè)和銀行領(lǐng)域的應(yīng)用比研究的發(fā)展速度還要快。目前,國外數(shù)據(jù)挖掘的發(fā)展趨勢其研究方面主要有:對知識發(fā)現(xiàn)方法的研究進(jìn)一步發(fā)展,如近年來注重對Bayes(貝葉斯)方法以及Boosting方法的研究和提高;傳統(tǒng)的統(tǒng)計學(xué)回歸法在KDD中的應(yīng)用;KDD與數(shù)據(jù)庫的緊密結(jié)合。在應(yīng)用方面包括:KDD商業(yè)軟件工具不斷產(chǎn)生和完善,注重建立解決問題的整體系統(tǒng),而不是孤立的過程。用戶主要集中在大型銀行、保險公司、電信公司和銷售業(yè)。國外很多計算機(jī)公司非常重視數(shù)據(jù)挖掘的開發(fā)應(yīng)用,IBM和微軟都成立了相應(yīng)的研究中心進(jìn)行這方面的工作,此外,一些公司的相關(guān)軟件也開始在國內(nèi)銷售,如Platinum、BO以及IBM。國內(nèi)從事數(shù)據(jù)挖掘研究的人員主要在大學(xué),也有部分在研究所或公司。所涉及的研究領(lǐng)域很多,一般集中于學(xué)習(xí)算法的研究、數(shù)據(jù)挖掘的實際應(yīng)用以及有關(guān)數(shù)據(jù)挖掘理論方面的研究。 目前進(jìn)行的大多數(shù)研究項目是由政府資助進(jìn)行的,如國家自然科學(xué)基金、863計劃、"九五"計劃等,但還沒有關(guān)于國內(nèi)數(shù)據(jù)挖掘產(chǎn)品的報道。一份最近的Gartner報告中列舉了在今后3~5年內(nèi)對工業(yè)將產(chǎn)生重要影響的五項關(guān)鍵技術(shù),其中KDD和人工智能排名第一。同時,這份報告將并行計算機(jī)體系結(jié)構(gòu)研究和KDD列入今后5年內(nèi)公司應(yīng)該投資的10個新技術(shù)領(lǐng)域??梢钥闯?,數(shù)據(jù)挖掘的研究和應(yīng)用受到了學(xué)術(shù)界和實業(yè)界越來越多的重視。進(jìn)行數(shù)據(jù)挖掘的開發(fā)并不需要太多的積累,國內(nèi)軟件廠家如果進(jìn)入該領(lǐng)域,將處于和國外公司實力相差不很多的起跑線上,并且,現(xiàn)在關(guān)于數(shù)據(jù)挖掘的一些研究成果可以在Internet上免費(fèi)獲取,這更是一個可以利用的條件。我們希望數(shù)據(jù)挖掘能夠引起國內(nèi)實業(yè)界更多的重視,同時也希望能夠有更多的國內(nèi)軟件廠商進(jìn)入該領(lǐng)域,一起促進(jìn)數(shù)據(jù)挖掘技術(shù)在中國的應(yīng)用。 |
|