來源:啟迪之星上海 本文約2700字,建議閱讀5分鐘。 本文為你著重介紹基于知識圖譜的搜索與推薦方面的基本內(nèi)容和應用,知識圖譜領(lǐng)域的研究及前沿技術(shù)。 我們幾乎每天都會收到各種各樣的推薦信息,從新聞購物到吃飯娛樂個性化推薦系統(tǒng)作為一種信息過濾的重要手段,可以依據(jù)我們習慣和愛好推薦合適的服務,但傳統(tǒng)的推薦系統(tǒng)容易出現(xiàn)稀疏性和冷卻冷啟動的問題,而知識圖譜作為一種新興的輔助信息近幾年逐漸引起了研究人員的關(guān)注。本期創(chuàng)業(yè)沙龍有幸邀請到復旦大學大數(shù)據(jù)學院和大數(shù)據(jù)研究院副院長、副教授陽德青老師。陽老師面向大數(shù)據(jù)學院、計算機學院和新聞學院的本科生、研究生講授過多門專業(yè)課程,包括《社交網(wǎng)絡挖掘》、《Java Web 應用開發(fā)》、《新媒體技術(shù)導論》等。這次本文為你著重介紹基于知識圖譜的搜索與推薦方面的基本內(nèi)容和應用,知識圖譜領(lǐng)域的研究及前沿技術(shù)。 本次特邀嘉賓 陽德青 復旦大學大數(shù)據(jù)學院和大數(shù)據(jù)研究院 副院長、副教授 2013年在復旦大學計算機科學技術(shù)學院獲得計算機軟件與理論專業(yè)的博士學位。陽老師的主要研究領(lǐng)域為數(shù)據(jù)挖掘、知識圖譜的構(gòu)建與應用、推薦系統(tǒng)、社會網(wǎng)絡分析等,其研究成果論文先后在WWW、ICDM、CIKM、ECML等數(shù)據(jù)科學領(lǐng)域的國際頂尖學術(shù)會議上發(fā)表,并擁有多項發(fā)明專利。同時,他先后主持、參加了多項國家科技部、自科基金委、上海市科委、經(jīng)信委、教委等專項課題,并在與阿里、華為等科技公司的合作中取得了豐碩的實際應用成果。此外,陽老師先后擔任過復旦大學學生工作部、研究說工作部副部長和學生職業(yè)發(fā)展教育服務中心主任,具有豐富的學生管理和大學生雙創(chuàng)指導經(jīng)驗。 一、知識圖譜的基本概念什么是知識圖譜呢? 知識圖譜是由一條條知識組成,每條知識表示為一個SPO三元組(Subject-Predicate-Object)。形式化的進行解釋,知識圖譜是一種海量知識表征形式,蘊含了各類實體、概念及其間的各種語義關(guān)系。通俗來講就是一種數(shù)據(jù)庫,本質(zhì)上就是一種語義網(wǎng)路。相比于傳統(tǒng)語義網(wǎng)絡,知識圖譜具有更高的實體、概念覆蓋率,更為豐富的語義關(guān)系,自動化構(gòu)建程度高以及較高的數(shù)據(jù)質(zhì)量等。它研究的意義在于為語義匹配(消除語義鴻溝)、實現(xiàn)機器智腦提供了豐富的背景知識。 二、基于傳統(tǒng)知識的推薦了解傳統(tǒng)知識推薦的特點和缺點,才可以更清晰的明白知識圖譜產(chǎn)生的必要性,更精準的把握知識圖譜的特質(zhì),怎么樣做到智能推薦。 1.基于知識的傳統(tǒng)推薦 主要分為兩種:
2.傳統(tǒng)推薦算法的挑戰(zhàn) 基于協(xié)同過濾的弊端 ·冷啟動 ·數(shù)據(jù)稀疏 ·可擴展性 當一個新用戶進入一個網(wǎng)絡時,我們對他的興趣愛好還一無所知,這時如何做出推薦是一個很重要的問題。一般在這個時候,我們只是向用戶推薦那寫普遍反映比較好的物品,也就是說,推薦完全是基于物品的。 新用戶問題還有一個變種就是長尾(long tail)問題,在Amazon中,不是所有的用戶都對很多書給出了評分,很多用戶只給少數(shù)的書給出了評分,這些用戶就處在一個長尾中,如何處理那些不太表露自己興趣的用戶,也是推薦系統(tǒng)的一個主要問題。 基于內(nèi)容的弊端 ·特征描述 ·同義/多義詞 ·“十面埋伏”是電影?小說?還是成語? ·結(jié)果的同質(zhì)性(缺乏多樣性)
3.推薦系統(tǒng)中引入知識圖譜的優(yōu)勢 首先,能夠提高推薦的精確性。知識圖譜中蘊含了用品直接豐富的語義信息,能夠更好的發(fā)現(xiàn)用戶的興趣點。 其次,還能提高推薦的多樣性。在很多的推薦場景中,比如新聞推薦,我們知道多樣性是一個很大的問題,我們很容易發(fā)現(xiàn)推薦算法發(fā)現(xiàn)了你的興趣點之后,給你推薦的東西越來越像,比如你點了幾個NBA的新聞,后面來的全是NBA新聞,一開始可能覺得還不錯,時間稍微長一點,就會覺得厭煩了,閱讀的視野也會越來越窄。這是因為很多算法是根據(jù)文本里面抽取出來的關(guān)鍵字和主題來猜測用戶偏好,這樣推薦的時候就會產(chǎn)生比較類似的結(jié)果。 而知識圖譜作為一種全局信息,里面有豐富的語義信息,每個物品對應的節(jié)點通常都能擴散到很多其他的信息節(jié)點上去,比如用戶喜歡霸王別姬這部電影,可能是因為主演、題材或者導演,每種都有可能,推薦的時候就不會過于集中到一種類型中去,增加了多樣性。 第三,能增加推薦的可解釋性??山忉屝允峭扑]系統(tǒng)的非常重要的因素,其重要性甚至在很多場景中要遠遠大于推薦的準確性等效果指標,可以被很好解釋的推薦系統(tǒng)才能增加用戶對系統(tǒng)的信任感。 那么實現(xiàn)一個好的推薦關(guān)鍵在于什么?去做好物品和用戶的畫像,這兩個畫像尋找準確之后他們特征就可以精準的把握,然后去找一些匹配的算法,那這樣的結(jié)果就是就八九不離十了。以及一些比較有挑戰(zhàn)的,比如說跨領(lǐng)域的推薦。 三、基于知識圖譜的物品畫像顯式畫像:從知識圖譜中直接找到的關(guān)聯(lián)(例如兩部電影的共同屬性)作為刻畫兩個物品相關(guān)性的依據(jù)。有基于向量空間模式和基于異構(gòu)信息網(wǎng)絡兩種模式。 為每種屬性生成一個表示向量,每一維對應該屬性的某個值的權(quán)重。例如,電影的演員屬性可以表示成一個向量,第一維的值可以是第1號演員對該電影的TF-IDF權(quán)重值。 將物品和其每種屬性值對應的實體都表示成異構(gòu)信息網(wǎng)絡的一類結(jié)點,它們之間構(gòu)成各種類型的邊。例如,每部電影和其每個演員都由一條表示“參演”的邊相連。 不同物品間會共享某些屬性對應的實體,所以會有一條經(jīng)過該共享實體的元路徑meta-path將兩個物品相連。例如,成龍主演的不同電影之間都通過一條“電影-演員(成龍)-電影”的元路徑相連 由不同類型的元路徑相連的兩個物品都具有一定的相似度。 隱式畫像:利用基于深度神經(jīng)網(wǎng)絡的嵌入embedding向量來表示物品,物品間的相似度計算基于其對應嵌入向量在向量空間中的距離。有基于隨機游走的圖嵌入(graph embedding)和基于KG embedding兩種模型。 四、基于知識圖譜的用戶畫像基于概念標簽的用戶畫像 ·算法目標:根據(jù)輸入一組標簽(詞袋),生成的概念標簽數(shù)盡量少,同時在語義上盡量全地覆蓋所有原始標簽的語義。 利用記憶網(wǎng)絡存儲刻畫用戶對物品屬性的偏好特征,比純基于用戶歷史上的偏好物品刻畫用戶特征要更加準確、豐富。 五、基于知識圖譜的跨領(lǐng)域推薦跨領(lǐng)域推薦的主要任務 ·緩解冷啟動問題,為新用戶推薦提供選擇和幫助提高推薦精準度,緩解數(shù)據(jù)稀疏問題 ·增加推薦多樣性 跨領(lǐng)域推薦面臨的挑戰(zhàn) ·數(shù)據(jù)海量性 ·數(shù)據(jù)異構(gòu)性 ·數(shù)據(jù)稀疏性 ·數(shù)據(jù)相依性數(shù)據(jù)低質(zhì)性 主流的跨領(lǐng)域推薦算法 基于協(xié)同過濾 ·基于語義關(guān)系 ·基于深度學習 實現(xiàn)跨領(lǐng)域推薦的關(guān)鍵假設 用戶的興趣偏好或項目特征在領(lǐng)域之間存在一致性或相關(guān)性(通過知識圖譜發(fā)現(xiàn)) — 完 — |
|