文章目錄
一、知識圖譜商業(yè)應(yīng)用01 唯品金融大數(shù)據(jù)使用的是OrientDB,Orientdb提供了大量的接口, 其中最常用的就是Gremlin和sql。 Gremlin是Apache TinkerPop 框架下的圖遍歷語言。Gremlin是一種函數(shù)式數(shù)據(jù)流語言,可以使得用戶使用簡潔的方式表述復(fù)雜的圖的遍歷或查詢,大部分圖數(shù)據(jù)庫都支持Gremlin。示例圖總共擁有12個節(jié)點(Vertex) 11條邊(Edge)。1521537893115977.png 唯品金融在使用Orientdb的開發(fā)過程中遇到的最大問題,是數(shù)據(jù)庫初始化時的批量寫入速度較慢, 由于Vertex和Edge數(shù)量在10億數(shù)量級,在沒有優(yōu)化的情況下,單臺服務(wù)器寫入完整數(shù)據(jù)需要幾天。 02 PlantData知識圖譜數(shù)據(jù)智能平臺地址:http://www./KGIndex/index.html PlantData是一個用知識圖譜技術(shù)解決數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)語義、數(shù)據(jù)智能的平臺。 自主研發(fā)的PlantData圖譜數(shù)據(jù)智能平臺,致力于推進知識圖譜在產(chǎn)業(yè)界的落地發(fā)展,讓數(shù)據(jù)智能更好的支撐商業(yè)智能和人工智能。 多源異構(gòu)數(shù)據(jù),其中非結(jié)構(gòu)化數(shù)據(jù)有一定比例; 數(shù)據(jù)中存在一定數(shù)量不同類別的實體; 業(yè)務(wù)上更加關(guān)注數(shù)據(jù)中實體的關(guān)聯(lián),而不僅僅是數(shù)據(jù)本身… 03 拍拍貸圖數(shù)據(jù)庫技術(shù)目前將用戶信息,設(shè)備信息及社交關(guān)系構(gòu)建了一個異構(gòu)網(wǎng)絡(luò),并將該異構(gòu)網(wǎng)絡(luò)圖應(yīng)用在用戶關(guān)聯(lián)分析及反欺詐檢測場景。 傳統(tǒng)的方式上,我們的數(shù)據(jù)都是存儲在RDMS上,要查詢用戶的關(guān)聯(lián)關(guān)系的時候,都是通過關(guān)聯(lián)多張表來實現(xiàn)。但是這種方式存在很多的問題:
這些都極大地限制了我們分析能力和分析效率。出于以上這些痛點,我們引入了titan圖形數(shù)據(jù)庫。每天會通過改寫的Titan Bulkload將10億 結(jié)點信息和500億 左右的關(guān)系數(shù)據(jù)導(dǎo)入Titan后臺HBase生成一張包含13類節(jié)點和15類邊的復(fù)雜異構(gòu)網(wǎng)絡(luò)。通過該網(wǎng)絡(luò),可以方便快速地回答以下類似問題:1) 和用戶A關(guān)聯(lián)的用戶有哪些;2) 和用戶A關(guān)聯(lián)的用戶有什么特征;3) 用戶A和用戶B怎么關(guān)聯(lián)在一起的。 下圖是我們將圖數(shù)據(jù)庫應(yīng)用于反欺詐中的示例圖: 根據(jù)原始的數(shù)據(jù)圖我們可以對用戶做以下調(diào)查分析,來確定特定的用戶是不是欺詐用戶或者是不是與欺詐用戶有關(guān)聯(lián):
通過該方式,我們大大減少了調(diào)查過程中的工作量,整體效率提升了25% 。 04 CN-DBpedia樣例數(shù)據(jù)文件是txt格式,每行一條數(shù)據(jù),每條數(shù)據(jù)是一個(實體名稱,屬性名稱,屬性值)的三元組,中間用tab分隔,具體如下所示。
包含900萬 的百科實體以及6700萬 的三元組關(guān)系。其中mention2entity信息110萬 ,摘要信息400萬 ,標(biāo)簽信息1980萬 ,infobox信息4100萬 該數(shù)據(jù)僅供學(xué)術(shù)研究使用,商用請聯(lián)系我們獲取授權(quán) http://kw.fudan.edu.cn/cndbpedia/download/ 05 OpenKG.CN——開放的中文知識圖譜中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。 知識圖譜旨在通過建立數(shù)據(jù)之間的關(guān)聯(lián)鏈接,將碎片化的數(shù)據(jù)有機的組織起來, 讓數(shù)據(jù)更加容易被人和機器理解和處理,并為搜索、挖掘、分析等提供便利,為人工智能的實現(xiàn)提供知識庫基礎(chǔ)。知識圖譜涉及的技術(shù)領(lǐng)域包括:知識表示、自然語言理解、智能問答、知識抽取、鏈接數(shù)據(jù)、圖數(shù)據(jù)庫、圖挖掘、常識推理等。 06 楚辭楚辭以語義網(wǎng)為理論基礎(chǔ),致力于建設(shè)中文語義知識庫,解決歧義問題,把知識嵌入到各類信息中。 知識結(jié)構(gòu)中有: 項目描述(DOAP)詞匯集 Muninn墳?zāi)贡倔w 還有比較好玩的: 關(guān)于功夫、功法的本體、關(guān)于能力、技能的本體、有關(guān)五行的基礎(chǔ)本體、有關(guān)感覺的基礎(chǔ)本體、有關(guān)癥狀的本體、有關(guān)商業(yè)模式畫布的本體 聯(lián)誼的nodes,還有幾個方向,不過好像里面沒貨 07 海致大數(shù)據(jù)海致大數(shù)據(jù)核心團隊在參與研發(fā)了全球第一個中文通用知識圖譜平臺之后,致力于將這一大數(shù)據(jù)時代的核心技術(shù)向金融產(chǎn)業(yè)進行垂直化研發(fā),推出了業(yè)界首個金融領(lǐng)域知識圖譜平臺——海致智能金融知識圖譜1.0,其具備強大的自然語言處理能力,包括模板識別、實體識別、情感分析等,也具備領(lǐng)先的關(guān)系挖掘算法引擎,是海致大數(shù)據(jù)多年研發(fā)與客戶服務(wù)的最新成果。 08 騰訊云星圖是一個圖數(shù)據(jù)庫和圖計算引擎的一體化平臺:融合治理異構(gòu)異質(zhì)數(shù)據(jù);提供關(guān)聯(lián)查詢、可視化圖分析、圖挖掘、機器學(xué)習(xí)和規(guī)則引擎;支持萬億關(guān)聯(lián)關(guān)系數(shù)據(jù)的快速檢索、查找和瀏覽;挖掘隱藏關(guān)系并模型化業(yè)務(wù)經(jīng)驗。作為金融AI風(fēng)控等泛安全領(lǐng)域知識圖譜解決方案,星圖增強企業(yè)業(yè)務(wù),催新商業(yè)模式。
09 網(wǎng)感至察
10 慧科技術(shù) - 商業(yè)AI(NLP 品牌Logo識別)二、相關(guān)科研機構(gòu)與算法框架2.1 復(fù)旦大學(xué) Knowledge Works開源庫、開源工具、創(chuàng)業(yè)項目(數(shù)眼科技) 2.1.1 開源庫:FudanDNN 基于深度學(xué)習(xí)的中文自然語言處理工具。復(fù)旦深度網(wǎng)絡(luò)中文自然語言處理工具FudanDNN-NLP4.0(在3.0的基礎(chǔ)上新增上下文相關(guān)問答。分為兩種情況:第一種情況處理類似上一句問“今天北京天氣如何?”,然后追問“上海呢?”的情況;另一種情況是根據(jù)對話主題展開、轉(zhuǎn)換和遞進給出合適的回答;多輪對話。處理類似訂購機票的場景。不同場景可以根據(jù)對話進展自由切換,并且期間可插入其他問答;海量自定義問答對的高效檢索。檢索匹配時考慮同義詞替換,可根據(jù)發(fā)音相似性糾正可能的錯誤,并且支持一次提問包括多個問題的情況;可為每一位用戶定義各自的上下文信息;圖形客戶端用于系統(tǒng)演示和調(diào)試,支持本地或服務(wù)器快速部署;問答過程中檢測禁用詞功能) 2.1.2 CN-DBpedia接口——解釋型提供全套API,并且免費開放使用。如需大規(guī)模調(diào)用請聯(lián)系info.knowledgeworks@gmail.com索取APIKEY。
輸入實體指稱項名稱(mention name),返回對應(yīng)實體(entity)的列表,json格式。 {'status': 'ok', 'ret': ['紅樓夢(中國古典四大名著之一)', '紅樓夢(2010年李少紅執(zhí)導(dǎo)的古裝情感?。?, '紅樓夢(1987年陳曉旭、歐陽奮強主演央視版電視?。?}
輸入實體名,返回實體全部的三元組知識
給定實體名和屬性名,返回屬性值 {'status': 'ok', 'ret': ['Fudan University']}
2.1.3 Probaseplus API接口
輸入一個英文或中文的實體或概念名,返回其概念列表,返回格式為json格式。
點評:該接口專用于多義詞
輸入一個英文或中文的概念名,返回其包含的實體列表,返回格式為json格式。 查詢 水果 的第1-50個實體(第一頁)
http://:20314/probaseplus/pbapi/getentities?kw=水果&start=0
返回值:{'entity': [['蘋果', 2100], ['香蕉', 1321], ...], 'nument': 1060}
表示水果在CN-Probase中有1060個實體,如 蘋果,香蕉 等。
點評:該接口專門用于尋找一個實體詞的下屬詞 2.1.4 CN-Probase接口——概念型中文概念圖譜和概念分類體系
跟CN-DBpedia中的ment2ent類似,返回實體詞解釋。
輸入實體,返回實體對應(yīng)概念列表,json格式。
count:概念數(shù)量;pagesize:每次請求最多返回的概念數(shù)量
輸入概念,返回概念對應(yīng)實體列表,json格式。默認(rèn)返回前50個。 {'status': 'ok', 'ret': [['喬振宇(中國內(nèi)陸男演員)', 321795144], ['霍建華(中國臺灣男演員)', 104187122], ['楊洋(中國內(nèi)陸男演員)', 87598713]}
count:實體數(shù)量;pagesize:每次請求最多返回的實體數(shù)量 2.1.5 Shorttext Parsing API,短文本依存分析接口輸入英文字符串,返回短文本解析的json 2.1.6 Entity Understanding API接口輸入中文文本,輸出分詞后的文本,以及識別的實體,json格式。
輸入一段話,輸出話中的實體詞 實體詞的位置信息 2.1.7 數(shù)眼科技爬蟲模塊(分布式、企業(yè)級的爬蟲任務(wù)) 2.1.8 額外金融新聞Bots,金融類監(jiān)控,根據(jù)關(guān)鍵詞篩選,新聞、網(wǎng)站、軟文;理財產(chǎn)品問答系統(tǒng) 2.2 思知(OwnThink)開放項目:問答機器人、知識庫 https://api./ambiguous?mention=蘋果
{
'message': 'success',
'data': [
{
'薔薇科蘋果屬果實': [
'蘋果(薔薇科蘋果屬果實)',
10929205
]
},
{
'韓國2008年康理貫執(zhí)導(dǎo)電影': [
'蘋果(韓國2008年康理貫執(zhí)導(dǎo)電影)',
7589732
]
}
}
獲取全部知識(entity -> knowledge)
2.3 Zhishi.me王昊奮,Zhishi.me 通過從開放的百科數(shù)據(jù)中抽取結(jié)構(gòu)化數(shù)據(jù),首次嘗試構(gòu)建中文通用知識圖譜。目前,已融合了三大中文百科,百度百科,互動百科以及維基百科中的數(shù)據(jù)。 2.4 交大的Acenap官方主頁,http://acemap./
2.5 清華大學(xué)的openKE由 THUNLP 基于 TensorFlow 工具包開發(fā) 該框架有如下特征:
TransE 、TransH、TransR、TransD、RESCAL、DistMult、HolE、ComplEx等算法的統(tǒng)一接口的高效實現(xiàn); 2.6 自然語言處理工具包HanLPHanLP是由一系列模型與算法組成的NLP工具包,目標(biāo)是普及自然語言處理在生產(chǎn)環(huán)境中的應(yīng)用。HanLP具備功能完善、性能高效、架構(gòu)清晰、語料時新、可自定義的特點。 有py和java版本的,分別是: 從分詞、詞性標(biāo)注、命名實體識別、關(guān)鍵詞提取、短語提取、文本推薦(語義推薦、拼音推薦、字詞推薦)、依存句法分析等功能,很全面。 2.7 scikit-kge: MIT知識圖譜embedding工具包地址:https://github.com/mnick/scikit-kge 2.8 RDFox: 牛津大學(xué)的知識庫推理工具(推薦)OpenKG搜集和整理知識圖譜相關(guān)的技術(shù)工具,并將組織開展技術(shù)評測。 RDFox是一個高度可擴展的內(nèi)存RDF三元組存儲,支持共享內(nèi)存并行OWL 2 RL推理。 它是用C 編寫的跨平臺軟件,帶有一個Java包裝器,允許與任何基于Java的解決方案(包括OWL API)輕松集成。 2.9 中國知網(wǎng)同時,知網(wǎng)內(nèi)的NLP結(jié)構(gòu)也非常復(fù)雜,參考:http://www./zhiwang/c_zhiwang.html (a) 上下位關(guān)系 (由概念的主要特征體現(xiàn),請參看《知網(wǎng)管理工具》) (b) 同義關(guān)系(可通過《同義、反義以及對義組的形成》獲得) ? 反義關(guān)系(可通過《同義、反義以及對義組的形成》獲得) (d) 對義關(guān)系(可通過《同義、反義以及對義組的形成》獲得) (e) 部件-整體關(guān)系(由在整體前標(biāo)注 % 體現(xiàn),如'心','CPU'等) (f) 屬性-宿主關(guān)系(由在宿主前標(biāo)注 & 體現(xiàn),如'顏色','速度'等) (g) 材料-成品關(guān)系(由在成品前標(biāo)注 ? 體現(xiàn),如'布','面粉'等) (h) 施事/經(jīng)驗者/關(guān)系主體-事件關(guān)系(由在事件前標(biāo)注 * 體現(xiàn),如'醫(yī)生','雇主'等) (i) 受事/內(nèi)容/領(lǐng)屬物等-事件關(guān)系(由在事件前標(biāo)注 $ 體現(xiàn),如'患者','雇員'等) (j) 工具-事件關(guān)系(由在事件前標(biāo)注 * 體現(xiàn),如'手表','計算機'等) (k) 場所-事件關(guān)系(由在事件前標(biāo)注 @ 體現(xiàn),如'銀行','醫(yī)院'等) (l) 時間-事件關(guān)系(由在事件前標(biāo)注 @ 體現(xiàn),如'假日','孕期'等) (m) 值-屬性關(guān)系(直接標(biāo)注無須借助標(biāo)識符,如'藍(lán)','慢'等) (n) 實體-值關(guān)系(直接標(biāo)注無須借助標(biāo)識符,如'矮子','傻瓜'等) (o) 事件-角色關(guān)系(由加角色名體現(xiàn),如'購物','盜墓'等) § 相關(guān)關(guān)系(由在相關(guān)概念前標(biāo)注 # 體現(xiàn),如'谷物','煤田'等) 同時還有API:介紹知網(wǎng)知識庫的 API 參數(shù)與調(diào)用過程,當(dāng)日調(diào)用接口的次數(shù)不得超過5000次 知網(wǎng)內(nèi)容期刊查詢的時候,也支持知識圖譜: 延伸:語知科技的接口非常豐富!
每天有5000次免費調(diào)用額度 語知科技在語義分析方面優(yōu)勢明顯,它可以處理的文本可以是超句的段落或篇章,并且系統(tǒng)的分析結(jié)果可揭示五種類型的內(nèi)容:詞語之間的句法關(guān)系,詞語之間的邏輯語義關(guān)系,詞語之間的深層邏輯語義關(guān)系,通過邏輯語義角色轉(zhuǎn)換得到的深層理解,以及各個詞語的詞性、義項、拼音及其對應(yīng)的英語譯文。 可參考:基于HowNet的NLP技術(shù),語知科技打造新型語言理解技術(shù)服務(wù)平臺 2.10 浙江大學(xué):創(chuàng)新設(shè)計產(chǎn)品庫url:http://120.55.82.39:8080/index.html 2.11 中草藥知識服務(wù)系統(tǒng)好厲害,有知識圖譜,有KGQA問答系統(tǒng),還有主題建模,各種專業(yè)分詞工具。 2.12 中國工程科技知識中心http://www./portal/hotspotdetail18 2.13 NLPIRhttp://ictclas./nlpir/ 2.14 開放域中文知識圖譜《大詞林》2.15 北航 - 中文知識圖譜延伸一:一文揭秘!自底向上構(gòu)建知識圖譜全過程知識圖譜的構(gòu)建技術(shù)主要有自頂向下和自底向上兩種。其中自頂向下構(gòu)建是指借助百科類網(wǎng)站等結(jié)構(gòu)化數(shù)據(jù)源,從高質(zhì)量數(shù) |
|