隨著電腦在日常工作和生活中的滲透,人們需要處理的電子文檔越來越多,將文檔信息存入一個(gè)專門的軟件數(shù)據(jù)庫(kù)中是很理想的選擇,一方面所有文檔集中在一個(gè)單獨(dú)的數(shù)據(jù)庫(kù)中,不會(huì)和其它類型的文檔混雜在一起,使信息更純凈;另一方面由于采用特別設(shè)計(jì)的數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)文檔,查詢效率也較高。
目前筆記管理軟件也存在許多局限:首先,大部分筆記管理軟件仍是以樹形大綱方式歸類的,仍然存在分類越精,效率越低的問題;其次,很多筆記管理軟件受傳統(tǒng)思維限制,只提供單文檔的視圖,不能在一個(gè)窗口中同時(shí)查閱和比較幾個(gè)內(nèi)容相關(guān)的文檔;第三,Evernote 筆記管理軟件雖然突破了前兩方面局限,但仍然有進(jìn)一步改善的余地,尤其是在與數(shù)據(jù)挖掘相結(jié)合方面有很多可做的工作,此外就是如何將單機(jī)/個(gè)人知識(shí)管理軟件的優(yōu)勢(shì)延伸到網(wǎng)絡(luò)上,使企業(yè),科研機(jī)構(gòu)乃至整個(gè)互聯(lián)網(wǎng)從知識(shí)管理和數(shù)據(jù)挖掘中受益。 為此,我構(gòu)想了一種新型網(wǎng)絡(luò)知識(shí)管理系統(tǒng),下面是設(shè)計(jì)時(shí)主要考慮的幾點(diǎn)原則:
為了使輸入盡可能簡(jiǎn)單,只留出兩個(gè)輸入接口,將文本文檔拖拽到文檔輸入?yún)^(qū)即可保存,Public 表示文檔能夠被他人看到,Private 表示文檔中含有隱私內(nèi)容,需加密保存。文檔存入系統(tǒng)后還可以選擇與人共享或獨(dú)有,以便協(xié)同編輯。 選擇以純文本方式輸入文檔是有特別考慮的。博客網(wǎng)站以網(wǎng)頁(yè)模版的方式發(fā)布文章,顯示效果非常精美,但對(duì)用戶的要求也比較高,需要熟悉 HTML 語(yǔ)言才能很好地駕馭博客這個(gè)網(wǎng)絡(luò)出版系統(tǒng);維基網(wǎng)站比博客的門檻略低,但仍然有一套難學(xué)難記的語(yǔ)法規(guī)則,并且因過于新穎的其人人皆可編輯的創(chuàng)作模式而并未得到人們的廣泛青睞。 因?yàn)槭遣輬D,所以布局略顯凌亂,但基本可以說明問題。輸入的文檔將以純文本格式保存,并根據(jù)其文件名分配一個(gè)唯一的網(wǎng)絡(luò)訪問地址。顯示文檔時(shí)將屏幕分為三部分:中部顯示文檔內(nèi)容,左側(cè)為Tag過濾器區(qū)域,右側(cè)顯示與當(dāng)前文檔的主題相關(guān)的文檔鏈接。 中部的文檔區(qū)域是以純文本形式顯示的,這可以給不熟悉網(wǎng)頁(yè)發(fā)布技術(shù)的用戶的排版帶來方便,即使用戶完全不了解網(wǎng)頁(yè)語(yǔ)言,也可以用簡(jiǎn)單的空格與回車控制版式;另外注意到每篇文章的標(biāo)題右側(cè)都有一個(gè)圖片超鏈接,此鏈接就是該文檔的永久地址,有了它人們可以方便地引用這篇文檔,與朋友分享知識(shí)。 左側(cè)是文章分類/過濾器區(qū)域,其作用基本與 Evernote 類同。此過濾器既可以由用戶自行指定,也可以由系統(tǒng)自動(dòng)生成;右側(cè)的相關(guān)文檔區(qū)域是系統(tǒng)的核心技術(shù)所在,即用數(shù)據(jù)挖掘的方法給用戶輸入的文檔自動(dòng)歸類,并按相關(guān)度大小排列返回給用戶。在這里仍然可以看到以純文本保存文檔的好處,就是后臺(tái)的數(shù)據(jù)挖掘模塊將能夠設(shè)計(jì)得比較簡(jiǎn)單和一致。 當(dāng)然圖片、音樂、視頻等多媒體信息也是值得考慮的,因?yàn)槭褂猛瑯訒r(shí)間閱讀文本和瀏覽多媒體文件所獲得的信息量不在一個(gè)量級(jí)上。如果一定要在文檔中嵌入多媒體信息的話,個(gè)人認(rèn)為可以用一個(gè)永久鏈接地址表示,做數(shù)據(jù)挖掘時(shí)只分析此地址的文本而不挖掘多媒體文件本身。 此外,還可以挖掘文檔之間相互解釋的關(guān)系。比如一篇文檔中提到了 Blog 這個(gè)詞,而系統(tǒng)中另一篇文章解釋了什么是 Blog,則可利用信息檢索技術(shù)將前一篇文章中的關(guān)鍵詞高亮 Blog,提示用戶這個(gè)詞的解釋就在系統(tǒng)中,并自動(dòng)生成鏈接。這種“參考鏈接”在維基系統(tǒng)中是極其常見的,但這種引用鏈接的創(chuàng)建對(duì)維基條目的撰寫者而言是非常辛苦的,除非參與維基創(chuàng)作的人足夠多。 個(gè)人認(rèn)為,定位文檔的最便捷方法仍然是搜索,尤其是那些用戶親自閱讀或撰寫過的文檔,關(guān)鍵詞搜索幾乎是最快的,因?yàn)橹R(shí)曾經(jīng)在他的頭腦中留下很多特征印記,隨便取出一個(gè)小的特征來搜索就能獲取原來的信息。在這方面,Evernote 的搜索功能是非常理想的,可以用簡(jiǎn)單自然的搜索語(yǔ)句實(shí)現(xiàn)復(fù)雜的查詢,如 keyword1 ‘keyword2‘ –keyword3 的語(yǔ)義是,搜索含有 keyword1 這個(gè)完整單詞,keyword2 這個(gè)字串并且不包含 keyword3 這個(gè)單詞的所有文檔。 因?yàn)樯鲜鲋R(shí)管理系統(tǒng)的主要運(yùn)算工作是在服務(wù)器端完成,所以只需要一個(gè)輕量級(jí)的客戶端,可以用網(wǎng)頁(yè)瀏覽器實(shí)現(xiàn),也可以用一個(gè) Win32 客戶端程序?qū)崿F(xiàn)。當(dāng)文檔以純文本方式呈現(xiàn)時(shí),完全不使用瀏覽器也是可行的,但考慮到多數(shù)用戶習(xí)慣于瀏覽網(wǎng)頁(yè)的上網(wǎng)方式,Web 客戶端仍然是首選。 最后,需要考慮這樣一個(gè)公用網(wǎng)絡(luò)系統(tǒng)運(yùn)轉(zhuǎn)的開銷問題。時(shí)下很多門戶網(wǎng)站都存在生存上的困難,主要是因?yàn)槠溆J讲淮_定(互聯(lián)網(wǎng)公司通常不對(duì)內(nèi)容進(jìn)行收費(fèi),甚至許多基本服務(wù)也是免費(fèi)的)。Google 在商業(yè)上的成功不僅歸功于其搜索技術(shù),還在于其合理的上下文相關(guān)廣告模式。對(duì)于網(wǎng)絡(luò)知識(shí)管理系統(tǒng)而言,上下文相關(guān)廣告仍然是適用的。此外還有其它的盈利手段,如在系統(tǒng)中設(shè)立一個(gè)付費(fèi)訪問的高質(zhì)量知識(shí)庫(kù),由系統(tǒng)管理方維護(hù),并在用戶界面的 Related Topic 部分給出鏈接。另一種方式就是與專家級(jí)用戶分享收益,向設(shè)立專家知識(shí)庫(kù)的用戶繳納 VIP 用戶服務(wù)費(fèi)用。 |
|