企業(yè)知識倉庫
目錄
1.什么是知識倉庫
知識倉庫起初來源于數(shù)據(jù)倉庫(Data Warehouse),在過去的十幾年里,現(xiàn)代電子技術(shù)的日益發(fā)展,使基于計算機技術(shù)的數(shù)據(jù)庫技術(shù)得以長足發(fā)展。近年來,人們對數(shù)據(jù)庫的研究方向由原來單一的日常事務(wù)電子化發(fā)展成對數(shù)據(jù)的陣系結(jié)構(gòu),數(shù)據(jù)的含義進行研究。公認的數(shù)據(jù)庫之父H.W.Inmon給數(shù)據(jù)倉庫下的定義是:數(shù)據(jù)倉庫是集成的、面向主題的,用于決策支持的數(shù)據(jù)庫集合。
知識倉庫是以多行業(yè)、多類別數(shù)據(jù)倉庫組成的一個集合,它涉及眾多行業(yè)、眾多層次的單位,在形式上包括文字、影像、圖形等以多媒體形式具體存在的表現(xiàn)形式,也應(yīng)包括以某種理論、假想算法,推論存在的抽象的東西。其組成一個比較龐大的知識的綜合體,大可以指導一個國家,乃至一個世界發(fā)展的方向,小至指導一個企業(yè)的發(fā)展策略,甚至個人的發(fā)展前途。
2.企業(yè)知識倉庫的組成
知識倉庫在具體的組成形式上應(yīng)包括以下幾部分:
(1)完善而性能可靠的硬件體系:主要依靠現(xiàn)代電子技術(shù),尤其是計算機技術(shù)和網(wǎng)絡(luò)技術(shù),二者構(gòu)成知識倉庫最基本的部件。
(2)功能強大的軟件體系:傾向于專業(yè)的、分行業(yè)的將知識進行收集、整理統(tǒng)計、數(shù)據(jù)分析等工作的專業(yè)系統(tǒng)。
(3)主體為高素質(zhì)的專業(yè)技術(shù)人員:完成與知識倉庫的遠程控制,使之有效的工作。
(4)廣泛的社會實踐者:將廣泛存在的知識以專門的形式整理、聚集,以不斷充實知識倉庫的素材來源,具體則表現(xiàn)以行業(yè)的不同而身份不同。
3.企業(yè)知識倉庫的特點
知識倉庫利用其廣泛的數(shù)據(jù)知識資源,經(jīng)過嚴密、科學的分析整理,根據(jù)條件的不同,可利用于各行各業(yè),指導各行各業(yè)的單位實體或個人能夠沿正確的發(fā)展方向發(fā)展,能夠?qū)⒆钕冗M的理論、最新的技術(shù)運用到最實際的生產(chǎn)生活中去??偟膩碚f,知識倉庫的應(yīng)用有以下幾個方面的特點:
(1)適用的行業(yè)多:知識倉庫來源于各行各業(yè)的最基層工作者經(jīng)驗技術(shù)的總結(jié)加工,根據(jù)知識倉庫的分類匯總分析統(tǒng)計,形成的面向?qū)I(yè)的知識決策支持系統(tǒng),可完成相對應(yīng)專業(yè)的知識支持功能。
(2)強大的知識支持輔助決策功能:知識倉庫利用其海量的數(shù)據(jù)、智能并行的知識處理能力,輔之計算機人工智能的發(fā)展,可以完成對面向?qū)I(yè)知識的支持,解決企事業(yè)單位在具體操作工作中面臨的知識缺乏的問題,提供理論知識、技術(shù)知識,輔以專家系統(tǒng)的知識倉庫更能在事件的決策中起到輔助決策的作用。
4.知識庫、數(shù)據(jù)倉庫和知識倉庫
知識庫是存放知識的集合,一般專用于智能系統(tǒng)中存放相關(guān)領(lǐng)域知識,在規(guī)模上比較小,知識的種類也比較單一。
數(shù)據(jù)倉庫是一個面向主題的、集成的、非易失的且隨時間變化的數(shù)據(jù)集合,用來支持管理人員的決策。最主要的特點是數(shù)據(jù)種類多和數(shù)量大,按照主題組織數(shù)據(jù),支持決策。
知識管理面向的知識來源多、種類多、數(shù)量大,不僅包含大量的數(shù)據(jù),更重要的是大量數(shù)據(jù)之后隱藏的知識。另外,知識管理涉及的人員復雜,不像是數(shù)據(jù)倉庫主要是滿足決策者的需要,知識管理系統(tǒng)需要滿足不同人員的需要。知識管理中用來存儲知識和數(shù)據(jù)的存儲體與數(shù)據(jù)庫、數(shù)據(jù)倉庫不同,但又相似的內(nèi)容,所以提出知識倉庫的概念,實際上是兩者的有機結(jié)合。
因此,知識倉庫是面向主題的、對多種類型知識庫進行集成、滿足多種類型用戶的需要的數(shù)據(jù)和操作集合。數(shù)據(jù)倉庫應(yīng)該具有很好的適應(yīng)性、靈活性、可擴充性、健壯性、易用性、安全性。知識倉庫的整體結(jié)構(gòu)可以參照數(shù)據(jù)倉庫,可以利用數(shù)據(jù)倉庫的一些思想來組織數(shù)據(jù)。
5.企業(yè)知識倉庫與知識管理系統(tǒng)
Joseph M.Firestone(1999)認為,知識倉庫與知識管理系統(tǒng)實際上是同一概念,因為知識倉庫的管理對象也是知識。但是,在組織實施知識管理這樣一個背景下,區(qū)分知識倉庫和知識管理系統(tǒng)還是必要的。
(1)它們的目標不同。知識管理系統(tǒng)應(yīng)該支持組織知識管理的所有環(huán)節(jié),而知識倉庫僅關(guān)注顯性知識的存儲。
(2)如果把知識戰(zhàn)略、知識組織、知識文化等環(huán)境要素也看作組織知識管理系統(tǒng)的組成部分,則組織知識管理系統(tǒng)的范圍就比知識倉庫大得多。
所以,知識倉庫是知識管理系統(tǒng)的重要組成部分。
首先,知識存儲是組織知識循環(huán)過程中的關(guān)鍵環(huán)節(jié)。如果沒有對顯性知識的系統(tǒng)化、集成化的存儲,知識的整理、傳遞、共享等都無從談起。
其次,在知識管理系統(tǒng)建設(shè)過程中,知識倉庫建設(shè)所涉及的工作最大,范圍最廣。知識倉庫建設(shè)不僅涉及到軟件的部署,最重要的還是對組織知識資源的調(diào)查、分析和分類組織。這項工作需要一個由計算機專家、領(lǐng)域?qū)<液椭R管理專家組成的小組來完成,關(guān)系到整個系統(tǒng)建設(shè)的成敗。
可以說,知識倉庫是組織知識管理系統(tǒng)的核心要素,是知識管理系統(tǒng)建設(shè)的硬件。
6.企業(yè)知識倉庫的地位
知識可劃分為顯性知識(explicit knowledge)和隱性知識(tacit knowledge)兩類。其中,顯性知識是指能夠用語言、符號、規(guī)則、公式或?qū)ο蟮日奖磉_并能夠傳輸給他人的知識;隱性知識是深深根植于人腦中的信念、觀點、創(chuàng)意和智力模型,包括某人長期從事某項活動或職業(yè)而形成的主觀經(jīng)驗、洞察力和直覺。二者緊密關(guān)聯(lián),并與經(jīng)濟活動融為一體,成為當代社會發(fā)展的主要推進力量。
知識管理是通過共享和抓住隱性知識并將其轉(zhuǎn)變?yōu)轱@性知識,篩選、存儲、加工、檢索、傳遞和利用顯性知識,創(chuàng)新新的知識來增加社會價值的。這種實踐活動可用知識螺旋(Knowledge Spiral)來描述。在每一個螺旋中存在4個階段:共享隱性知識階段、隱性知識轉(zhuǎn)變?yōu)轱@性知識階段、顯性知識轉(zhuǎn)變?yōu)樾轮R階段和通過學習產(chǎn)生新的隱性知識階段。每一次新的顯性知識和隱性知識的產(chǎn)生便是知識螺旋的一次上升。
相對于知識管理,信息管理注重顯性知識或稱編碼型知識(Codified Knowledge)的搜集、存儲、加工、檢索、分析和預測,這方面的研究成果主要表現(xiàn)為數(shù)據(jù)倉庫的開發(fā)和利用。數(shù)據(jù)倉庫使企業(yè)能抽取、篩選、存儲大量的數(shù)據(jù),對用戶的檢索進行有效而準確的反應(yīng),并為決策活動提供了強大的基礎(chǔ)。然而,數(shù)據(jù)倉庫中僅僅存儲了決策者所需知識的一部分,企業(yè)絕大部分智力財富以隱性知識的方式存在于員工的大腦中,因此,數(shù)據(jù)倉庫不足以滿足對知識檢索的需求。為了滿足知識管理和知識決策的需求,可以對現(xiàn)存的企業(yè)數(shù)據(jù)倉庫進一步擴充,成為滿足知識管理需求的知識倉庫。知識倉庫能夠?qū)Σ煌愋偷闹R(顯性知識和隱性知識)和不同形式的知識(純文本、二進制對象、模型等)進行捕捉、存儲、編碼、組織和分析。另外,這些知識還包括元知識(關(guān)于知識的知識)和分析后產(chǎn)生的新知識。
7.企業(yè)知識倉庫的功能
基于上述對企業(yè)知識倉庫概念的認識,我們認為一個企業(yè)知識倉庫應(yīng)具備如下基本功能。
(1)知識獲取功能
獲取完整正確的企業(yè)知識是實現(xiàn)企業(yè)知識存貯和共享的前提。也是知識倉庫應(yīng)具備的重要功能之一。獲取知識的方式有人工和自動獲取兩種形式。人工獲取往往由知識工程師與領(lǐng)域?qū)<?、用戶等相互協(xié)作和交流,對企業(yè)大量的知識資源進行抽取、歸納、整理等得到,然后通過知識倉庫的知識導入界面錄入知識倉庫。人工知識獲取不能從數(shù)量巨大的信息或知識資源中獲取潛在知識,也不能及時地從系統(tǒng)運作中獲取新知識。由于知識的時效性,為保證知識倉庫中知識的正確、完整,知識倉庫還需具備知識的自動獲取功能,它能與現(xiàn)有的企業(yè)知識庫、信息資源庫相連,運用數(shù)據(jù)挖掘技術(shù)、機器學習技術(shù)、基于案例的推理及神經(jīng)網(wǎng)絡(luò)技術(shù)等自動從大量知識資源中抽取有效知識,能從專家知識擁有者中自動獲取難以表述的經(jīng)驗、動作、意念等隱性知識。
(2)知識導入功能
知識倉庫的知識不僅需要知識工程師錄入,而且允許各類普通用戶或其他系統(tǒng)以各種輸入手段將其知識信息及時導入,知識倉庫應(yīng)具備知識導入功能,該功能能為各種類型的知識制定不同的知識交流界面,使用戶能按特定的知識描述格式輸入知識,同時對現(xiàn)有信息系統(tǒng)或外界系統(tǒng)導入的信息可借助于智能代理技術(shù)實現(xiàn)對知識的自動抽取或加載。
(3)知識的分類
存貯和檢索功能。企業(yè)知識種類繁多,需要存儲的不只是知識條目,還需包括與之相關(guān)的事件、使用情況、來源線索等信息,這些信息可能以文本、聲音、圖像、表格、超文本等多種格式體現(xiàn)。知識倉庫應(yīng)能根據(jù)不同的知識特征進行分類,采用多種類型的數(shù)據(jù)庫進行分布式存儲,能對各種結(jié)構(gòu)的知識進行統(tǒng)一集成。同時對存儲的知識應(yīng)能方便地進行查詢和檢索。為此,知識倉庫還應(yīng)提供強大的知識檢索功能,能以各種手段為知識工程師或普通用戶提供便捷的知識查詢,同時能在查詢中起到導航作用。
(4)知識維護功能
由于知識的時效性,知識倉庫中的知識是動態(tài)變化的,知識倉庫應(yīng)在保證其中知識質(zhì)量的同時,監(jiān)督知識的使用情況,監(jiān)督來自各種知識源的知識,不斷調(diào)整知識結(jié)構(gòu),及時刪除不正確、不完整的知識,對過時的知識進行更新。另外,由于企業(yè)知識對不同級別的人往往有不同的訪問權(quán),知識倉庫的維護中應(yīng)設(shè)立多級安全認證,對不同級別的維護者賦予不同的知識存取權(quán)限,以此來保證知識的正確性和完整性。
(5)知識推送功能
為給用戶提供便捷的知識共享界面,使用戶所需知識能在恰當?shù)臅r候及時展現(xiàn)在合適的用戶面前,知識倉庫應(yīng)能按預定的知識描述格式提取關(guān)鍵字并與知識倉庫中相應(yīng)問題的解決方案進行匹配,將用戶感興趣的知識自動、及時的推送到用戶界面。
8.企業(yè)知識倉庫的設(shè)計
1.知識倉庫的體系結(jié)構(gòu)設(shè)計
知識倉庫的體系結(jié)構(gòu)不存在統(tǒng)一的模式,它的內(nèi)容應(yīng)該是活潑的,依組織的具體情況而定。然而這不是說知識倉庫的體系結(jié)構(gòu)沒有模式可循,實際上,存在著多個合理的模式可供選擇。
這里提出一個基于智力動產(chǎn)價值提升理論(圖1)的新的知識倉庫體系結(jié)構(gòu)模型(圖2),此模型分為三層。
(1)知識庫和知識裝入代理組成的數(shù)據(jù)、信息層。
(2)知識引擎組成的知識層。
(3)分析工具、檢索工具等組成的激活層。
描述知識及其關(guān)聯(lián)背景的元數(shù)據(jù)作為共享資源貫穿各層。組織的數(shù)據(jù)、信息經(jīng)過這三層的加工、處理,以活化的知識(即情報)的形式呈現(xiàn)給用戶,支持用戶的學習和決策。
數(shù)據(jù)、信息層負責知識的捕獲、組織與存儲,包括知識庫和知識裝入代理。知識庫可分為方法庫、模型庫、數(shù)據(jù)庫、文檔庫等,并可根據(jù)組織的知識構(gòu)成情況加以增減。知識裝入代理可以是知識工人與智能代理程序組成的人機系統(tǒng),它主動地掃描、分析組織的知識資源,發(fā)現(xiàn)知識單元及其相互之間的聯(lián)系,對知識單元進行分類組織,裝入知識庫,同時把知識單元之間的聯(lián)系裝入元數(shù)據(jù)。知識裝入代理也負責對知識庫的維護,發(fā)現(xiàn)并剔除過時的知識。
知識層負責知識單元的動態(tài)連接,即把知識與其背景一同呈現(xiàn)出來。知識層的主要部件是知識引擎,是一個利用了人工智能技術(shù)的計算機程序。它接受來自激活層的訪問請求,然后分析元數(shù)據(jù)中對于相關(guān)知識單元之間聯(lián)系的描述,將知識庫中的相關(guān)知識單元動態(tài)地連接起來,提交給激活層。它主要采用神經(jīng)網(wǎng)絡(luò)算法,將激活層的檢索請求與知識單元進行匹配,然后存儲匹配過程,并根據(jù)用戶的確認調(diào)整神經(jīng)網(wǎng)絡(luò)的內(nèi)部權(quán)值。
激活層負責知識的表現(xiàn),也可以叫做用戶接口層。它包括分析平臺、檢索平臺、重組平臺、推送平臺等,可根據(jù)實際需要加以增減。分析平臺面向決策人員,需要采用多種人工智能技術(shù),包括神經(jīng)網(wǎng)絡(luò)、遺傳算法、基于事例的推理等。由于各種算法應(yīng)用的范圍不同,因此,平臺還需要具有根據(jù)環(huán)境調(diào)度各種算法的能力。檢索平臺面向組織的知識參考需求,可采用自然語言檢索的方式,減輕用戶的智力負擔。重組平臺主要面向組織的個性化學習需求,它可以根據(jù)學習主體的情況,將相關(guān)知識重新組合,生成個性化的教材。推送平臺使用戶可以訂閱感興趣的信息或知識,通過各種終端(PC,PDA等)隨時隨地接收信息。
元數(shù)據(jù)是此模型中非常重要的一個部分。作為各層的共享資源,它記錄了知識庫中裝入數(shù)據(jù)的來源、描述以及知識單元之間的關(guān)聯(lián)。
2.知識倉庫的主題劃分
由于知識倉庫是面向主題的,因此知識倉庫設(shè)計的第一項要完成的任務(wù)就是對系統(tǒng)主題進行劃分。知識倉庫的分析主題應(yīng)該涵蓋企業(yè)方方面面的知識,而且,不同企業(yè)需求不同,對知識倉庫主題的劃分的角度也有所不同,在這里,本文僅從支撐經(jīng)營運作的角度對知識進行劃分(如圖3)。
3.知識倉庫的概念模型設(shè)計
概念模型是一種面向問題的數(shù)據(jù)模型,它描述了從用戶角度看到的知識倉庫的內(nèi)容及其聯(lián)系,是一種純粹的現(xiàn)實反應(yīng),而與存貯結(jié)構(gòu)、存取方式等知識倉庫的具體實現(xiàn)內(nèi)容無關(guān)。概念模型是聯(lián)系主觀與客觀的橋梁,它是一個為一定的目標設(shè)計系統(tǒng)、收集信息而服務(wù)的概念型工具。具體到計算機系統(tǒng)中,概念模型是客觀世界到計算機世界的一個中間層次。
知識概念模型的設(shè)計需要給出一個知識倉庫的粗略藍本,以此為工具來判定設(shè)計者是否已經(jīng)正確地了解知識倉庫最終用戶的信息需求。在概念模型設(shè)計階段,主要完成星型模型和雪花模型的設(shè)計。
4.知識倉庫的邏輯模型設(shè)計
邏輯模型亦可稱為中間層數(shù)據(jù)模型,它是對高層的細分。盡管應(yīng)用星型模型和雪花模型可以在概念模型設(shè)計中建立數(shù)據(jù)倉庫的概念模型,但是無法直接依靠概念模型實現(xiàn)數(shù)據(jù)倉庫的物理模型,還要依靠邏輯模型作為概念模型到物理模型轉(zhuǎn)換的橋梁。
知識倉庫一般都建立在關(guān)系數(shù)據(jù)基礎(chǔ)上,因此,數(shù)據(jù)倉庫設(shè)計過程中所采用的邏輯模型主要是關(guān)系模型。但是,不同的機器系統(tǒng)又有許多不同的限制,提供不同的環(huán)境與工具。所以,在進行邏輯模型設(shè)計時一般要分三步進行。
(1)將概念模型轉(zhuǎn)化為一般的關(guān)系模型。一般情況下,我們都是由E-R圖轉(zhuǎn)換導出關(guān)系數(shù)據(jù)模型。由于關(guān)系模型的邏輯結(jié)構(gòu)是一組關(guān)系模式的集合,而E-R圖則是由實體、實體的屬性和實體之間的聯(lián)系三個要素組成的,所以將E-R圖轉(zhuǎn)化為關(guān)系模型實際就是要將實體、實體的屬性和實體之間的聯(lián)系轉(zhuǎn)化為關(guān)系模式。
(2)將轉(zhuǎn)化的關(guān)系模型向特定的數(shù)據(jù)倉庫支持下的數(shù)據(jù)模型轉(zhuǎn)換。這一步轉(zhuǎn)化是依賴于機器的,沒有普遍的規(guī)則,轉(zhuǎn)換的主要依據(jù)是知識倉庫的功能及限制。
(3)對數(shù)據(jù)模型進行優(yōu)化。由于知識倉庫的邏輯設(shè)計的結(jié)果不是唯一的。為了進一步提高知識倉庫的系統(tǒng)性能,還應(yīng)當適當?shù)男薷?、調(diào)整數(shù)據(jù)模型的結(jié)構(gòu),主要為:確定數(shù)據(jù)依賴,并對數(shù)據(jù)依賴進行最小化處理、消除冗余關(guān)系等等。
9.知識倉庫管理技術(shù)
(1)、決策支持
決策支持工具是將知識倉庫與現(xiàn)實應(yīng)用相互關(guān)系的工具,知識倉庫利用已有的知識,按照相應(yīng)的條件約束,對某一問題可以作以輔導決策,這其中應(yīng)用到人工智能技術(shù)、專家系統(tǒng)技術(shù)、軟件工程技術(shù),也是知識倉庫今后發(fā)展的主要利用方向[2]。其包括知識查詢工具、知識解釋工具、多維分析工具和知識控屬工具。知識查詢指以某種檢索條件為依據(jù)而提出的一般知識請求,知識解釋則是對知識處理和可視化知識的展現(xiàn)(如統(tǒng)計分析等)。
知識多維分析是指從業(yè)務(wù)角度對數(shù)據(jù)聚集的分析,又稱隨機分析處理(OLAP)。由于軟件技術(shù)和工具軟件的不斷改進,多維聯(lián)機可以更準確、更直接、更直觀的將知識所蘊含的內(nèi)涵作用顯現(xiàn)出來。
(2)、知識發(fā)現(xiàn)
知識發(fā)現(xiàn)通常稱為數(shù)據(jù)挖掘,也叫信息發(fā)現(xiàn),在一般的業(yè)務(wù)分析中,最終用戶頭腦中已經(jīng)有了具體的問題,例如:"8月份某產(chǎn)品銷售了多少?"這一問題借助決策支持工具可以方便的從知識倉庫查到相應(yīng)的信息以及歷史情況曲線分析、可能存在或面臨的問題,目前的數(shù)據(jù)挖掘工具主要有數(shù)據(jù)關(guān)聯(lián)、順序狹義、分類器和聚類技術(shù)。知識發(fā)現(xiàn)的方法和實施過程:從技術(shù)上講,發(fā)掘的實施大體可以分為五個步驟:
- 選擇和準備發(fā)掘的數(shù)據(jù);
- 預處理;
- 研究開發(fā)一種或多種數(shù)據(jù)知識挖掘工具;
- 發(fā)現(xiàn)未知知識;
- 運用已發(fā)現(xiàn)的知識于決策支持,達到特定目標。
(3)、WWW與知識倉庫的融合
WWW技術(shù)的飛速發(fā)展,對知識倉庫的發(fā)展產(chǎn)生很大影響。首先是基于Web的決策支持工具的出現(xiàn),改變了用戶對知識倉庫的使用方式,不同局限于某一范圍獲得的知識,而是通過Internet/Intranet遠程訪問知識倉庫。其次用于訪問知識倉庫的信息目錄也可以通過Web瀏覽器來查詢和發(fā)布知識,這種方式極大程度上使知識倉庫技術(shù)通過WWW更能擴大其應(yīng)用范圍。
10.知識倉庫的標準化與安全性
通常說來,知識倉庫的標準化分為兩個方面:知識倉庫的標準化和軟件系統(tǒng)的標準化。知識倉庫是以數(shù)字化資源為基本素材,數(shù)字化資源的本身已經(jīng)相對標準化,決定了其標準化的方向。 作為知識倉庫中的主要部分軟件系統(tǒng),其標準化的程度在某種意義上更是重要,它負責知識倉庫與信息系統(tǒng)的知識接口問題,在建立的過程中,力求達到知識的通用接口,使知識倉庫的資源采集、加工、處理、輸出等接口都達到與信息系統(tǒng)的通用與兼容。
知識是構(gòu)筑一切的基礎(chǔ),并非是無國界的,或者是公開的技術(shù),對于我們的知識倉庫,存在一些非常嚴重的課題,就是安全性。現(xiàn)今的知識倉庫,CNKI都會受到外界的干擾、人為的惡意入侵與破壞:
- 計算機病毒;
- 芯片掏鬼活動;
- 高能非核電磁脈沖;
- 微米納米機器人和芯片細菌;
- 黑客。
對于知識倉庫技術(shù)安全性的問題,應(yīng)有幾點考慮:
(1)對于病毒,防范是權(quán)宜之計,關(guān)鍵立足長遠,加強研究,積極迎接病毒對信息化社會的嚴重威脅和挑戰(zhàn)。
(2)統(tǒng)籌計劃,研究對抗技術(shù)。
(3)開展計算機病毒的專題研究
總之,知識倉庫的發(fā)展將是信息化社會的知識發(fā)展的趨勢,向著智能化、網(wǎng)絡(luò)化發(fā)展,是未來智能信息系統(tǒng)的支撐環(huán)境。