一種城市管理本體知識庫的構建方法及系統與流程
2023-06-14 13:30:47
本發明涉及知識工程技術領域,尤其涉及一種城市管理本體知識庫的構建方法及系統。
背景技術:
隨著城市信息化進程的日益加快,人們的生產生活方式發生了翻天覆地的變化。人們對城市服務能力的要求也越來越高,於是智慧城市理念應運而生。尤其在城市管理方面,公眾希望政府的施政手段更加人性化,市政部門不再是單純的城市管理者,更要向城市服務者的身份轉變。因此,藉助知識工程及相關技術開發一個基於城市管理的本體知識庫應用顯得尤為重要,因為它可以有效地解決上述那些困擾城市發展的瓶頸問題。
所謂本體知識庫,即知識工程中結構化、易操作、易利用、全面有組織的知識集群。通常是針對某一(或某些)領域問題求解的需要,採用某種(或若干)知識表示方式在計算機存儲器中存儲、組織、管理及使用的互相聯繫的知識片集合。傳統的關係型資料庫相比,傳統資料庫只能通過二維表存儲一些基本的事實數據,且其不具備表達和處理知識的能力。而知識庫不僅蘊含顯式表達的事實知識,也包含顯式表達的包括常識、經驗等在內的領域知識和啟發式知識。在某些確定的規則下,知識庫能夠推導出新的數據項,有專門的推理機制支持帶控制的知識檢索。
目前,人們已經對通用知識庫的構建開展了大量的工作,現有本體知識庫的實現往往存在如下問題:僅針對某一特定領域來構建知識庫;構建知識庫所需的數據來源和格式也較為單一,多數是基於網際網路數據。而且,現有的研究應用中更是少有關於城市管理領域的知識 庫構建案例,即使有類似的應用場景,其涉及的領域也往往局限在城市管理體系的某一側面,如軌道交通系統、醫療衛生系統、基礎設施建設系統等。並且這些知識庫的數據來源依然以網際網路數據為主,這相對於城市管理知識庫的需求還存在著缺乏權威性、不具時效性和沒有針對性等缺點。可見,當前這些基於知識庫的研究應用並沒有從根本上解決好城市管理系統所面臨的跨體系、多平臺、數據源複雜的問題。目前各個行政管理部門普遍購置了屬於自己的信息化部門管理系統(簡稱部門系統或系統),但由於行政領域的差異,不同部門系統所產生的數據信息在結構和語義上都存在較大差異,因此,在知識庫的構建過程中存在各部門的數據融合及統一問題。由於城市管理體系過於龐雜,為了保證對城市管理領域描述的完整性,構建知識庫的數據來源不可能僅限於某一種特定的數據結構,在知識庫的構建過程中存在對各種異構數據的轉換及處理問題。相比其他領域知識,城市管理領域的知識數量龐大、信息龐雜,在實現對海量數據的知識庫的構建過程中,還存在查詢效率低的問題。
技術實現要素:
鑑於上述問題,本發明提出了一種城市管理本體知識庫的構建方法及系統,解決了部門間信息的互通問題,實現自動化的知識抽取和本體知識庫構建。
根據本發明的一個方面,提供了一種城市管理本體知識庫的構建方法,該方法包括:
獲取各城市管理部門系統的數據集以及與各部門相關的法律法規文檔;
根據預設策略對所述各部門系統的數據集以及與各部門相關的法律法規文檔進行知識抽取,得到所述各部門系統的數據集對應的第一知識實體集和與各部門相關的法律法規文檔對應的第二知識實體集;
為所述第一知識實體集和第二知識實體集中的所有知識實體添加關鍵字標籤和唯一標識符,並根據所述關鍵字標籤建立所述第一知識實體集中的知識實體與第二知識實體集中的知識實體之間的實體連結關係,得到本體知識庫中的實例;
獲取與每一實例相匹配的網際網路數據,並建立每一實例與對應的網際網路數據之間的連結。
其中,在所述根據預設策略對所述各部門系統的數據集以及與各部門相關的法律法規文檔進行知識抽取之前,所述方法還包括:
對所述各部門系統的數據集的數據格式轉換為數據文檔;
根據預設的專家系統對格式轉換後的各部門系統的數據集的有效性進行校驗,得到有效元數據。
其中,所述根據預設策略對所述各部門系統的數據集以及與各部門相關的法律法規文檔進行知識抽取,包括:
採用關鍵詞提取方式或預設規則對所述各部門系統的數據集進行知識抽取;
採用正則表達式匹配的方式對所述與各部門相關的法律法規文檔進行知識抽取。
其中,所述方法還包括:
當各部門系統的數據集和/或與各部門相關的法律法規文檔發生變更時,根據每一知識實體的唯一標識符更新發生變更的數據對應的知識實體。
其中,所述根據所述關鍵字標籤建立所述第一知識實體集中的知識實體與第二知識實體集中的知識實體之間的實體連結關係,包括:
提取第一知識實體集和第二知識實體集中各個知識實體的關鍵字標籤;
獲取不同的知識實體集中任意兩個知識實體的關鍵字標籤的相 識度;
根據所述相識度建立不同的知識實體集中任意兩個知識實體之間的實體連結關係。
其中,所述獲取不同的知識實體集中任意兩個知識實體的關鍵字標籤的相識度,具體包括:
計算不同的知識實體集中任意兩個知識實體的關鍵字標籤的編輯距離;
計算不同的知識實體集中任意兩個知識實體的關鍵字標籤的餘弦相識度;
根據所述編輯距離和餘弦相識度計算不同的知識實體集中任意兩個知識實體的關鍵字標籤的相識度sim(x,y),公式如下:
其中,x為第一個知識實體的關鍵字標籤的向量表示,y為第二個知識實體的關鍵字標籤的向量表示,cossim(x,y)為x向量和y向量的餘弦相似度,levin(x,y)為x向量和y向量的編輯距離。
其中,所述獲取與每一實例相匹配的網際網路數據,並建立每一實例與對應的網際網路數據之間的連結,包括:
提取每一實例的特徵信息,根據所述特徵信息從網際網路中抓取與所述特徵信息相匹配的網際網路數據;
建立每一實例與對應的網際網路數據之間的連結。
根據本發明的另一個方面,提供了一種城市管理本體知識庫的構建系統,該系統包括:
數據獲取單元,用於獲取各城市管理部門系統的數據集以及與各部門相關的法律法規文檔;
知識抽取單元,用於根據預設策略對所述各部門系統的數據集以及與各部門相關的法律法規文檔進行知識抽取,得到所述各部門 系統的數據集對應的第一知識實體集和與各部門相關的法律法規文檔對應的第二知識實體集;
實體連結建立單元,用於為所述第一知識實體集和第二知識實體集中的所有知識實體添加關鍵字標籤和唯一標識符,並根據所述關鍵字標籤建立所述第一知識實體集中的知識實體與第二知識實體集中的知識實體之間的實體連結關係,得到本體知識庫中的實例;
網絡數據連結建立單元,用於獲取與每一實例相匹配的網際網路數據,並建立每一實例與對應的網際網路數據之間的連結。
其中,所述知識抽取單元,包括:
第一處理模塊,用於採用關鍵詞提取方式或預設規則對所述各部門系統的數據集進行知識抽取;
第二處理模塊,用於採用正則表達式匹配的方式對所述與各部門相關的法律法規文檔進行知識抽取。
其中,所述實體連結建立單元,包括:
提取模塊,用於提取第一知識實體集和第二知識實體集中各個知識實體的關鍵字標籤;
獲取模塊,用於獲取不同的知識實體集中任意兩個知識實體的關鍵字標籤的相識度;
連結建立模塊,用於根據所述相識度建立不同的知識實體集中任意兩個知識實體之間的實體連結關係。
本發明的有益效果為:
本發明提供的一種城市管理本體知識庫的構建方法及系統,以各城市管理部門系統公開的數據集為數據源頭,並吸納了相關領域的法律法規文檔和網際網路公開數據為構建城市管理本體知識庫,通過異構數據的知識抽取,實現自動化的知識抽取和知識庫構建。利用語義信息建立知識實體之間的連結,高效準確地得到搜索結果並返回給用戶,保證了知識庫的查詢效率和質量,提升用戶體驗。而 且,由於進行了相關實體間的自動匹配與連結,進而實現了各部門間信息的互通互信。
附圖說明
通過閱讀下文優選實施方式的詳細描述,各種其他的優點和益處對於本領域普通技術人員將變得清楚明了。附圖僅用於示出優選實施方式的目的,而並不認為是對本發明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
圖1為本發明實施例提出的一種城市管理本體知識庫的構建方法的流程圖;
圖2為本發明實施例提出的一種城市管理本體知識庫的構建系統的結構框圖。
具體實施方式
下面詳細描述本發明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用於解釋本發明,而不能解釋為對本發明的限制。
本技術領域技術人員可以理解,除非特意聲明,這裡使用的單數形式「一」、「一個」、「所述」和「該」也可包括複數形式。應該進一步理解的是,本發明的說明書中使用的措辭「包括」是指存在所述特徵、整數、步驟、操作、元件和/或組件,但是並不排除存在或添加一個或多個其他特徵、整數、步驟、操作、元件、組件和/或它們的組。
本技術領域技術人員可以理解,除非另外定義,這裡使用的所有術語(包括技術術語和科學術語),具有與本發明所屬領域中的普通技術人員的一般理解相同的意義。還應該理解的是,諸如通用字典中定義的那些術語,應該被理解為具有與現有技術的上下文中的意義一致的意義,並且除非被特定定義,否則不會用理想化或過於正式的含義來解釋。
圖1示出了本發明實施例提出的一種城市管理本體知識庫的構建方法的流程圖。
參照圖1,本發明實施例提出的城市管理本體知識庫的構建方法包括:
S11、獲取各城市管理部門系統的數據集以及與各部門相關的法律法規文檔;
S12、根據預設策略對所述各部門系統的數據集以及與各部門相關的法律法規文檔進行知識抽取,得到所述各部門系統的數據集對應的第一知識實體集和與各部門相關的法律法規文檔對應的第二知識實體集;
S13、為所述第一知識實體集和第二知識實體集中的所有知識實體添加關鍵字標籤和唯一標識符,並根據所述關鍵字標籤建立所述第一知識實體集中的知識實體與第二知識實體集中的知識實體之間的實體連結關係,得到本體知識庫中的實例;
S14、獲取與每一實例相匹配的網際網路數據,並建立每一實例與對應的網際網路數據之間的連結。
本實施例提供的基於異構元數據的城市管理本體知識庫的構建方法,解決了現有技術中在知識庫構建過程中有待解決的問題。
本實施例中,在步驟S12中的根據預設策略對所述各部門系統的數據集以及與各部門相關的法律法規文檔進行知識抽取之前,進一步包括:
對所述各部門系統的數據集的數據格式轉換為數據文檔;
根據預設的專家系統對格式轉換後的各部門系統的數據集的有效性進行校驗,得到有效元數據。
實際應用中,由於各部門系統的數據集的數據格式不一定統一,因此,首先需要對各部門系統的數據集進行預處理,具體包括:
對所述各部門系統的數據集的數據格式轉換為數據文檔,即xls 文件,將各部門系統的數據集處理成統一格式的數據文檔,然後交由相關領域的專家系統對數據集的正確性和有效性進行校驗,所得到的有效元數據將用於後續的知識抽取工作中。然後,將部門系統元數據由計算機不易處理的xls文件轉為計算機易處理的csv格式。同時,對一些有待完善的元數據文檔做標準化處理。
此外,本步驟還包括:基於法律法規文本的結構特點,從每條法律中抽象出若干個基本單元,如法律名稱、內容描述、執法主體等,最後統一處理成csv格式。
本實施例中,步驟S12中的根據預設策略對所述各部門系統的數據集以及與各部門相關的法律法規文檔進行知識抽取,進一步包括以下圖中未示出的步驟:
S121、採用關鍵詞提取方式或預設規則對所述各部門系統的數據集進行知識抽取;
S122、採用正則表達式匹配的方式對所述與各部門相關的法律法規文檔進行知識抽取。
下面以執法行為「處罰以欺騙手段取得資質證書承攬城鄉規劃編制工作」的元數據為例,對本發明實施例中提供的各部門系統的數據集的知識抽取進行解釋說明。
元數據為二維表結構,在知識庫的構建過程中元數據裡每一個條目都被當成一個實體處理,每一個實體都有四個元素對其描述,即業務標識、元素名稱、類型和類別。「業務標識」有兩個作用,一個是在數據集成過程中作為連結本地系統和資料庫的全局標識符,另一個是描述業務的層次結構。例如,C.1.1.1.10.23是C.1.1.1.10.23.1父級;「元素名稱」是起到簡要描述作用的標籤;最後兩列分別為「類型」和「類別」,兩者的不同之處在於「類型」是基於城市管理邏輯的分類,例如活動、操作者、地點等,而「類別」主要用於描述物理屬性,如數字、附圖、次序等。因此在知識庫概念模型的構建中, 我們制定如下規則策略:使用類型構建概念體系,類別作為實體屬性用來表示上級實體中實例與下級實體中概念間的關係。運用本策略即可得到活動、操作者、參與者、地點等概念以及實施、崗位、次序、單位等實體屬性,進而我們可以構建出這樣的三元組關係來描述實例『處罰以欺騙手段取得資質證書承攬城鄉規劃編制工作』與實例『經辦人』間的關係,當然我們還可以描述出實體『處罰以欺騙手段取得資質證書承攬城鄉規劃編制工作』是『活動』概念的一個實例,『經辦人』是『操作者』概念的一個實例。通過實現一個基於上述策略算法的程序即可實現無需深層次人工判斷的自動化知識抽取,將系統元數據中的知識抽取出來並保留其中的語義信息。
對於法律法規的知識抽取工作將包含對系統元數據和純文本法律法規兩方面的抽取。法律法規文本通常都存在一個明確的格式規範,可以被分為若干個基本單元進行抽取。遵循一個固定的模板,即以一個阿拉伯數字開頭,其後跟隨一個與元數據相關的標題,後面便是該法律法規的具體描述信息。對法律法規文檔的知識抽取是通過正則表達式匹配實現的。此外,對法律法規標題的近一步抽取也是通過正則表達式匹配實現。
最後,在實體中將補充進從開放網際網路中抽取到的相匹配的網際網路數據信息,形成最終的城市管理知識庫。
進一步地,本實施例提出的城市管理本體知識庫的構建方法,還包括以下步驟:
當各部門系統的數據集和/或與各部門相關的法律法規文檔發生變更時,根據每一知識實體的唯一標識符更新發生變更的數據對應的知識實體。
本實施例中,當某一部門的行政管理工作流程發生改變時,系統將藉助唯一標示符實現原知識和新知識的變更,相應變更會通過 對部門系統元數據的更新及時反映到城市管理知識庫上,公眾能夠直觀的了解到行政流程發生怎樣的變化,避免了由於信息的快速更新所造成的公共信息失效。
本實施例中,在步驟S13中的根據所述關鍵字標籤建立所述第一知識實體集中的知識實體與第二知識實體集中的知識實體之間的實體連結關係,具體包括以下圖中未示出的步驟:
S131、提取第一知識實體集和第二知識實體集中各個知識實體的關鍵字標籤;
S132、獲取不同的知識實體集中任意兩個知識實體的關鍵字標籤的相識度;
S133、根據所述相識度建立不同的知識實體集中任意兩個知識實體之間的實體連結關係。
進一步地,所述步驟S132,具體包括:
計算不同的知識實體集中任意兩個知識實體的關鍵字標籤的編輯距離;
計算不同的知識實體集中任意兩個知識實體的關鍵字標籤的餘弦相識度;
根據所述編輯距離和餘弦相識度計算不同的知識實體集中任意兩個知識實體的關鍵字標籤的相識度sim(x,y),公式如下:
其中,x為第一個知識實體的關鍵字標籤的向量表示,y為第二個知識實體的關鍵字標籤的向量表示,cossim(x,y)為x向量和y向量的餘弦相似度,levin(x,y)為x向量和y向量的編輯距離。
本發明實施例中,通過對部門系統元數據的實例抽取和法律法規文本的實例抽取生成業務活動相對應的實例和法律法規相應的實例。本步驟通過計算業務活動實例和法律法規實例間的相似度來進 行自動關聯。鑑於活動實例和法律實例都是抽象的對象,我們採用對其中文標籤進行相似度計算來識別是否關聯,比較通用的字符串相似度計算有餘弦相似度和編輯距離,我們採用了兩者的一個綜合的算法,相似度公式如下所示:
其中,x為第一個知識實體的關鍵字標籤的向量表示,y為第二個知識實體的關鍵字標籤的向量表示,等號右式子的分子為x向量和y向量的笛卡兒積,即相同字的頻度的乘機的和。分母為x向量的模和y向量的模的成績,向量的模即向量中每一個元素的平方的和再解二次方跟。式子中n為向量的長度,i是一個變量指示器。
編輯距離通過Apache Common的Levenshtein函數獲得。綜合相似度評分公式如下:
其中,x為第一個知識實體的關鍵字標籤的向量表示,y為第二個知識實體的關鍵字標籤的向量表示,cossim(x,y)為x向量和y向量的餘弦相似度,levin(x,y)為x向量和y向量的編輯距離。
最後通過匹配其標籤關聯活動實體與法律實體,步驟如下:
其中,所述獲取與每一實例相匹配的網際網路數據,並建立每一實例與對應的網際網路數據之間的連結,包括:
提取每一實例的特徵信息,根據所述特徵信息從網際網路中抓取與所述特徵信息相匹配的網際網路數據;
建立每一實例與對應的網際網路數據之間的連結。
實際應用中,本體知識庫構建是基於在線百科資源的。Xlore是一種基於這四種在線百科資源構建的交叉語義知識庫。Xlore有超過85000個類和700萬個實例。本實施例中。本體知識庫中,對每一個實體都要生成一個與之對應的概要描述以便於市民理解,因此需要對 實體的摘要做抽取。這部分工作是通過Xlore小組所提供的API實現的。通過與Xlore提供的實例查找API,可以把城市管理知識庫的實例定位到相應在Xlore的實例。具體的,Xlore提供的實例查詢的API為:http://www.xlore.org/sparql。
本發明實施例,通過建立每一實例與對應的網際網路數據之間的連結,來對城市管理本體知識庫中所缺失的信息進行補充,如實例的描述信息和簡要說明等。
為了驗證本發明在實際操作過程中的性能和效果,使用本發明實施例提供的方法構建了一個輕量級的市政管理知識庫,並對該知識庫的各項指標作了統計分析。
本知識庫示例系統基於新疆克拉瑪依市的市政管理資源構建,採用克拉瑪依市部門系統元數據共計7985項,相關法律法規共58件340項。通過本專利所提出的知識庫構建方法對上述數據源處理,共得到概念14個,實例3516項,屬性45個以及三元組20993條。本方法所生成的知識庫具有完整的知識體系結構,對知識的描述準確合理,能夠較為完整地保留原有資源中的語義關係。
由此可見,本發明能夠完成多種市政管理資源的自動化知識抽取及知識庫構建。相對於以往的知識庫構建方法,本發明在市政管理領域的知識庫構建上具有明顯優勢,達到了預期目的。
圖2示出了本發明實施例提出的一種城市管理本體知識庫的構建系統的結構框圖。
參照圖2,本發明實施例提出的城市管理本體知識庫的構建系統,包括:數據獲取單元201、知識抽取單元202、實體連結建立單元203以及網絡數據連結建立單元204,其中:
所述的數據獲取單元201,用於獲取各城市管理部門系統的數據集以及與各部門相關的法律法規文檔;
所述的知識抽取單元202,用於根據預設策略對所述各部門系統 的數據集以及與各部門相關的法律法規文檔進行知識抽取,得到所述各部門系統的數據集對應的第一知識實體集和與各部門相關的法律法規文檔對應的第二知識實體集;
所述的實體連結建立單元203,用於為所述第一知識實體集和第二知識實體集中的所有知識實體添加關鍵字標籤和唯一標識符,並根據所述關鍵字標籤建立所述第一知識實體集中的知識實體與第二知識實體集中的知識實體之間的實體連結關係,得到本體知識庫中的實例;
所述的網絡數據連結建立單元204,用於獲取與每一實例相匹配的網際網路數據,並建立每一實例與對應的網際網路數據之間的連結。
本實施例中,所述知識抽取單元202,進一步包括:第一處理模塊和第二處理模塊,其中:
所述的第一處理模塊,用於採用關鍵詞提取方式或預設規則對所述各部門系統的數據集進行知識抽取;
所述的第二處理模塊,用於採用正則表達式匹配的方式對所述與各部門相關的法律法規文檔進行知識抽取。
本實施例中,所述實體連結建立單元203,進一步包括:提取模塊、獲取模塊以及連結建立模塊,其中:
所述的提取模塊,用於提取第一知識實體集和第二知識實體集中各個知識實體的關鍵字標籤;
所述的獲取模塊,用於獲取不同的知識實體集中任意兩個知識實體的關鍵字標籤的相識度;
所述的連結建立模塊,用於根據所述相識度建立不同的知識實體集中任意兩個知識實體之間的實體連結關係。
對於系統實施例而言,由於其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
綜上所述,本發明實施例提供的一種城市管理本體知識庫的構 建方法及系統,以各城市管理部門系統公開的數據集為數據源頭,並吸納了相關領域的法律法規文檔和網際網路公開數據為構建城市管理本體知識庫,通過異構數據的知識抽取,實現自動化的知識抽取和知識庫構建。利用語義信息建立知識實體之間的連結,高效準確地得到搜索結果並返回給用戶,保證了知識庫的查詢效率和質量,提升用戶體驗。而且,由於進行了相關實體間的自動匹配與連結,進而實現了各部門間信息的互通互信。
通過以上的實施方式的描述,本領域的技術人員可以清楚地了解到本發明可以通過硬體實現,也可以藉助軟體加必要的通用硬體平臺的方式來實現。基於這樣的理解,本發明的技術方案可以以軟體產品的形式體現出來,該軟體產品可以存儲在一個非易失性存儲介質(可以是CD-ROM,U盤,移動硬碟等)中,包括若干指令用以使得一臺計算機設備(可以是個人計算機,伺服器,或者網絡設備等)執行本發明各個實施例所述的方法。
本領域技術人員可以理解附圖只是一個優選實施例的示意圖,附圖中的模塊或流程並不一定是實施本發明所必須的。
本領域技術人員可以理解實施例中的系統中的模塊可以按照實施例描述進行分布於實施例的系統中,也可以進行相應變化位於不同於本實施例的一個或多個系統中。上述實施例的模塊可以合併為一個模塊,也可以進一步拆分成多個子模塊。
以上所述僅是本發明的部分實施方式,應當指出,對於本技術領域的普通技術人員來說,在不脫離本發明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應視為本發明的保護範圍。