新四季網

基於本體和表達式的傳染病文獻標引方法

2023-09-17 00:28:40 2

專利名稱:基於本體和表達式的傳染病文獻標引方法
技術領域:
本發明涉及一種文獻標引方法,特別涉及一種基於本體和表達式的文獻標引方 法,屬於文獻檢索領域。
背景技術:
當前,信息科技的發展已經在各個行業取得了前所未有的進步和應用,使得信息 的傳遞與獲取日益方便與快捷,促進人們生活、學習、生產效率得到大幅度的提高。但是,信 息的海量性、繁雜性和多結構性,也為人們精確查找到所需的信息帶來了很多困擾。大幅度 提高信息的查詢效率,成為當前需要迫切解決的一個問題。搜尋引擎提供了一種技術,使用戶可以大量、準確、快速的獲取到所需的信息,能 夠滿足人們對一般信息的查詢需求,節省大量的時間和精力。由於搜尋引擎在信息查詢的 廣泛性、快速性和有效性方面的優勢,使得依賴於搜尋引擎進行信息的即時獲取、分析與利 用日漸成為人們學習、生活和生產的一個重要環節。然而,當前的搜尋引擎技術與方法仍然是不完美的。在不複雜的信息檢索系統中, 通常是通過檢索資料庫文本中包含的關鍵詞完成檢索。這種檢索的特徵是精確度低、查全 率低,而且很難對搜索的文獻進行進一步的挖掘和分析,難以滿足特定領域內用戶對數據 的精準度和深層次應用的要求。例如,在傳染病領域,用戶所關心的概念是有限的,但是需 要對這些概念進行深度分析,以滿足用戶對關聯、擴檢、自定義分類、智能檢索的要求。用戶 希望針對傳染病領域的特定概念進行深度檢索,也希望通過這些概念之間的關係,快速獲 得所需的信息資源。但是傳統的搜尋引擎很難滿足在傳染病領域用戶的特殊需求,無法理 解、分析用戶的檢索需求,更無法做到智能化的引導用戶進行探索性的知識檢索。為了解決對特定領域內數據挖掘和分析的需求,需要使用概念之間的語義關係, 例如在知識描述中的本體論。本體是一種分層的詞法結構,其中定義的概念彼此之間存在 著語義關係。例如,圖1所示為部分傳染病領域的本體定義。定義好的本體可以用於對相 關文獻進行知識標引。例如,使用圖1所示本體對傳染病領域文獻進行標引,一篇涉及母 嬰傳播愛滋病的文獻在處理時會加上「愛滋病」和「母嬰傳播」標籤。這樣,通過本體中定 義的概念之間的關係,在檢索「愛滋病」、「傳播途徑」、「母嬰傳播,,時都會檢索出這篇文獻。 但是,這種知識標引方法無法滿足精確檢索的需求。文獻中描述的「母嬰傳播」可能只涉及 到對愛滋病的傳播,也可能涉及到對多種疾病的傳播;或者文獻可能討論的是母嬰傳播之 外的所有其他可能的傳播途徑,但是按照現有的文獻標引方法,無法為文獻加上「非母嬰傳 播」這樣的標籤。

發明內容
本發明的目的在於針對現有技術的缺點,提供一種基於本體的傳染病文獻標引方 法,該方法使用表達式的思想,通過將本體的概念組合成表達式並使用表達式對文獻進行 標引,從而可以更精確的表示文獻的內容,滿足精確檢索的需求。
本發明提供了一種基於本體和表達式的傳染病文獻標引方法,包括以下步驟一、定義傳染病領域本體,包括本體涉及的概念和概念之間的關係;二、採集傳染病領域信息資源,並按照預先定義的結構存儲到資料庫中;三、使用本體的概念組成的表達式對資料庫中的文獻進行標引;四、檢索時使用本體的概念組成的表達式構造檢索式,對資料庫中的文獻進行檢 索。有益效果本發明基於傳染病領域的數據特點和用戶需求,提供了一種使用該領域的概念和 關係構造本體,並使用表達式對信息資源進行知識標引的方法,能夠有效地組織該領域的 信息資源,並為用戶提供更加精確和智能化的檢索與分析服務。


圖1為實施例構造的部分傳染病領域本體。
具體實施例方式下面結合附圖,具體說明本發明的優選實施方式。本實施例實現了一種基於本體和表達式的傳染病文獻標引方法。該方法的第一步 是構造一個傳染病領域的本體。在傳染病領域,用戶所關心的概念是有限的,但是需要對這 些概念進行深度分析,以滿足用戶對關聯、擴檢、自定義分類、智能檢索的要求。使用自定義 概念進行知識標引可以提供更適用於該領域和特定用戶的文獻分類方法。因此,傳染病領 域的檢索與分析適於通過本體實現。首先構造傳染病領域的本體。圖1所示為本實施例構造的部分傳染病領域本體, 包括「愛滋病領域」本體的定義和部分「病毒性肝炎」領域本體的定義。愛滋病的本體用樹 狀結構表示,其中每個節點表示定義的一個概念,每條邊表示概念之間的關係。樹的根節點 即第一層節點為「愛滋病」;在「愛滋病」下與「愛滋病」關聯的第二層節點包括「症狀」、「治 療」、「傳播途徑」、「易感人群」、「世界愛滋病日」、「全球首個愛滋病病例」、「專家」;在「症狀」 下與「症狀」關聯的第三層節點包括「腫瘤」、「一般性症狀」、「呼吸道症狀」、「消化道症狀」、 「神經系統症狀」、「皮膚和黏膜損害」;在「治療」下與「治療」關聯的第三層節點包括「營養 治療」、「肝細胞骨髓移植」、「水果治療」、「抗HIV病毒藥物」;在「傳播途徑」下與「傳播途徑」 關聯的第三層節點包括「母嬰傳播」、「血液傳播」、「性傳播」、「公用針具傳播」;在「易感人 群」下與其關聯的第三層節點包括「血友病患者」、「靜脈吸毒成癮者」、「男性同性戀者」、「接 受輸血及其它血製品者」、「與易感人群有性關係」;在「世界愛滋病日」下與其關聯的第三層 節點包括「12月1日」;在「全球首個愛滋病病例」下的第三層節點包括「1981、6美國」;在 「專家」下與其關聯的第三層節點包括專家的姓名,每個專家的姓名對應該層的一個節點; 在「腫瘤」下與其關聯的第四層節點包括「卡波希式腫瘤」;在「一般性症狀」下與其關聯的 第四層節點包括「持續發燒」、「盜汗」、「淋巴腫大」、「消瘦」;在「呼吸道症狀」下與其關聯的 第四層節點包括「長期咳嗽」、「胸痛」、「呼吸困難」;在「消化道症狀」下與其關聯的第四層節 點包括「厭食」、「噁心」、「嘔吐」、「腹瀉」;在「神經系統症狀」下與其關聯的第四層節點包括 「頭暈」、「頭痛」、「反應遲鈍」;在「皮膚和黏膜損害」下與其關聯的第四層節點包括「瀰漫性丘疹」、「帶狀皰疹」、「口腔和咽部黏膜炎症」;在「抗HIV病毒藥物」下與其關聯的第四層節 點包括「疊氮胸苷」、「雙脫氧胞苷」、「雙脫氧肌苷」;在專家姓名下與其關聯的第四層節點包 括該醫生擅長的項目和所在醫院名稱。圖1還顯示了部分「病毒性肝炎」領域本體的定義,「病毒性肝炎」節點下包括「乙 型肝炎」節點,「B型肝炎」節點下包括「傳播途徑」節點,「傳播途徑」下包括「母嬰傳播」、 「血液傳播」、「性傳播」、「公用針具傳播」、「蚊蟲叮咬」、「生活密切接觸」節點。其中,「母嬰 傳播」、「血液傳播」、「性傳播」、「公用針具傳播」為與愛滋病領域的共用節點。由此可見,傳 染病領域的本體定義並非樹狀結構,在不同疾病領域的概念是有交叉的,由節點和邊構成 的本體定義組成了一個網狀結構。需要注意的是,本實施例中的本體定義只是示例性的,並非唯一的定義方法。進行 知識標引所使用的概念根據系統的服務對象和服務目的而異。例如,針對醫生提供的檢索 系統和針對公眾提供的檢索系統應該使用不同的概念。通常需要對用戶的檢索行為及可能 使用的其它應用進行分析,從而提煉出適用於該系統的概念,用來對資源庫中的信息進行 知識標引。在通常情況下,本體中的概念和概念之間的關係都會構成與圖1類似的一個網 狀結構。定義好本體之後,需要採集傳染病領域信息資源,並按照預先定義的結構存儲到 資料庫中。本發明所述的文獻標引方法以及標引之後的檢索過程均是通過資料庫來實現 的。文獻入庫的時候,需要對文獻進行分析,提取出題目、主題詞、摘要、全文等內容分別入庫。本實施例使用本體的概念組成的表達式對資料庫中的文獻進行標引。標引過程可 以針對資料庫中的文獻來進行,優選的,也可以在文獻入庫的過程中進行。在文獻分析的過 程中,同時對文獻進行標引,可以減少文獻處理的時間,提高文獻分析的效率。本實施例使用的表達式至少可以表示出概念之間的以下幾種關係(1)單個概念;使用單個概念進行標引是一種通用的標引方式。知識標引可以針對文獻的主題、 摘要、全文或者其他部分進行。傳染病領域的特定概念可以與傳統的分類方法結合進行文 獻信息的標引。例如,一篇愛滋病相關的文獻按照自定義的概念,包含「治療」、「易感人群」 等標記,同時也可以按照傳統的文獻分類方法包含「期刊文獻」、「網絡」等標記,按照傳統的 對醫學文獻的分類包含「病理學」、「病原學」標記。(2)概念之間的「與」關係;當多個概念同時滿足的時候,用概念之間的「與」關係對文獻進行標引,本實施例 中用「And」表示。例如,一篇內容涉及「母嬰傳播」的文獻,如果僅僅討論了對愛滋病的傳 播,就可以用「愛滋病,,And 「母嬰傳播,,來對文獻進行標弓I,從而使得對文獻的標弓I更加精確。(3)概念之間的「或」關係;當滿足多個概念中的某一個時,用概念之間的「或」關係對文獻進行標引,本實施 例中用「Or」表示。例如,一篇內容涉及「母嬰傳播」的文獻,如果討論了對愛滋病的傳播以 及對B型肝炎的傳播,就可以用(「愛滋病」Or 「B型肝炎」)And 「母嬰傳播」來對文獻進行 標引。
(4)概念的「非」關係;當排除某個概念的時候,用概念的「非」關係對文獻進行標引,本實施例中用「Not」 表示。例如,一篇內容涉及「母嬰傳播」的文獻,可能討論的是「母嬰傳播」除了可以傳播艾 滋病之外,還可以傳播其他的哪些疾病。那麼就可以使用(Not 「愛滋病」)And 「母嬰傳播」 來對文獻進行標引。與傳統的僅僅使用概念的文獻標引方法相比,使用表達式對文獻進行標引可以更 加精確的標引出文獻的內容,從而可以從海量信息中提取出最符合用戶需求的文獻。優選的,本實施例為每個概念設置同義詞表,包括每個概念的同義詞及英文譯名, 以使文獻的標引更加準確。對文獻的標引可以使用通用方法如「詞頻統計」與人工標引相結合的方法來具體 實現。對於已經用表達式進行標引的文獻,用戶在檢索時可以使用本體的概念組成的表 達式構造檢索式,對資料庫中的文獻進行檢索。例如用戶要檢索「母嬰傳播」除了可以傳播 愛滋病之外,還可以傳播其他的哪些疾病。那麼就可以使用(Not 「愛滋病」)And 「母嬰傳 播」作為檢索式,精確的找出涉及相關內容的文獻。應該理解的是,以上所述僅為本發明的具體實施方式
,並不用於限定本發明的保 護範圍,凡是在本發明的精神和原則之內,對上述內容所作的任何修改、等同替換、改進等, 均應包含在本發明的保護範圍之內。
權利要求
1.一種基於本體和表達式的傳染病文獻標引方法,包括以下步驟一、定義傳染病領域本體,包括本體涉及的概念和概念之間的關係;二、採集傳染病領域信息資源,並按照預先定義的結構存儲到資料庫中;三、使用本體的概念組成的表達式對資料庫中的文獻進行標引;檢索時使用本體的概念組成的表達式構造檢索式,對資料庫中的文獻進行檢索。
2.根據權利要求1所述的一種基於本體和表達式的傳染病文獻標引方法,其特徵在 於,所述步驟二和步驟三同時進行。
3.根據權利要求1或2所述的一種基於本體和表達式的傳染病文獻標引方法,其特徵 在於,所述表達式包括概念之間的以下幾種關係(1)單個概念;(2)概念之間的「與」關係,當多個概念同時滿足的時候,用概念之間的「與」關係對文 獻進行標引;(3)概念之間的「或」關係,當滿足多個概念中的某一個時,用概念之間的「或」關係對 文獻進行標引;(4)概念的「非」關係,當排除某個概念的時候,用概念的「非」關係對文獻進行標引。
4.根據權利要求3所述的一種基於本體和表達式的傳染病文獻標引方法,其特徵在 於,為每個概念設置同義詞表,包括每個概念的同義詞及英文譯名。
5.根據權利要求4所述的一種基於本體和表達式的傳染病文獻標引方法,其特徵在 於,所述傳染病領域本體包括愛滋病本體,該愛滋病的本體用樹狀結構表示,其中每個節點 表示定義的一個概念,每條邊表示概念之間的關係;樹的根節點即第一層節點為「愛滋病」; 在「愛滋病」下與「愛滋病」關聯的第二層節點包括「症狀」、「治療」、「傳播途徑」、「易感人 群」、「世界愛滋病日」、「全球首個愛滋病病例」、「專家」;在「症狀」下與「症狀」關聯的第三 層節點包括「腫瘤」、「一般性症狀」、「呼吸道症狀」、「消化道症狀」、「神經系統症狀」、「皮膚 和黏膜損害」;在「治療」下與「治療」關聯的第三層節點包括「營養治療」、「肝細胞骨髓移 植」、「水果治療」、「抗HIV病毒藥物」;在「傳播途徑」下與「傳播途徑」關聯的第三層節點 包括「母嬰傳播」、「血液傳播」、「性傳播」、「公用針具傳播」;在「易感人群」下與其關聯的第 三層節點包括「血友病患者」、「靜脈吸毒成癮者」、「男性同性戀者」、「接受輸血及其它血制 品者」、「與易感人群有性關係」;在「世界愛滋病日,,下與其關聯的第三層節點包括「 12月1 日」;在「全球首個愛滋病病例」下的第三層節點包括「1981、6美國」;在「專家」下與其關聯 的第三層節點包括專家的姓名,每個專家的姓名對應該層的一個節點;在「腫瘤」下與其關 聯的第四層節點包括「卡波希式腫瘤」;在「一般性症狀」下與其關聯的第四層節點包括「持 續發燒」、「盜汗」、「淋巴腫大」、「消瘦」;在「呼吸道症狀」下與其關聯的第四層節點包括「長 期咳嗽」、「胸痛」、「呼吸困難」;在「消化道症狀」下與其關聯的第四層節點包括「厭食」、「惡 心」、「嘔吐」、「腹瀉」;在「神經系統症狀」下與其關聯的第四層節點包括「頭暈」、「頭痛」、「反 應遲鈍」;在「皮膚和黏膜損害」下與其關聯的第四層節點包括「瀰漫性丘疹」、「帶狀皰疹」、 「 口腔和咽部黏膜炎症」;在「抗HIV病毒藥物」下與其關聯的第四層節點包括「疊氮胸苷」、 「雙脫氧胞苷」、「雙脫氧肌苷」;在專家姓名下與其關聯的第四層節點包括該醫生擅長的項目 和所在醫院名稱。
全文摘要
本發明涉及一種基於本體和表達式的傳染病文獻標引方法,包括以下步驟一、定義傳染病領域本體,包括本體涉及的概念和概念之間的關係;二、採集傳染病領域信息資源,並按照預先定義的結構存儲到資料庫中;三、使用本體的概念組成的表達式對資料庫中的文獻進行標引;四、檢索時使用本體的概念組成的表達式構造檢索式,對資料庫中的文獻進行檢索。本發明基於傳染病領域的數據特點和用戶需求,提供了一種使用該領域的概念和關係構造本體,並使用表達式對信息資源進行知識標引的方法,能夠有效地組織該領域的信息資源,並為用戶提供更加精確和智能化的檢索與分析服務。
文檔編號G06F17/30GK102136009SQ20111011581
公開日2011年7月27日 申請日期2011年5月6日 優先權日2011年5月6日
發明者代濤, 孫曉北, 安新穎, 方安, 李楊, 池慧, 洪娜, 高東平 申請人:中國醫學科學院醫學信息研究所

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀