新四季網

基於本體技術的結構化電子病歷生成方法

2023-05-26 04:56:06 3

專利名稱:基於本體技術的結構化電子病歷生成方法
技術領域:
本發明涉及醫療領域,尤其涉及一種基於本體技術的結構化電子病歷生成方法。
背景技術:
病歷是醫生在長期的臨床實踐過程中靈活運用醫學知識的經驗總結,客觀完整地記錄了患者的病情變化和診療的全過程,是很好的臨床教學和科學研究的素材。病歷存儲了大量的醫學信息,挖掘出病歷中隱含的病症特點、診療方案等有用信息,可以極大地促進醫學技術的發展。目前醫院使用的病歷大多是作為快速記錄的工具,只是對時間和書寫格式做了控制,並沒有完整的結構化病歷。同時醫學領域具有一定的主觀性和模糊性,不同病症之間術語會有所不同,相同症狀也會有不同的表述方式,醫生之間也有各自的書寫習慣,給病歷的研究工作帶來了極大的困難。病歷大多是自然語言文本,是非結構化的數據,不利於病歷的管理和查詢分析,需要對病歷進行預處理,得到結構化的數據。病歷結構化後具有某種規則的標識,同一患者不同時期的病歷可以按照某種標記聯繫在一起,相同病症的患者的病歷可以按照病症名聯繫在一起,有利於病歷的長期管理、群體病歷的查詢以及數據分析。傳統的病歷處理方法主要是基於關鍵字匹配,由醫學專家結合病症特點給定一組關鍵詞,然後對病歷進行關鍵詞匹配,提取出病歷中的特徵信息。中國專利CN200810007256.X提出了一種電子病歷的實現方法和裝置,先構建標準格式的元素,用於輸入標準化的診療數據,接著構建自由格式的章節,用於輸入自然語言形式的診療信息,以及嵌入元素,最後,構建章節構成的病歷,用於錄入診療記錄,實現了電子病歷自然文本與結構化文本的融合。中國專利CN201010271575.9提出了一種基於XML文檔的電子病歷模板製作方法,首先由用戶從電子病歷模板系統的病歷模板庫中選擇模板元素,然後由模板解析器對模板元素進行解析,最後由模板生成器生成所需的電子病歷模板,實現了不同用戶對病歷內容按需進行修訂,同時可以使修訂後的電子病歷模板規範化。本體論原是哲學的一個分支,後來延伸到語言、知識發現等領域。本體尚沒有明確的定義,在人工智慧領域比較普遍認同的定義是本體是共享概念的顯式形式化說明。直觀講,本體是將某個領域抽象成一些術語及術語之間的關係。本體技術特指在計算機領域運用軟體工具建立、存儲及描述概念或術語之間的關係,並模擬邏輯法則對術語關係進行推理的技術。近年來,隨著本體技術的日益成熟,醫學領域關於本體的研究也日益廣泛,如利用本體構建中醫知識庫、中醫藥一體化語言系統等。

發明內容
本發明為解決上述技術問題,提供一種基於本體技術的結構化電子病歷生成方法,包括以下步驟Al,對病歷文本進行分詞得到分詞結果文件,對分詞結果文件進行詞組篩選得到關鍵詞詞庫,利用關鍵詞類屬性關係構建病曆本體;
A2,定義所述病曆本體的輸出特徵變量格式,構建病歷特徵索引;A3,將臨床病歷進行預處理,得到臨床病歷分詞文件;A4,利用病歷特徵索引對所述臨床病歷分詞文件進行過濾查詢,輸出結構化電子病歷。優選地,在所述步驟Al中,所述分詞結果文件包括特殊詞性集,所述特殊詞性集通過添加用戶詞典增加特殊詞性關鍵詞,從而形成特殊詞性標註;所述關鍵詞類屬性關係包括整體與部分的關係、父類和子類的關係、等同關鍵詞的關係的一種。優選地,在所述步驟A2中,包括對所述病曆本體進行層次化遍歷,將屬於父類的屬性展開到對應的子類上,將屬於整體的屬性展開到對應的部分上,將等同關鍵詞聯結進行詞義展開,形成詞語組合,對所述詞語組合定義對應的輸出特徵變量格式從而構建病歷特徵索引。優選地,在所述步驟A3中,包括對所述臨床病歷按照時間點進行切分,並合併同一時間點的臨床病歷記錄,然後對所述臨床病歷進行分詞,得到不同時間點的臨床病歷分詞文件。優選地,在在所述步驟A4中,匹配過濾所述臨床病歷分詞文件得到詞組文件,利用病曆本體匹配過濾所述詞組文件得到語義詞語組合,所述語義詞語組合經所述病曆本體關鍵詞類屬性關係推理得到拓展詞語組合,所述拓展詞語組合匹配對應的輸出特徵變量格式輸出特徵變量及變量取值,所述輸出變量及變量取值替換病歷特徵索引中相應的索引,輸出按時間點標記的結構化電子病歷。優選地,通過正則表達式和所述分詞結果文件中的特殊詞性標註匹配過濾所述詞組文件,將逗號、空格和換行符作為切分段落和句子的標示。本發明的基於本體技術的結構化電子病歷生成方法,將病歷文本通過分詞拆分成詞語組合,通過病曆本體從拆分後的結果中獲得語義詞語組合,利用病歷特徵索引對所述臨床病歷分詞文件進行過濾查詢,輸出結構化電子病歷,能更好的保留病歷信息,實現病歷完整結構化,具有很高的準確度。


圖1為本發明一實施例生成病歷特徵索引流程圖;圖2為本發明一實施例生成電子病歷流程圖。
具體實施例方式下面將結合附圖以及具體實施例來對本發明作進一步詳細說明。本發明提供一種基於本體技術的結構化電子病歷生成方法,包括以下步驟如圖1所示,為本發明一實施例生成病歷特徵索引流程圖,Al,對病歷文本進行分詞得到分詞結果文件,對分詞結果文件進行詞組篩選得到關鍵詞詞庫,利用關鍵詞類屬性關係構建病曆本體,所述分詞結果文件包括特殊詞性集,所述特殊詞性集通過添加用戶詞典增加特殊詞性關鍵詞,從而形成特殊詞性標註;所述關鍵詞類屬性關係包括部分與整體的關係、父類和子類的關係、等同關鍵詞的關係的一種;A2,定義所述病曆本體的輸出特徵變量格式,構建病歷特徵索引,具體為對所述病曆本體進行層次化遍歷,將屬於父類的屬性展開到對應的子類上,將屬於整體的屬性展開到對應的部分上,將等同關鍵詞聯結進行詞義展開,形成詞語組合,對所述詞語組合定義對應的輸出特徵變量格式從而構建病歷特徵索引;如圖2所示,為本發明一實施例生成電子病歷流程圖,A3,將臨床病歷進行預處理,得到臨床病歷分詞文件,具體為對所述臨床病歷按照時間點進行切分,並合併同一時間點的臨床病歷記錄,然後對所述臨床病歷進行分詞,得到不同時間點的臨床病歷分詞文件;A4,利用病歷特徵索引對所述臨床病歷分詞文件進行過濾查詢,輸出結構化電子病歷,具體為通過正則表達式和所述分詞結果文件中的特殊詞性標註匹配過濾所述詞組文件,將逗號、空格和換行符作為切分段落和句子的標示,利用病曆本體匹配過濾所述詞組文件得到語義詞語組合,所述語義詞語組合經所述病曆本體關鍵詞類屬性關係推理得到拓展詞語組合,所述拓展詞語組合匹配對應的輸出特徵變量格式輸出特徵變量及變量取值,所述輸出變量及變量取值替換病歷特徵索引中相應的索引,輸出按時間點標記的結構化電子病歷。在上述實施例中,利用分詞軟體對病歷文本進行分詞,這裡的病歷文本不局限於文字文檔形式,也可為其它如HTML等帶有程式語言的病歷素材。在上述實施例中,詞組篩選是在領域專家指導下完成,所述病曆本體也在領域專家的指導下構建,不限於上述所述的關鍵詞類屬性關係,其它類與類、類與屬關係皆可。在上述實施例中,在形成詞語組合時一般採用枚舉的方法,病歷特徵索引列舉了通過遍歷已構建病曆本體後可以產生的所有特徵變量的集合,並對每個變量編制了序號。在上述實施例中,在對臨床病歷進行預處理時,任意一份臨床病歷,鑑於醫生之間書寫習慣不同,格式會有所差別,需要先對臨床病歷進行處理,刪除臨床病歷段落開頭的中文全形空格,統一時間書寫格式。在上述實施例中,所述語義詞語組合具體指符合語義的詞語組合;所述拓展詞語組合只加入了類屬性標記之後的詞語組合,其中已經過濾掉了不合理的組合。具體實施例本發明對中醫中風臨床病歷進行了實驗,利用中文分詞軟體(如ICTCLAS2012)對病歷文本進行分詞,採用Pr0tege3. 4. 8構建OWL DL語言形式的中醫中風病曆本體,並存儲在資料庫中。然後利用Java語言,構建具有語義文本處理能力的JavaBean組件,通過正則表達式和分詞結果中的特殊詞性標註來過濾詞語,將逗號、空格和換行符作為切分段落和句子的標示。然後通過Jena提供的java語義應用類庫以及Pellet推理機對病曆本體進行讀取、控制和輸出。通過Jena提供的本體層次遍歷函數獲取病曆本體中的父類、子類、屬性關係的詞語組合,對獲取的每一種詞語組合,利用Inference接口逐一進行規則添加,定義每種詞語組合對應的輸出特徵變量形式。利用SPARQL對病曆本體中的關鍵詞進行檢索,對預處理後的臨床病歷分詞文件進行篩選和查詢,輸出以CSV格式存儲的多維稀疏矩陣結構化病歷。此基於本體技術的結構化電子病歷生成方法相比於現有的基於關鍵詞匹配的方法,能更好地保留病歷信息,實現病歷的結構化,具有很高的準確度。可以理解的是,對於本領域的普通技術人員來說,可以根據本發明的技術構思做出其他各種相應的改變與變形,而所有這些改變與變形都應屬於本發明權利要求的保護範圍。
權利要求
1.一種基於本體技術的結構化電子病歷生成方法,其特徵在於,包括以下步驟 Al,對病歷文本進行分詞得到分詞結果文件,對分詞結果文件進行詞組篩選得到關鍵詞詞庫,利用關鍵詞類屬性關係構建病曆本體; A2,定義所述病曆本體的輸出特徵變量格式,構建病歷特徵索引; A3,將臨床病歷進行預處理,得到臨床病歷分詞文件; A4,利用病歷特徵索引對所述臨床病歷分詞文件進行過濾查詢,輸出結構化電子病歷。
2.根據權利要求1所述的基於本體技術的結構化電子病歷生成方法,其特徵在於在所述步驟Al中,所述分詞結果文件包括特殊詞性集,所述特殊詞性集通過添加用戶詞典增加特殊詞性關鍵詞,從而形成特殊詞性標註;所述關鍵詞類屬性關係包括整體與部分的關係、父類和子類的關係、等同關鍵詞的關係的一種。
3.根據權利要求2所述的基於本體技術的結構化電子病歷生成方法,其特徵在於在所述步驟A2中,包括對所述病曆本體進行層次化遍歷,將屬於父類的屬性展開到對應的子類上,將屬於整體的屬性展開到對應的部分上,將等同關鍵詞聯結進行詞義展開,形成詞語組合,對所述詞語組合定義對應的輸出特徵變量格式從而構建病歷特徵索引。
4.根據權利要求1或3所述的基於本體技術的結構化電子病歷生成方法,其特徵在於在所述步驟A3中,包括對所述臨床病歷按照時間點進行切分,並合併同一時間點的臨床病歷記錄,然後對所述臨床病歷進行分詞,得到不同時間點的臨床病歷分詞文件。
5.根據權利要求4所述的基於本體技術的結構化電子病歷生成方法,其特徵在於在所述步驟A4中,匹配過濾所述臨床病歷分詞文件得到詞組文件,利用病曆本體匹配過濾所述詞組文件得到語義詞語組合,所述語義詞語組合經所述病曆本體關鍵詞類屬性關係推理得到拓展詞語組合,所述拓展詞語組合匹配對應的輸出特徵變量格式輸出特徵變量及變量取值,所述輸出變量及變量取值替換病歷特徵索引中相應的索引,輸出按時間點標記的結構化電子病歷。
6.根據權利要求5所述的基於本體技術的結構化電子病歷生成方法,其特徵在於通過正則表達式和所述分詞結果文件中的特殊詞性標註匹配過濾所述詞組文件,將逗號、空格和換行符作為切分段落和句子的標不。
全文摘要
本發明提供一種基於本體技術的結構化電子病歷生成方法,其特徵在於,包括以下步驟對病歷文本進行分詞得到分詞結果文件,對分詞結果文件進行詞組篩選得到關鍵詞詞庫,利用關鍵詞類屬性關係構建病曆本體;定義所述病曆本體的輸出特徵變量格式,構建病歷特徵索引;將臨床病歷進行預處理,得到臨床病歷分詞文件;將臨床病歷分詞文件與病歷特徵索引進行匹配,輸出結構化電子病歷。本發明的電子病歷生成方法能更完整的保留病歷文本中的信息且能更好的挖掘病歷中隱含的信息。
文檔編號G06F19/00GK103020453SQ20121054434
公開日2013年4月3日 申請日期2012年12月15日 優先權日2012年12月15日
發明者蔡雲鵬, 楊玉潔, 馬爭輝, 樊小毛 申請人:中國科學院深圳先進技術研究院

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀