基於本體技術的結構化電子病歷生成方法
2023-05-26 04:56:06 3
專利名稱:基於本體技術的結構化電子病歷生成方法
技術領域:
本發明涉及醫療領域,尤其涉及一種基於本體技術的結構化電子病歷生成方法。
背景技術:
病歷是醫生在長期的臨床實踐過程中靈活運用醫學知識的經驗總結,客觀完整地記錄了患者的病情變化和診療的全過程,是很好的臨床教學和科學研究的素材。病歷存儲了大量的醫學信息,挖掘出病歷中隱含的病症特點、診療方案等有用信息,可以極大地促進醫學技術的發展。目前醫院使用的病歷大多是作為快速記錄的工具,只是對時間和書寫格式做了控制,並沒有完整的結構化病歷。同時醫學領域具有一定的主觀性和模糊性,不同病症之間術語會有所不同,相同症狀也會有不同的表述方式,醫生之間也有各自的書寫習慣,給病歷的研究工作帶來了極大的困難。病歷大多是自然語言文本,是非結構化的數據,不利於病歷的管理和查詢分析,需要對病歷進行預處理,得到結構化的數據。病歷結構化後具有某種規則的標識,同一患者不同時期的病歷可以按照某種標記聯繫在一起,相同病症的患者的病歷可以按照病症名聯繫在一起,有利於病歷的長期管理、群體病歷的查詢以及數據分析。傳統的病歷處理方法主要是基於關鍵字匹配,由醫學專家結合病症特點給定一組關鍵詞,然後對病歷進行關鍵詞匹配,提取出病歷中的特徵信息。中國專利CN200810007256.X提出了一種電子病歷的實現方法和裝置,先構建標準格式的元素,用於輸入標準化的診療數據,接著構建自由格式的章節,用於輸入自然語言形式的診療信息,以及嵌入元素,最後,構建章節構成的病歷,用於錄入診療記錄,實現了電子病歷自然文本與結構化文本的融合。中國專利CN201010271575.9提出了一種基於XML文檔的電子病歷模板製作方法,首先由用戶從電子病歷模板系統的病歷模板庫中選擇模板元素,然後由模板解析器對模板元素進行解析,最後由模板生成器生成所需的電子病歷模板,實現了不同用戶對病歷內容按需進行修訂,同時可以使修訂後的電子病歷模板規範化。本體論原是哲學的一個分支,後來延伸到語言、知識發現等領域。本體尚沒有明確的定義,在人工智慧領域比較普遍認同的定義是本體是共享概念的顯式形式化說明。直觀講,本體是將某個領域抽象成一些術語及術語之間的關係。本體技術特指在計算機領域運用軟體工具建立、存儲及描述概念或術語之間的關係,並模擬邏輯法則對術語關係進行推理的技術。近年來,隨著本體技術的日益成熟,醫學領域關於本體的研究也日益廣泛,如利用本體構建中醫知識庫、中醫藥一體化語言系統等。
發明內容
本發明為解決上述技術問題,提供一種基於本體技術的結構化電子病歷生成方法,包括以下步驟Al,對病歷文本進行分詞得到分詞結果文件,對分詞結果文件進行詞組篩選得到關鍵詞詞庫,利用關鍵詞類屬性關係構建病曆本體;
A2,定義所述病曆本體的輸出特徵變量格式,構建病歷特徵索引;A3,將臨床病歷進行預處理,得到臨床病歷分詞文件;A4,利用病歷特徵索引對所述臨床病歷分詞文件進行過濾查詢,輸出結構化電子病歷。優選地,在所述步驟Al中,所述分詞結果文件包括特殊詞性集,所述特殊詞性集通過添加用戶詞典增加特殊詞性關鍵詞,從而形成特殊詞性標註;所述關鍵詞類屬性關係包括整體與部分的關係、父類和子類的關係、等同關鍵詞的關係的一種。優選地,在所述步驟A2中,包括對所述病曆本體進行層次化遍歷,將屬於父類的屬性展開到對應的子類上,將屬於整體的屬性展開到對應的部分上,將等同關鍵詞聯結進行詞義展開,形成詞語組合,對所述詞語組合定義對應的輸出特徵變量格式從而構建病歷特徵索引。優選地,在所述步驟A3中,包括對所述臨床病歷按照時間點進行切分,並合併同一時間點的臨床病歷記錄,然後對所述臨床病歷進行分詞,得到不同時間點的臨床病歷分詞文件。優選地,在在所述步驟A4中,匹配過濾所述臨床病歷分詞文件得到詞組文件,利用病曆本體匹配過濾所述詞組文件得到語義詞語組合,所述語義詞語組合經所述病曆本體關鍵詞類屬性關係推理得到拓展詞語組合,所述拓展詞語組合匹配對應的輸出特徵變量格式輸出特徵變量及變量取值,所述輸出變量及變量取值替換病歷特徵索引中相應的索引,輸出按時間點標記的結構化電子病歷。優選地,通過正則表達式和所述分詞結果文件中的特殊詞性標註匹配過濾所述詞組文件,將逗號、空格和換行符作為切分段落和句子的標示。本發明的基於本體技術的結構化電子病歷生成方法,將病歷文本通過分詞拆分成詞語組合,通過病曆本體從拆分後的結果中獲得語義詞語組合,利用病歷特徵索引對所述臨床病歷分詞文件進行過濾查詢,輸出結構化電子病歷,能更好的保留病歷信息,實現病歷完整結構化,具有很高的準確度。
圖1為本發明一實施例生成病歷特徵索引流程圖;圖2為本發明一實施例生成電子病歷流程圖。
具體實施例方式下面將結合附圖以及具體實施例來對本發明作進一步詳細說明。本發明提供一種基於本體技術的結構化電子病歷生成方法,包括以下步驟如圖1所示,為本發明一實施例生成病歷特徵索引流程圖,Al,對病歷文本進行分詞得到分詞結果文件,對分詞結果文件進行詞組篩選得到關鍵詞詞庫,利用關鍵詞類屬性關係構建病曆本體,所述分詞結果文件包括特殊詞性集,所述特殊詞性集通過添加用戶詞典增加特殊詞性關鍵詞,從而形成特殊詞性標註;所述關鍵詞類屬性關係包括部分與整體的關係、父類和子類的關係、等同關鍵詞的關係的一種;A2,定義所述病曆本體的輸出特徵變量格式,構建病歷特徵索引,具體為對所述病曆本體進行層次化遍歷,將屬於父類的屬性展開到對應的子類上,將屬於整體的屬性展開到對應的部分上,將等同關鍵詞聯結進行詞義展開,形成詞語組合,對所述詞語組合定義對應的輸出特徵變量格式從而構建病歷特徵索引;如圖2所示,為本發明一實施例生成電子病歷流程圖,A3,將臨床病歷進行預處理,得到臨床病歷分詞文件,具體為對所述臨床病歷按照時間點進行切分,並合併同一時間點的臨床病歷記錄,然後對所述臨床病歷進行分詞,得到不同時間點的臨床病歷分詞文件;A4,利用病歷特徵索引對所述臨床病歷分詞文件進行過濾查詢,輸出結構化電子病歷,具體為通過正則表達式和所述分詞結果文件中的特殊詞性標註匹配過濾所述詞組文件,將逗號、空格和換行符作為切分段落和句子的標示,利用病曆本體匹配過濾所述詞組文件得到語義詞語組合,所述語義詞語組合經所述病曆本體關鍵詞類屬性關係推理得到拓展詞語組合,所述拓展詞語組合匹配對應的輸出特徵變量格式輸出特徵變量及變量取值,所述輸出變量及變量取值替換病歷特徵索引中相應的索引,輸出按時間點標記的結構化電子病歷。在上述實施例中,利用分詞軟體對病歷文本進行分詞,這裡的病歷文本不局限於文字文檔形式,也可為其它如HTML等帶有程式語言的病歷素材。在上述實施例中,詞組篩選是在領域專家指導下完成,所述病曆本體也在領域專家的指導下構建,不限於上述所述的關鍵詞類屬性關係,其它類與類、類與屬關係皆可。在上述實施例中,在形成詞語組合時一般採用枚舉的方法,病歷特徵索引列舉了通過遍歷已構建病曆本體後可以產生的所有特徵變量的集合,並對每個變量編制了序號。在上述實施例中,在對臨床病歷進行預處理時,任意一份臨床病歷,鑑於醫生之間書寫習慣不同,格式會有所差別,需要先對臨床病歷進行處理,刪除臨床病歷段落開頭的中文全形空格,統一時間書寫格式。在上述實施例中,所述語義詞語組合具體指符合語義的詞語組合;所述拓展詞語組合只加入了類屬性標記之後的詞語組合,其中已經過濾掉了不合理的組合。具體實施例本發明對中醫中風臨床病歷進行了實驗,利用中文分詞軟體(如ICTCLAS2012)對病歷文本進行分詞,採用Pr0tege3. 4. 8構建OWL DL語言形式的中醫中風病曆本體,並存儲在資料庫中。然後利用Java語言,構建具有語義文本處理能力的JavaBean組件,通過正則表達式和分詞結果中的特殊詞性標註來過濾詞語,將逗號、空格和換行符作為切分段落和句子的標示。然後通過Jena提供的java語義應用類庫以及Pellet推理機對病曆本體進行讀取、控制和輸出。通過Jena提供的本體層次遍歷函數獲取病曆本體中的父類、子類、屬性關係的詞語組合,對獲取的每一種詞語組合,利用Inference接口逐一進行規則添加,定義每種詞語組合對應的輸出特徵變量形式。利用SPARQL對病曆本體中的關鍵詞進行檢索,對預處理後的臨床病歷分詞文件進行篩選和查詢,輸出以CSV格式存儲的多維稀疏矩陣結構化病歷。此基於本體技術的結構化電子病歷生成方法相比於現有的基於關鍵詞匹配的方法,能更好地保留病歷信息,實現病歷的結構化,具有很高的準確度。可以理解的是,對於本領域的普通技術人員來說,可以根據本發明的技術構思做出其他各種相應的改變與變形,而所有這些改變與變形都應屬於本發明權利要求的保護範圍。
權利要求
1.一種基於本體技術的結構化電子病歷生成方法,其特徵在於,包括以下步驟 Al,對病歷文本進行分詞得到分詞結果文件,對分詞結果文件進行詞組篩選得到關鍵詞詞庫,利用關鍵詞類屬性關係構建病曆本體; A2,定義所述病曆本體的輸出特徵變量格式,構建病歷特徵索引; A3,將臨床病歷進行預處理,得到臨床病歷分詞文件; A4,利用病歷特徵索引對所述臨床病歷分詞文件進行過濾查詢,輸出結構化電子病歷。
2.根據權利要求1所述的基於本體技術的結構化電子病歷生成方法,其特徵在於在所述步驟Al中,所述分詞結果文件包括特殊詞性集,所述特殊詞性集通過添加用戶詞典增加特殊詞性關鍵詞,從而形成特殊詞性標註;所述關鍵詞類屬性關係包括整體與部分的關係、父類和子類的關係、等同關鍵詞的關係的一種。
3.根據權利要求2所述的基於本體技術的結構化電子病歷生成方法,其特徵在於在所述步驟A2中,包括對所述病曆本體進行層次化遍歷,將屬於父類的屬性展開到對應的子類上,將屬於整體的屬性展開到對應的部分上,將等同關鍵詞聯結進行詞義展開,形成詞語組合,對所述詞語組合定義對應的輸出特徵變量格式從而構建病歷特徵索引。
4.根據權利要求1或3所述的基於本體技術的結構化電子病歷生成方法,其特徵在於在所述步驟A3中,包括對所述臨床病歷按照時間點進行切分,並合併同一時間點的臨床病歷記錄,然後對所述臨床病歷進行分詞,得到不同時間點的臨床病歷分詞文件。
5.根據權利要求4所述的基於本體技術的結構化電子病歷生成方法,其特徵在於在所述步驟A4中,匹配過濾所述臨床病歷分詞文件得到詞組文件,利用病曆本體匹配過濾所述詞組文件得到語義詞語組合,所述語義詞語組合經所述病曆本體關鍵詞類屬性關係推理得到拓展詞語組合,所述拓展詞語組合匹配對應的輸出特徵變量格式輸出特徵變量及變量取值,所述輸出變量及變量取值替換病歷特徵索引中相應的索引,輸出按時間點標記的結構化電子病歷。
6.根據權利要求5所述的基於本體技術的結構化電子病歷生成方法,其特徵在於通過正則表達式和所述分詞結果文件中的特殊詞性標註匹配過濾所述詞組文件,將逗號、空格和換行符作為切分段落和句子的標不。
全文摘要
本發明提供一種基於本體技術的結構化電子病歷生成方法,其特徵在於,包括以下步驟對病歷文本進行分詞得到分詞結果文件,對分詞結果文件進行詞組篩選得到關鍵詞詞庫,利用關鍵詞類屬性關係構建病曆本體;定義所述病曆本體的輸出特徵變量格式,構建病歷特徵索引;將臨床病歷進行預處理,得到臨床病歷分詞文件;將臨床病歷分詞文件與病歷特徵索引進行匹配,輸出結構化電子病歷。本發明的電子病歷生成方法能更完整的保留病歷文本中的信息且能更好的挖掘病歷中隱含的信息。
文檔編號G06F19/00GK103020453SQ20121054434
公開日2013年4月3日 申請日期2012年12月15日 優先權日2012年12月15日
發明者蔡雲鵬, 楊玉潔, 馬爭輝, 樊小毛 申請人:中國科學院深圳先進技術研究院