新四季網

一種基於語義索引的數據檢索方法

2023-04-24 06:54:56 1

專利名稱:一種基於語義索引的數據檢索方法
技術領域:
本發明涉及一種數據檢索領域,更具體地,涉及一種基於語義索引的數據檢索方法。
背景技術:
在工程技術領域,技術系統的規模和複雜度的不斷擴張,使其維護已經變得越來 越困難。而技術資料、技術手冊等用於幫助維護技術系統的技術文檔在數量上也急劇增加。 如何在大量的技術文檔中檢索並適時提供用戶需求的信息是一個急需解決的現實問題。傳 統的關鍵詞檢索方法在信息檢索的發展過程中佔有非常重要的地位,但是它們的缺點也非 常明顯。用戶輸入的關鍵詞不能很好的描述用戶想查找的技術問題是什麼,被檢索技術文 檔的關鍵詞索引也只是該技術文檔中出現的高頻詞集合,不能標識出該技術文檔能解決的 具體技術問題。關鍵詞檢索過程只進行形式上的匹配,不能進行語義層次的檢索,檢索結果 常常無法找到解決技術問題的技術文檔或者該技術文檔只是描述了和用戶輸入關鍵詞相 關的一些內容,而未描述用戶關心的技術問題解決方法,其檢索質量並不能令人滿意。因此,必須尋求一種高效的、支持語義的知識檢索和知識提供方法,從根本上提高 技術資料、技術手冊在幫助維護技術系統時的有效性。

發明內容
本發明要解決的技術問題是現有技術的檢索方法中只進行形式上的匹配,從而導 致所檢索的文檔不能有效解決用戶的技術問題。為解決上述技術問題,本發明提供了一種基於語義索引的數據檢索方法,包括下 列步驟對用戶問題進行語義分析,抽取所述用戶問題的功能描述作為語義檢索式,其中 所述功能描述用「動作-對象」來表示;對技術文檔進行語義分析,抽取所述技術文檔的功能描述作為文檔語義索引;匹配所述語義檢索式和所述文檔語義索引。在上述方法中,所述語義分析進一步包括以下步驟對所述用戶問題進行預處理;對所述用戶問題進行分詞和詞性標註;對所述用戶問題進行句法分析。在上述方法中,所述對所述用戶問題進行句法分析進一步包括以下步驟首先根據距離疑問詞最近原則確定所述用戶問題的謂語動詞;然後利用疑問詞和所述謂語動詞的距離信息,確定所述用戶問題中其他各詞所擔 當的句法成分。在上述方法中,所述抽取所述用戶問題的功能描述進一步包括下列步驟將所述用戶問題中的謂語動詞作為動作;
對於謂語動詞在疑問詞之後且二者距離為0,且謂語動詞後有名詞性成分的情況, 則抽取所述名詞性成分作為對象;對於謂語動詞在疑問詞之後且二者距離為0,且疑問詞前面有系動詞,謂語動詞後 面無名詞性成分的情況,則抽取疑問詞之前的名詞性成分作為對象。在上述方法中,所述抽取所述技術文檔的功能描述進一步包括下列步驟對於單句,將所述技術文檔中句子的謂語動詞作為動作,將賓語作為對象;對於複句,根據所述單句抽取方法分別對每個分句抽取功能描述。在上述方法中,所述單句是複雜單句,而且如果主語是複雜短語,則將所述技術文檔中句子的謂語動詞作為動作,將賓語作 為對象;如果賓語是複雜短語,則將謂語動詞和賓語中的每個短語組合來抽取功能描述, 即"V+01+02 — V+01、V+02」,其中V為謂語動詞,01和02分別為賓語中的兩個短語;如果謂語是複雜短語,則將謂語中的每個動詞和賓語組合來抽取功能描述,即 "V1+V2+0 — Vl+0、V2+0」,其中Vl和V2分別是謂語中的兩個動詞短語,0為賓語。在上述方法中,在所述匹配所述語義檢索式和所述文檔語義索引之前,還包括下 列步驟對所述語義檢索式和所述文檔語義索引進行分類。在上述方法中,所述分類的步驟包括將所述語義檢索式或所述文檔語義索引的對象和參數進行比較;所述對象僅包含參數的所述語義檢索式或所述文檔語義索引是VP語義檢索式或 VP文檔語義索引;所述對象是定賓結構,且定語為名詞、賓語為參數的所述語義檢索式或所述文檔 語義索引是VNP語義檢索式或VNP文檔語義索引;所述對象不包含任意參數的的所述語義檢索式或所述文檔語義索引是VN語義檢 索式或VN文檔語義索引。在上述方法中,所述匹配所述語義檢索式和所述文檔語義索引進一步包括下列步 驟對於VN語義檢索式和VP語義檢索式,分別與VN文檔語義索引和VP文檔語義索 引進行匹配;對於VNP語義檢索式,首先與VNP文檔語義索引進行匹配,如果沒有相匹配的VNP 文檔語義索引,則與VP文檔語義索引進行匹配。本發明的有益效果在於提供了一種高效的、支持語義的知識檢索和知識提供方 法,從根本上提高技術資料、技術手冊在幫助維護技術系統時的有效性。


圖1是根據本發明一個具體實施例的數據檢索流程圖;圖2是根據本發明一個具體實施例的提取語義檢索式的流程圖;圖3是根據本發明一個具體實施例的分類語義檢索式的流程圖;圖4是根據本發明一個具體實施例的匹配VN語義檢索式和文檔語義索引的流程圖;圖5是根據本發明一個具體實施例的匹配VNP語義檢索式和文檔語義索引的流程 圖。
具體實施例方式為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖,對根據本發 明一個實施例的基於語義索引的數據檢索方法進一步詳細說明。應當理解,此處所描述的 具體實施例僅僅用以解釋本發明,並不用於限定本發明。考慮如何將用戶問題和被檢索技術文檔的索引表示為能在語義層次表述一個技 術問題的形式。在技術領域中,一個功能描述可用於表示一個技術功能,該技術功能用於解 決領域內的技術問題。具體地,功能描述可以用「動作(V)-對象(0)」來表示,例如氣象 學中「測量-大氣壓力」、光學中「增加-光導纖維折光指數」、半導體學中「控制-半導體晶 片蝕刻速度均勻性」等。其中,對動作(V)和對象(0)有如下要求對於V,提取句子的謂語 動詞作為V。具體而言,動詞(ν)表示動作、行為,人或動物的心理活動、生理狀態,事件的存 現、變化等,在句子中主要充當謂語。動詞可進一步細分動作動詞(ην)、趨向動詞(dv)、判 斷動詞(lv)、能願動詞(uv)等。由於功能描述中的V表示的是一個動作,因此只有謂語是 「動作動詞ην」才符合模式要求,其他類型的動詞,如「判斷動詞lv」如「是、否」,「能願動詞 mv」如「能、能夠」等均不符合模式要求。對於0,其是句子中的名詞性成分(名詞或者名詞 性短語)。在本發明中,從用戶問題中提取一個功能描述作為語義檢索式,從被檢索技術文 檔中提取一個功能描述作為文檔語義索引,對語義檢索式和文檔語義索引進行分類、匹配, 則可以獲得比關鍵詞檢索更準確的語義層次的檢索結果。圖1示出了根據本發明一個具體實施例的數據檢索流程圖,如其所示,本發明的 數據檢索具體包括下列步驟對用戶問題進行語義分析,並提取功能描述作為其語義檢索式。其中用戶問題可 以通過用戶輸入,且可以是用戶想獲得解決的任何技術問題,如「如何改裝排氣管」。用戶問題一般是問句的形式,考慮到問句的句型特殊性,對其做特定語義分析,以 獲得其語義檢索式。且上述功能描述提取僅針對一個句子內存在的功能描述關係進行提 取,不處理多個句子間、段落內、段落間和篇章內等類型的功能描述關係提取。首先,對用戶問題進行預處理。這可以通過文本預處理來實現,該過程包括刪 除一個電子或者數字形式文本中的未形成自然語言文本部分的所有符號,如段落符、格式 符等;檢測和糾正文本中的誤匹配和錯誤,如文字識別錯誤、輸入錯誤等;將文本劃分成句 子。文本預處理屬於常用技術,此處不詳細說明。對經過預處理的用戶問題進行分詞和詞性標註。分詞和詞性標註屬於常用技術, 例如可以採用正向最大匹配分詞算法進行分詞,採用863詞性標註集進行詞性標註,此處 不詳細說明。由於本發明針對工程技術領域,所以,優選地,補充了專業詞典以提高分詞和 詞性標註準確度。表1給出863詞性標註集及含義,方便後續對提取功能描述的進一步說 明。表1 863詞性標註集及含義
權利要求
1.一種基於語義索引的數據檢索方法,包括下列步驟對用戶問題進行語義分析,抽取所述用戶問題的功能描述作為語義檢索式,其中所述 功能描述用「動作-對象」來表示;對技術文檔進行語義分析,抽取所述技術文檔的功能描述作為文檔語義索引; 匹配所述語義檢索式和所述文檔語義索引。
2.根據權利要求1所述的方法,其特徵在於,所述語義分析進一步包括以下步驟 對所述用戶問題進行預處理;對所述用戶問題進行分詞和詞性標註; 對所述用戶問題進行句法分析。
3.根據權利要求2所述的方法,其特徵在於,所述對所述用戶問題進行句法分析進一 步包括以下步驟首先根據距離疑問詞最近原則確定所述用戶問題的謂語動詞; 然後利用疑問詞和所述謂語動詞的距離信息,確定所述用戶問題中其他各詞所擔當的 句法成分。
4.根據權利要求2或3所述的方法,其特徵在於,所述抽取所述用戶問題的功能描述進 一步包括下列步驟將所述用戶問題中的謂語動詞作為動作;對於謂語動詞在疑問詞之後且二者距離為0,且謂語動詞後有名詞性成分的情況,則抽 取所述名詞性成分作為對象;對於謂語動詞在疑問詞之後且二者距離為0,且疑問詞前面有系動詞,謂語動詞後面無 名詞性成分的情況,則抽取疑問詞之前的名詞性成分作為對象。
5.根據權利要求1所述的方法,其特徵在於,所述抽取所述技術文檔的功能描述進一 步包括下列步驟對於單句,將所述技術文檔中句子的謂語動詞作為動作,將賓語作為對象; 對於複句,根據所述單句抽取方法分別對每個分句抽取功能描述。
6.根據權利要求5所述的方法,其特徵在於,所述單句是複雜單句,而且如果主語是複雜短語,則將所述技術文檔中句子的謂語動詞作為動作,將賓語作為對象;如果賓語是複雜短語,則將謂語動詞和賓語中的每個短語組合來抽取功能描述,即 "V+01+02 — V+01、V+02」,其中V為謂語動詞,01和02分別為賓語中的兩個短語;如果謂語是複雜短語,則將謂語中的每個動詞和賓語組合來抽取功能描述,即 "V1+V2+0 — Vl+0、V2+0」,其中Vl和V2分別是謂語中的兩個動詞短語,0為賓語。
7.根據權利要求1所述的方法,其特徵在於,在所述匹配所述語義檢索式和所述文檔 語義索引之前,還包括下列步驟對所述語義檢索式和所述文檔語義索引進行分類。
8.根據權利要求7所述的方法,其特徵在於,所述分類的步驟包括 將所述語義檢索式或所述文檔語義索引的對象和參數進行比較;所述對象僅包含參數的所述語義檢索式或所述文檔語義索引是VP語義檢索式或VP文 檔語義索引;所述對象是定賓結構,且定語為名詞、賓語為參數的所述語義檢索式或所述文檔語義 索引是VNP語義檢索式或VNP文檔語義索引;所述對象不包含任意參數的的所述語義檢索式或所述文檔語義索引是VN語義檢索式 或VN文檔語義索引。
9.根據權利要求8所述的方法,其特徵在於,所述匹配所述語義檢索式和所述文檔語 義索引進一步包括下列步驟對於VN語義檢索式和VP語義檢索式,分別與VN文檔語義索引和VP文檔語義索引進 行匹配;對於VNP語義檢索式,首先與VNP文檔語義索引進行匹配,如果沒有相匹配的VNP文檔 語義索引,則與VP文檔語義索引進行匹配。
全文摘要
本發明提供一種基於語義索引的數據檢索方法,包括下列步驟對用戶問題進行語義分析,抽取所述用戶問題的功能描述作為語義檢索式,其中所述功能描述用「動作-對象」來表示;對技術文檔進行語義分析,抽取所述技術文檔的功能描述作為文檔語義索引;匹配所述語義檢索式和所述文檔語義索引。該方法有效提高了技術資料、技術手冊在幫助維護技術系統時的有效性,能夠更高質量地檢索出有效解決了用戶問題的文檔。
文檔編號G06F17/30GK102117283SQ20091024399
公開日2011年7月6日 申請日期2009年12月30日 優先權日2009年12月30日
發明者寧保明, 段海波, 趙琦, 高建忠 申請人:安世亞太科技(北京)有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀