一種基於語義索引的數據檢索方法
2023-04-24 06:54:56 1
專利名稱:一種基於語義索引的數據檢索方法
技術領域:
本發明涉及一種數據檢索領域,更具體地,涉及一種基於語義索引的數據檢索方法。
背景技術:
在工程技術領域,技術系統的規模和複雜度的不斷擴張,使其維護已經變得越來 越困難。而技術資料、技術手冊等用於幫助維護技術系統的技術文檔在數量上也急劇增加。 如何在大量的技術文檔中檢索並適時提供用戶需求的信息是一個急需解決的現實問題。傳 統的關鍵詞檢索方法在信息檢索的發展過程中佔有非常重要的地位,但是它們的缺點也非 常明顯。用戶輸入的關鍵詞不能很好的描述用戶想查找的技術問題是什麼,被檢索技術文 檔的關鍵詞索引也只是該技術文檔中出現的高頻詞集合,不能標識出該技術文檔能解決的 具體技術問題。關鍵詞檢索過程只進行形式上的匹配,不能進行語義層次的檢索,檢索結果 常常無法找到解決技術問題的技術文檔或者該技術文檔只是描述了和用戶輸入關鍵詞相 關的一些內容,而未描述用戶關心的技術問題解決方法,其檢索質量並不能令人滿意。因此,必須尋求一種高效的、支持語義的知識檢索和知識提供方法,從根本上提高 技術資料、技術手冊在幫助維護技術系統時的有效性。
發明內容
本發明要解決的技術問題是現有技術的檢索方法中只進行形式上的匹配,從而導 致所檢索的文檔不能有效解決用戶的技術問題。為解決上述技術問題,本發明提供了一種基於語義索引的數據檢索方法,包括下 列步驟對用戶問題進行語義分析,抽取所述用戶問題的功能描述作為語義檢索式,其中 所述功能描述用「動作-對象」來表示;對技術文檔進行語義分析,抽取所述技術文檔的功能描述作為文檔語義索引;匹配所述語義檢索式和所述文檔語義索引。在上述方法中,所述語義分析進一步包括以下步驟對所述用戶問題進行預處理;對所述用戶問題進行分詞和詞性標註;對所述用戶問題進行句法分析。在上述方法中,所述對所述用戶問題進行句法分析進一步包括以下步驟首先根據距離疑問詞最近原則確定所述用戶問題的謂語動詞;然後利用疑問詞和所述謂語動詞的距離信息,確定所述用戶問題中其他各詞所擔 當的句法成分。在上述方法中,所述抽取所述用戶問題的功能描述進一步包括下列步驟將所述用戶問題中的謂語動詞作為動作;
對於謂語動詞在疑問詞之後且二者距離為0,且謂語動詞後有名詞性成分的情況, 則抽取所述名詞性成分作為對象;對於謂語動詞在疑問詞之後且二者距離為0,且疑問詞前面有系動詞,謂語動詞後 面無名詞性成分的情況,則抽取疑問詞之前的名詞性成分作為對象。在上述方法中,所述抽取所述技術文檔的功能描述進一步包括下列步驟對於單句,將所述技術文檔中句子的謂語動詞作為動作,將賓語作為對象;對於複句,根據所述單句抽取方法分別對每個分句抽取功能描述。在上述方法中,所述單句是複雜單句,而且如果主語是複雜短語,則將所述技術文檔中句子的謂語動詞作為動作,將賓語作 為對象;如果賓語是複雜短語,則將謂語動詞和賓語中的每個短語組合來抽取功能描述, 即"V+01+02 — V+01、V+02」,其中V為謂語動詞,01和02分別為賓語中的兩個短語;如果謂語是複雜短語,則將謂語中的每個動詞和賓語組合來抽取功能描述,即 "V1+V2+0 — Vl+0、V2+0」,其中Vl和V2分別是謂語中的兩個動詞短語,0為賓語。在上述方法中,在所述匹配所述語義檢索式和所述文檔語義索引之前,還包括下 列步驟對所述語義檢索式和所述文檔語義索引進行分類。在上述方法中,所述分類的步驟包括將所述語義檢索式或所述文檔語義索引的對象和參數進行比較;所述對象僅包含參數的所述語義檢索式或所述文檔語義索引是VP語義檢索式或 VP文檔語義索引;所述對象是定賓結構,且定語為名詞、賓語為參數的所述語義檢索式或所述文檔 語義索引是VNP語義檢索式或VNP文檔語義索引;所述對象不包含任意參數的的所述語義檢索式或所述文檔語義索引是VN語義檢 索式或VN文檔語義索引。在上述方法中,所述匹配所述語義檢索式和所述文檔語義索引進一步包括下列步 驟對於VN語義檢索式和VP語義檢索式,分別與VN文檔語義索引和VP文檔語義索 引進行匹配;對於VNP語義檢索式,首先與VNP文檔語義索引進行匹配,如果沒有相匹配的VNP 文檔語義索引,則與VP文檔語義索引進行匹配。本發明的有益效果在於提供了一種高效的、支持語義的知識檢索和知識提供方 法,從根本上提高技術資料、技術手冊在幫助維護技術系統時的有效性。
圖1是根據本發明一個具體實施例的數據檢索流程圖;圖2是根據本發明一個具體實施例的提取語義檢索式的流程圖;圖3是根據本發明一個具體實施例的分類語義檢索式的流程圖;圖4是根據本發明一個具體實施例的匹配VN語義檢索式和文檔語義索引的流程圖;圖5是根據本發明一個具體實施例的匹配VNP語義檢索式和文檔語義索引的流程 圖。
具體實施例方式為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖,對根據本發 明一個實施例的基於語義索引的數據檢索方法進一步詳細說明。應當理解,此處所描述的 具體實施例僅僅用以解釋本發明,並不用於限定本發明。考慮如何將用戶問題和被檢索技術文檔的索引表示為能在語義層次表述一個技 術問題的形式。在技術領域中,一個功能描述可用於表示一個技術功能,該技術功能用於解 決領域內的技術問題。具體地,功能描述可以用「動作(V)-對象(0)」來表示,例如氣象 學中「測量-大氣壓力」、光學中「增加-光導纖維折光指數」、半導體學中「控制-半導體晶 片蝕刻速度均勻性」等。其中,對動作(V)和對象(0)有如下要求對於V,提取句子的謂語 動詞作為V。具體而言,動詞(ν)表示動作、行為,人或動物的心理活動、生理狀態,事件的存 現、變化等,在句子中主要充當謂語。動詞可進一步細分動作動詞(ην)、趨向動詞(dv)、判 斷動詞(lv)、能願動詞(uv)等。由於功能描述中的V表示的是一個動作,因此只有謂語是 「動作動詞ην」才符合模式要求,其他類型的動詞,如「判斷動詞lv」如「是、否」,「能願動詞 mv」如「能、能夠」等均不符合模式要求。對於0,其是句子中的名詞性成分(名詞或者名詞 性短語)。在本發明中,從用戶問題中提取一個功能描述作為語義檢索式,從被檢索技術文 檔中提取一個功能描述作為文檔語義索引,對語義檢索式和文檔語義索引進行分類、匹配, 則可以獲得比關鍵詞檢索更準確的語義層次的檢索結果。圖1示出了根據本發明一個具體實施例的數據檢索流程圖,如其所示,本發明的 數據檢索具體包括下列步驟對用戶問題進行語義分析,並提取功能描述作為其語義檢索式。其中用戶問題可 以通過用戶輸入,且可以是用戶想獲得解決的任何技術問題,如「如何改裝排氣管」。用戶問題一般是問句的形式,考慮到問句的句型特殊性,對其做特定語義分析,以 獲得其語義檢索式。且上述功能描述提取僅針對一個句子內存在的功能描述關係進行提 取,不處理多個句子間、段落內、段落間和篇章內等類型的功能描述關係提取。首先,對用戶問題進行預處理。這可以通過文本預處理來實現,該過程包括刪 除一個電子或者數字形式文本中的未形成自然語言文本部分的所有符號,如段落符、格式 符等;檢測和糾正文本中的誤匹配和錯誤,如文字識別錯誤、輸入錯誤等;將文本劃分成句 子。文本預處理屬於常用技術,此處不詳細說明。對經過預處理的用戶問題進行分詞和詞性標註。分詞和詞性標註屬於常用技術, 例如可以採用正向最大匹配分詞算法進行分詞,採用863詞性標註集進行詞性標註,此處 不詳細說明。由於本發明針對工程技術領域,所以,優選地,補充了專業詞典以提高分詞和 詞性標註準確度。表1給出863詞性標註集及含義,方便後續對提取功能描述的進一步說 明。表1 863詞性標註集及含義
權利要求
1.一種基於語義索引的數據檢索方法,包括下列步驟對用戶問題進行語義分析,抽取所述用戶問題的功能描述作為語義檢索式,其中所述 功能描述用「動作-對象」來表示;對技術文檔進行語義分析,抽取所述技術文檔的功能描述作為文檔語義索引; 匹配所述語義檢索式和所述文檔語義索引。
2.根據權利要求1所述的方法,其特徵在於,所述語義分析進一步包括以下步驟 對所述用戶問題進行預處理;對所述用戶問題進行分詞和詞性標註; 對所述用戶問題進行句法分析。
3.根據權利要求2所述的方法,其特徵在於,所述對所述用戶問題進行句法分析進一 步包括以下步驟首先根據距離疑問詞最近原則確定所述用戶問題的謂語動詞; 然後利用疑問詞和所述謂語動詞的距離信息,確定所述用戶問題中其他各詞所擔當的 句法成分。
4.根據權利要求2或3所述的方法,其特徵在於,所述抽取所述用戶問題的功能描述進 一步包括下列步驟將所述用戶問題中的謂語動詞作為動作;對於謂語動詞在疑問詞之後且二者距離為0,且謂語動詞後有名詞性成分的情況,則抽 取所述名詞性成分作為對象;對於謂語動詞在疑問詞之後且二者距離為0,且疑問詞前面有系動詞,謂語動詞後面無 名詞性成分的情況,則抽取疑問詞之前的名詞性成分作為對象。
5.根據權利要求1所述的方法,其特徵在於,所述抽取所述技術文檔的功能描述進一 步包括下列步驟對於單句,將所述技術文檔中句子的謂語動詞作為動作,將賓語作為對象; 對於複句,根據所述單句抽取方法分別對每個分句抽取功能描述。
6.根據權利要求5所述的方法,其特徵在於,所述單句是複雜單句,而且如果主語是複雜短語,則將所述技術文檔中句子的謂語動詞作為動作,將賓語作為對象;如果賓語是複雜短語,則將謂語動詞和賓語中的每個短語組合來抽取功能描述,即 "V+01+02 — V+01、V+02」,其中V為謂語動詞,01和02分別為賓語中的兩個短語;如果謂語是複雜短語,則將謂語中的每個動詞和賓語組合來抽取功能描述,即 "V1+V2+0 — Vl+0、V2+0」,其中Vl和V2分別是謂語中的兩個動詞短語,0為賓語。
7.根據權利要求1所述的方法,其特徵在於,在所述匹配所述語義檢索式和所述文檔 語義索引之前,還包括下列步驟對所述語義檢索式和所述文檔語義索引進行分類。
8.根據權利要求7所述的方法,其特徵在於,所述分類的步驟包括 將所述語義檢索式或所述文檔語義索引的對象和參數進行比較;所述對象僅包含參數的所述語義檢索式或所述文檔語義索引是VP語義檢索式或VP文 檔語義索引;所述對象是定賓結構,且定語為名詞、賓語為參數的所述語義檢索式或所述文檔語義 索引是VNP語義檢索式或VNP文檔語義索引;所述對象不包含任意參數的的所述語義檢索式或所述文檔語義索引是VN語義檢索式 或VN文檔語義索引。
9.根據權利要求8所述的方法,其特徵在於,所述匹配所述語義檢索式和所述文檔語 義索引進一步包括下列步驟對於VN語義檢索式和VP語義檢索式,分別與VN文檔語義索引和VP文檔語義索引進 行匹配;對於VNP語義檢索式,首先與VNP文檔語義索引進行匹配,如果沒有相匹配的VNP文檔 語義索引,則與VP文檔語義索引進行匹配。
全文摘要
本發明提供一種基於語義索引的數據檢索方法,包括下列步驟對用戶問題進行語義分析,抽取所述用戶問題的功能描述作為語義檢索式,其中所述功能描述用「動作-對象」來表示;對技術文檔進行語義分析,抽取所述技術文檔的功能描述作為文檔語義索引;匹配所述語義檢索式和所述文檔語義索引。該方法有效提高了技術資料、技術手冊在幫助維護技術系統時的有效性,能夠更高質量地檢索出有效解決了用戶問題的文檔。
文檔編號G06F17/30GK102117283SQ20091024399
公開日2011年7月6日 申請日期2009年12月30日 優先權日2009年12月30日
發明者寧保明, 段海波, 趙琦, 高建忠 申請人:安世亞太科技(北京)有限公司