一種例句檢索的方法及系統的製作方法
2023-06-10 17:40:51 3
專利名稱:一種例句檢索的方法及系統的製作方法
技術領域:
本發明涉及自然語言處理領域,特別地涉及一種例句檢索的方法及系統。
背景技術:
隨著網際網路技術的深入發展,使得人們在寫作或語言學習中獲得所需的信息更加便利。例句檢索輔助用戶獲取與輸入匹配的(雙語)例句,從而滿足用戶了解詞的用法或翻譯的需求。另外,在機器翻譯中,也會用到例句檢索從而使得翻譯更加精準。截至目前為止,有關例句檢索中query (即查詢詞)與例句相關性計算方法主要有以下幾種一是根據例句中匹配的query個數或長度計算;二是根據例句長度及匹配query字符串長度計算;三是根據query與例句的編輯距離計算。如CN 102346777公開了一種對例句檢索結果進行排序的方法和裝置,其中使用搭配來體現query的用法,但沒有綜合考慮例句中query的有關句法特徵、例句本身的特徵等因素,並且搭配概率的計算公式沒有考慮query在搭配中所起的作用或所做的成分,搭配概率計算中籠統的採用了統一的計算公式。CN 1471030公開了一種基於加權編輯距離的自動例句檢索的系統和方法,其中,通過編輯距離來進行檢索,但依然側重於query的字符串匹配。這幾種方法都側重於詞層次的字符串匹配,基於字符串匹配的相關性計算方法只側重給出包含query的例句,沒有涉及到給出的例句中是否體現了 query用法的多樣性及 翻譯的多樣性,這樣排序靠前的例句很可能滿足不了用戶的意圖。用戶使用例句檢索最主要是為了解query的相關用法或者翻譯,而現有的例句與query的相關性計算大多只考慮了字符串層次的匹配,無法滿足用戶的需求,具體輸出的例句檢索結果存在以下問題I.例句僅注重詞層次的匹配,未必體現query的常用(或某種)用法或翻譯的多樣性;2.可能輸出具有歧義的結果;如輸入query :有道輸出他右邊太陽穴上有道傷痕(只列出單語部分)。而用戶意圖為輸出含「經營有道」、「取之有道」之類的例句,這樣的結果與用戶意圖相左。3.輸出結構不完整的例句;4.輸出例句過長或過短;5.輸出例句所含信息不豐富;如輸入query :清明節輸出清明節是什麼?
發明內容
本發明解決的技術問題在於提供了一種例句檢索的方法,以更好地滿足用戶的需求;本發明還提供了一種例句檢索的系統。本發明實施例提供了一種例句檢索的方法,包括,獲取用戶輸入的查詢詞;對用戶輸入的query進行處理;在例句庫中檢索匹配query的例句,並進行所述query與例句的相關性計算;根據用法多樣性或翻譯多樣性原則,進行例句相關性打分調整,進行例句排序;輸出例句並展示例句中的短語。本發明實施例還提供了一種例句檢索的系統,包括,查詢詞獲取模塊,用於獲取用戶輸入的查詢詞;查詢詞處理模塊,用於對用戶輸入的query進行處理;相關性計算模塊,用於在例句庫中檢索匹配query的例句,並進行所述query與例句的相關性計算; 相關性調整模塊,用於根據用法多樣性或翻譯多樣性原則,進行例句相關性打分調整,進行例句排序;例句輸出模塊,用於輸出例句並展示例句中的短語。採用本發明實施例提供的方案,在進行query與例句相關性計算時綜合考慮了各種因素例句中query相關短語特徵、句法特徵、例句結構完整性特徵、句長特徵、例句所含標點數字噪音特徵綜合進行query與例句相關性計算,引入query相關短語反映query用法,引入句法信息使得含有query句法意義的例句具有優勢,引入例句結構完整性信息使得輸出例句更加規整,並結合例句句長、所含數字標點的噪音特徵共同進行相關性計算,比起其它相關性計算方法顯示了優勢。對某天的query log進行採樣,分別抽取80個中文query與英文query,比較本方法的輸出與傳統基於字符串匹配方法的例句輸出的效果,效果變好的佔53%,效果相當的佔47%,可見本發明所提方案非常有效。
此處所說明的附圖用來提供對本發明的進一步理解,構成本發明的一部分,本發明的示意性實施例及其說明用於解釋本發明,並不構成對本發明的不當限定。在附圖中圖I是本發明第一實施例流程圖;圖2是query翻譯多樣性檢索結果展現示意圖;圖3是query用法多樣性檢索結果展現示意圖;圖4是query用法多樣性同種短語例句展現示意圖;圖5是本發明第二實施例系統結構圖。
具體實施例方式為了使本發明所要解決的技術問題、技術方案及有益效果更加清楚、明白,以下結合附圖和實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,並不用於限定本發明。如圖I所示,是本發明第一實施例流程圖,提供了一種進行例句檢索的方法,具體包括,步驟S101,獲取用戶輸入的查詢詞query ;
具體地,用戶輸入的query中單個的詞佔的比例較大,此處僅考慮單個詞的queryο步驟S102,對用戶輸入的query進行處理;對用戶的query進行處理,是指用戶輸入時可能會輸入多餘的空格、標點、數字或亂碼,甚至會出現用戶輸錯某個字或詞,在這種情況要進行處理,要進行糾錯處理。步驟S103,在例句庫中檢索匹配query的例句,並進行所述query與例句的相關性計算;具體地,根據例句中query與其它詞構成短語的短語概率、相關句法結點概率、句子完整性概率、句長概率、噪音概率進行query與例句的相關性計算。輸出雙語例句時,最終概率為中英雙語例句相關性概率的算術平均值。具體地,計算方法如下I. query在例句中的與其它詞構成短語的短語概率Pphr用戶輸入query極有可能是想了解query的用法,這種用法在例句中由query與其它詞構成的常用短語來體現,在這些短語中,query有可能是短語的核心詞,也可能不是,
這兩種情況區別計算短語概率,如conflict (衝突)在短語「conflict with」(與......衝
突)中是一個核心詞,在「resolve conflict」中為一個非核心詞,採用如下短語概率計算
公式
權利要求
1.一種例句檢索的方法,其特徵在於,包括, 獲取用戶輸入的查詢詞query ; 在例句庫中檢索匹配query的例句,並進行所述query與例句的相關性計算; 根據用法多樣性或翻譯多樣性原則,進行例句相關性打分調整,進行例句排序; 輸出例句並展示例句中的短語。
2.根據權利要求I所述的方法,其特徵在於,在獲取用戶輸入的查詢詞後,還包括, 對用戶輸入的query進行處理。
3.根據權利要求I或2所述的方法,其特徵在於,所述在例句庫中檢索匹配query的例句,並進行所述query與例句的相關性計算具體包括, 根據例句中query與其它詞構成短語的短語概率、相關句法結點概率、句子完整性概率、句長概率、噪音概率進行query與例句的相關性計算。
4.根據權利要求3所述的方法,其特徵在於, query在例句中的與其它詞構成短語的短語概率Ppto
5.根據權利要求4所述的方法,其特徵在於,相關性概率計算公式如下 Prel= λ 11 OgPphr+ λ 2l0gpsyn+ λ 31 OgPcom+ λ 41 OgPlen+ λ 51 OgPpun 各個概率前面的加權係數λρ λ2、λ3、λ4、λ 5通過開發集訓練或者根據實際情況調難iF. O
6.根據權利要求I或2所述的方法,其特徵在於,根據用法多樣性或翻譯多樣性原則,進行例句相關性打分調整,進行例句排序具體包括, 根據Query用法多樣性優先原則若根據相關性概率已有包含同一短語的η條例句排在前面,則當前例句相關性概率按照如下公式調整
7.根據權利要求I或2所述的方法,其特徵在於,所述輸出例句並展示例句中的短語具體為, 在輸出例句時,query及其翻譯在雙語中進行顏色標示,且含有短語的例句在例句右下角進行短語標示,雙語右方設置按鈕,按任一單語端按鈕進行展現或關閉同種搭配的k條例句。
8.根據權利要求7所述的方法,其特徵在於,所述展現的方式包括, 按照翻譯概率循環輸出例句,即先輸出第一種翻譯的相關性最高的例句,再輸出第二種翻譯的相關性最高的例句,直至輸出第η種翻譯的相關性最高例句,再輸出第一種翻譯的相關性次高的例句;或者 以query與例句中詞組成的短語來體現query用法的多樣性,即先輸出第一種query常用短語的相關性最高的例句,再輸出第二種短語的相關性最高的例句,直至輸出第η種短語的相關性最高例句,再輸出第一種短語的相關性次高的例句。
9.一種例句檢索的系統,其特徵在於,包括, 查詢詞獲取模塊,用於獲取用戶輸入的查詢詞; 相關性計算模塊,用於在例句庫中檢索匹配query的例句,並進行所述query與例句的相關性計算; 相關性調整模塊,用於根據用法多樣性或翻譯多樣性原則,進行例句相關性打分調整,進行例句排序; 例句輸出模塊,用於輸出例句並展示例句中的短語。
10.根據權利要求9所述的系統,其特徵在於,還包括,查詢詞處理模塊,用於對用戶輸入的query進行處理。
11.根據權利要求9或10所述的系統,其特徵在於,所述相關性計算模塊具體用於根據例句中query與其它詞構成短語的短語概率、相關句法結點概率、句子完整性概率、句長概率、噪音概率進行query與例句的相關性計算。
全文摘要
本發明涉及自然語言處理領域,提供了一種通過查詢詞進行例句檢索的方法,包括,獲取用戶輸入的查詢詞;對用戶輸入的query進行處理;在例句庫中檢索匹配query的例句,並進行所述query與例句的相關性計算;根據用法多樣性或翻譯多樣性原則,進行例句相關性打分調整,進行例句排序;輸出例句並展示例句中的短語。本發明還提供了一種通過查詢詞進行例句檢索的系統。採用本發明提供的方案,在進行query與例句相關性計算時綜合考慮了各種因素例句中query相關短語特徵、句法特徵、例句結構完整性特徵、句長特徵、例句所含標點數字噪音特徵綜合進行query與例句相關性計算,比起其它相關性計算方法顯示了優勢。
文檔編號G06F17/30GK102890723SQ20121041329
公開日2013年1月23日 申請日期2012年10月25日 優先權日2012年10月25日
發明者楊振東, 石志偉, 周步戀, 車天文, 王更生, 王喜民, 何宏靖, 徐憶蘇 申請人:深圳市宜搜科技發展有限公司