新四季網

一種自然語言搜索的方法和裝置的製作方法

2023-06-23 03:02:56


專利名稱::一種自然語言搜索的方法和裝置的製作方法
技術領域:
:本發明涉及自然語言搜索
技術領域:
,特別是關於一種自然語言的搜索方法和裝置。
背景技術:
:在現有技術中常用的搜索技術主要是基於關鍵字匹配或主題分類,但是由於缺乏語義信息,缺乏知識理解和推理能力,存在搜索返回信息包括大量的無關信息,並且返回信息還存在質量低及信息丟失、查準率的精度不夠等問題,其主要原因是網際網路在信息表達和檢索方面存在的缺陷,沒有提供給計算機足夠的可讀信息,限制了計算才/M^險索中的自動分析能力。現有技術中採用的方法是,首先對用戶的搜索輸入進行語義分析,配合詞性標註,找出對搜尋引擎有意義的關鍵詞。然後再對業務數據的索引文件進行檢索。如在搜索中輸入"從包頭怎麼去五臺山?,,,可以依據漢語詞典對句子進行語義的拆分,即分詞成"包頭"、"怎麼去"、"五臺山"這些正是語義的主體,也是自然語言搜索需要的關鍵詞。因為對於搜索而言,被搜索內容事先已經按詞典裡的詞條進行索引的創建。所以,在搜索時返回的答案可能是包頭的相關信息、五臺山的相關信息、同時也包括用戶需要查詢的從包頭怎麼去五臺在返回的信息時,不能及時準確的反饋用戶所需要的信息。
發明內容本發明提供一種自然語言的搜索方法和裝置,用於解決現有技術進行自然語言搜索時,只是為查詢用戶返回大量的相關網頁的問題。一種自然語言4叟索的方法,包括A、構建漢語框架知識庫CFN和專業領域知識本體庫,所述漢語框架知識庫中保存具有相同語義的多個詞元、框架以及構成框架的框架元素,其中所述框架用於表述所述相同語義;B、針對查詢用戶輸入的搜索語句,將所述搜索語句中的至少一個動詞與漢語框架知識庫中的詞元進行匹配,找到所述動詞所屬的框架,並根據所述才匡架中包含的框架元素對所述4叟索語句進4亍標註;C、選擇所述動詞中的一個作為語義謂詞,並根據所述標註從所述搜索語句中提取出所述語義謂詞以及該語義謂詞的主體和/或客體生成三元組;D、將所述三元組作為查詢輸入,利用所述專業領域知識本體庫生成候選答案集。其中,所述漢語框架知識庫中的內容由語義Web標記語言描述。所述漢語知識框架庫包括框架庫、句子庫和詞元庫所述框架庫是以框架為單位,保存框架的定義、構成框架的框架元素以及框架和框架之間的關係;所述句子庫記錄帶有框架語義標註信息的句子,所述帶有框架語義標註信息的句子是按照框架庫所提供的框架和框架元素標註句子的框架語義信息和句法信息;所述詞元庫保存每個框架所涉及到的詞元。其中,構建專業領域知識本體庫,具體步驟包括參照與專業領域相關的分類體系標準構建該領域的本體模型;通it^體編輯工具把本體庫內M口識條目的概念、M口識條目的關係以及實例用語義Web標記語言表示,並存儲為計算機可讀的文檔格式。所述步驟B之後,進一步包括當搜索語句中有多個動詞時,將每個動詞與本體庫中的條目關係進行比對得到所述動詞的語義指數,並根據所述語義指數選擇動詞作為所述語句的語義謂詞,所述語義指數用於tf量動詞的重要性。其中,所述步驟D,包括根據所述標註從所述搜索語句中提取具有語義信息的三元組;根據所述三元組生成查詢語句,在本體庫中查找與該三元組匹配的相關內容;如果查找成功則生成候選答案集;如果查找失敗,則利用相應的查詢夫見則創建推理機進行推理,並生成相應的數據一莫型進行查詢,查詢成功後生成相應的候選答案集。所述生成候選答案集^^後,進一步包括對候選答案集中的答案進行排序,並將排序後的答案返回給查詢用戶。進一步,當用戶輸入的搜索語句為問句時,在生成三元組之後,包括進行問句分析,提取所述問句的疑問詞和疑問意向詞,得到該問句的詢問信自'-將所述詢問信息和三元組作為查詢輸入,利用所述專業領域本體庫生成候選答案集。根據上述方法,本發明還提供一種自然語言搜索裝置,包括存儲模塊,用於存儲漢語框架知識庫CFN和專業領域知識本體庫,所述漢語框架知識庫中保存具有相同語義的多個詞元、框架以及構成框架的框架元素,其中所述框架用於表述所述相同語義;分析才莫塊,用於當查詢用戶輸入搜索語句時,將所述搜索語句中的至少一個動詞與漢語框架知識庫中的詞元進行匹配,找到所述動詞所屬的框架,並才艮據所述框架中包含的框架元素對所述搜索語句進行標註;語義謂詞4莫塊,用於選擇所迷動詞中的一個作為語義謂詞,並4艮據所迷標註從所述搜索語句中提取出所述語義謂詞以及該語義謂詞的主體和/或客體生成三元組;答案生成模塊,用於將所述三元組作為查詢輸入,利用所述專業領域知識本體庫生成候選答案集。其中,所述存儲才莫塊還用於利用語義Web標記語言描述漢語框架知識庫中的內容。進一步,所述分析才莫塊包括框架確定單元,用於當查詢用戶輸入搜索語句時,將搜索語句中的動詞與漢語框架知識庫中的詞元it;f亍匹配,找到所述動詞所屬的框架;標註單元,用於才艮據所述框架中包含的框架元素對所述搜索語句進行標註。所述語義謂詞才莫塊包括選擇單元,用於,人搜索語句的動詞中選擇一個動詞作為語義謂詞;提取單元,用於並根據所述標註從所述搜索語句中提取出所述語義謂詞以及該語義謂詞的主體和/或客體生成三元組。所述答案生^t塊包4舌查詢單元,用於將所述三元組作為查詢搜索輸入,利用所述專業領域知識本體庫生成候選答案集;推理單元,用於當查詢模塊查找失敗時,利用相應的查詢規則創建推理機進行推理,並生成相應的數據模型進行查詢生成候選答案集。排序單元,用於對候選答案集中的答案進行排序,並根據該排序將答案返回給用戶。進一步,所述選擇單元還用於當搜索語句中有多個動詞時,將每個動詞與本體庫中的條目關係進行比對得到所述動詞的語義指數,並根據所述語義指數選擇一個動詞作為所述語句的語義謂詞,所述語義指數用于衡量動詞的重要性。該裝置還包括問句模塊,用於當用戶輸入的搜索語句為問句時,進行問句分析,提取所述問句的疑問詞和疑問意向詞,得到該問句的詢問信息;則所述答案生成4莫塊還用於將所述詢問信息和三元組作為查詢輸入,利用所述專業領域本體庫生成候選答案集。本發明利用CFN對查詢用戶輸入的自然搜索語句進行自動標註,然後提:取具有語義信息的三元組,將所述三元組作為查詢輸入在本體庫中進行答案的搜索。因為在進行本體庫搜索之前已經進行了語義分析並標註所以能快速而且高效的搜尋到確切的答案。圖1為本發明實施例一種自然語言搜索的方法的流程圖;圖2為本發明實施例中漢語框架語義知識庫中各子庫的連接關係圖;圖2A為本發明實施例中漢語框架知識庫中各框架構成的框架網絡圖;圖3為本發明實施例^M4叟索語句中提取三元組的流程圖;圖3A為本發明實施例利用漢語框架知識庫對查詢語句進行語義角色標註的流程圖4為本發明實施例利用本體庫進行答案的提取的流程圖;圖4A為推理機的工作原理圖5為本發明實施例一種針對簡單搜索語句的查詢方法流程圖;圖6為利用本發明方法應用於旅遊領域的流程圖6A為景點、住宿、交通工具、娛樂、#^大及購物6類(概念)之間的關係模型圖7為本發明實施例對問句進行三元組提取的流程圖8為本發明實施例一種自然語言搜索裝置的裝置圖9為本發明實施例一種自然語言搜索裝置中分析^t塊裝置圖10為本發明實施例一種自然語言搜索裝置語中語義謂詞模塊裝置圖11為本發明實施例一種自然語言搜索裝置語中答案生成模塊裝置圖。具體實施例方式本發明實施例中,構建漢i吾4匡架知識庫CFN和專業領域知識本體庫,然後利用漢語框架知識庫對自然語言4臾索輸入的查詢語句進行標註,並根據所述標註從查詢語句中的提取具有語義信息的三元組,最後將所述三元組作為查詢輸入,利用所述本體庫生成查詢答案。下面結合說明書附圖對本發明的具體實施方式進行詳細說明,如圖1所示,本發明實施例一種自然語言搜索的方法,包括步驟步驟101、構建漢語框架知識庫(ChineseFrameNet,CFN)。本發明實施例首先構建了一個以有限詞語集合為描述對象的漢語框架知識庫,並用語義Web標記語言(可擴展標記語言(XML,ExtensibleMarkupLanguage)、資源描述框架(RDF,ResourceDescriptionFramework)、Web本體標記語言(OWL,WebOntologyLanguage))表示了該語義知識庫的各種資源。(1)漢語框架知識庫主要由框架庫、句子庫和詞元庫組成,具體內容包括A、詞元庫主要存放詞元,所迷詞元是具有相同語義的一類詞語,其中所述相同的語義即框架。例如表述"陳述"語義的詞元,如表l所示包括:tableseeoriginaldocumentpage11表1B、框架庫是以框架為單位,明確給出框架的定義以及框架的框架元素(也稱為語義角色),並描述該框架和其他框架之間的概念關係。框架庫中主要存放①框架的定義;②框架元素(構成框架的不同組成元素充當不同的角色,稱之為語義角色也稱作框架元素。其中包括核心框架元素和非核心框架元素);③框架的關係。以下是"陳述,,框架的相關內容包括包括框架的定義、核心框架元素(核心語義角色)如表1所示、非核心框架元素(非核心語義角色)如表2和表3所示。"陳述',的框架定義此框架表達的是說話者用語言向聽話者傳達信息的行為。tableseeoriginaldocumentpage12表3C、句子庫記錄帶有框架語義標註信息的句子,標註的原則是"t妄照框架庫框架下的句子標註實例,並且是分框架,分詞無存放的。CFN為每一個詞元的每一個義項提供了帶有框架語義標註信息的句子,這些句子來自真實的自然語言語料庫,而不是由語言學家或者詞典編輯者創造的。在選取句子上,力求儘可能地顯示出該詞元的所有可能的句法語義結合方式。這使得CFN的數據為概括詞語的句法語義組合性質提供了豐富的材料,為自動語義標註技術的研究提供了訓練數據。"陳述"框架的一個句子實例英方面作為報復措施也宣布4名俄羅斯大使館的外交官為不受歡迎的人。4乍為v才艮復v4普施n也d<msg-dj-obj4m名qj我羅斯nsy大。(2)漢語框架知識庫中各元素之間的聯繫如圖2所示,在本發明實施例中詞元庫、句子庫和框架庫三者的關係包括詞元庫依附於框架庫,即特定的詞語隸屬於特定的框架(雖然有一對多的現象,即一個詞元可隸屬於幾個框架),由於同一個詞元在不同的框架下,其語義搭配模式和句法實現形式不同,所以句子庫又依附於詞元庫和框架庫。框架和框架之間還存在多種聯繫,構成一個知識網絡如圖2A所示,其中各框架之間的4關係包括繼承關係、總分關係、總域/分域關係、參照關係、因果關係、後繼關係。同時一個框架涉及多個詞元,用同一個框架的框架元素集合進行標註;反過來,一個多義詞代表多個詞元,屬於幾個不同的框架,即用不同的框架元素進行表示,有了這樣的信息,一個應用系統就有可能區分出同一個詞形在不同的使用環境中的不同意義。步驟102、構建專業領域知識本體庫,具體包括首先參照分類體系標準確定本體的領域和範圍,並列出本體中的重要術語,所述術語大致表明建模過程所有涉及到的事物,以及這些事物所具有的屬性以及這些屬性之間的關係等。然後定義類和類的支撐、屬性、屬性之間的關係、屬性的限制,最後得到該本體的本體才莫型。通過本體編輯工具(其中較為常見的本體編輯工具包括Ontolingua、OntoEdit、Ontosaurus和Pro&g6等)把本體模型中各知識條目的概念、關係和實例(即三元組)用Web標記語言表示出來,並存儲為計算機可讀的文檔形式。本體的建立嚴格定義了類之間的逆關係(InverseOf)、傳遞關係(TranstiveProperty)、函H關係(FunctionalProperty)、對稱關係(SymmetricProperty)、逆函悽史關係(InverseFunctionalProperty)以及對屬性的限制。步驟103、搜索語句的三元組抽取。當接收到用戶輸入的搜索語句後,首先進ff預處理,即進行分詞和標註所有詞語的詞性。然後才是取出所述搜索語句中的所有動詞,並將每個動詞與漢語框架知識庫中的詞元進行匹配,找到每個動詞所屬的框架,根據所述框架中的框架元素對所述搜索語句進行標註。最後選擇動詞中的一個作為所述搜索語句的語義謂詞並提取該語義謂詞的主體和客體生成具有語義信息的三元組,所述主體和J^體是查詢語句中與語義謂詞相鄰的前一個名詞和後一個名詞,所述三元組表達了詢問語句的語義信息以及各框架元素之間的連接關係。其中,三元組中可以缺少主體或者^_客體,即三元組是由語義謂詞加上所述語義謂詞的主體和/^^體形成的。進一步,如果搜索語句中沒有動詞,則所述語義謂詞則是能夠表示該語句搜索意圖的詞語。如果所述搜索語句為不包含動詞的問句,則所述語義謂詞為疑問詞,主體和客體則為與疑問詞相鄰的名詞。如圖3所示,以動詞三元組為例,對三元組的抽取進行進一步的說明,具體包括步驟S301、才艮據漢語框架知識庫對查詢語句進4亍語義角色標註。如圖3A所示,具體包括步驟S3A01、對查詢用戶輸入的搜索語句進行預處理,提取出該搜索語句中的所有動詞。S3A02、將所述動詞與漢語框架知識庫中的詞元進行匹配,從而得到該動詞所屬的框架。S3A03、根據該框架中所包含的框架元素對所述搜索語句進行標註。具體包括三層第一層框架元素標註,框架元素是框架中的各種參與者,框架元素分為核心框架元素和非核心框架元素。核心框架元素是一個框架在概念理解上的必有成分,它們在不同的框架中類型和數量不同,顯示出才匡架的個性。非核心框架元素並不顯示框架的個性,表達時間、空間、環境^f牛、原因、目的等外圍語義成分。第二層短語類型標註。第三層句法功能標註。5302、選擇所述搜索語句的語義謂詞,所述語義謂詞是能可以表述真箇搜索語句最主要的搜索目的的詞語。1、當用戶輸入的搜索語句中只有一個動詞時,則該動詞為所述搜索語句的語義謂詞。2、如果用戶輸入的搜索語句中有多個動詞時,則##個動詞與本體庫中的條目關係(條目關係包4舌才莫型中的扭克念,以及概念之間的關係以及概念的實例,例如交通工具中有汽車類,汽車和景點類之間有關係,而景點和汽車都有各自的具體實例)進行比對得到每個動詞的語義指數,所述語義指數用于衡量語義謂詞的重要f生。然後根據語義指數選擇一個動詞作為該搜索語句的語義謂詞。5303、三元組的^由取。根據標註提取所述語義謂詞的主體和客體生成能夠表達該搜索語句的語義信息的三元組。所述三元組中可以缺少語義謂詞的主體或者客體。由於用戶輸入的語句中存在大量的口語,所以根據受限領域中詞彙對應的口語詞彙詞典對查詢語句的語義進行理解。步驟104,利用本體庫進行答案的提取。如圖4所示,具體包括步驟S401、利用所述三元組生成查詢語句在本體庫中查找與該三元組相匹配的相關信息。5402、如果查找成功,則生成候選答案集後轉入S405,若查找失敗,則轉入S403。5403、利用相應的查詢規則(推理機中的自定義規則以及推理機中存放的本體庫中的全部關係)創建推理機,進行推理,並生成相應的數據模型,再次進行查詢。5404、如果查詢成功,則生成相應的答案集,並轉入S405;若查詢再次失敗,則轉至S406。5405、對答案集中的答案進行排序,並將排序後的答案返回給用戶。5406、為查詢用戶返回所查內容不能找到。在本發明實施例中,將提取的三元組與本體庫中的相關信息進行匹配時,釆用能夠解析和查詢RDF模型的工具包一Jena。Jena本體解析器可以對RDF進行解析,並對RDQL的查詢支撐和對OWL的解析。Jena同時提供基於規則的推理機。Jena提供基於規則的推理機(如RDFSReasoner、OWLReasoner等),此外用戶還可以根據需要自定義推理規則,也可以註冊使用第三方推理引擎。如圖4A所示,推理機的工作原理是推理機註冊機制根據基本RDF向量描述(信息資源)和Ontology創建出推理機,由此推理機可以生成包含推理機制的模型對象(InferenceGraph,InfGraph),在Jena中,圖(Graph)也被稱為模型(Model),而表現形式為才莫型界面(ModelInterface),然後可以使用模型應用編程接口(ModelAPI,ModelApplicationProgrammingInterface)和^^體應用參扁禾呈4矣口(OntologyAPI,OntologyApplicationProgrammingInterface)對此才莫型進4亍才喿作和處理,從而實現語義層面的信息檢索。如圖5所示,本發明實施例還提供一種針對簡單搜索語句的查詢方法,具體包括步驟步驟501、構建專業領域知識本體庫。面向受限領域構建專業領域知識本體,參照《中國分類主題詞表》、專業領域相關標準,並根據專業領域的勤出術語以及專業領域內各組成元素之間的關係等等一切可知的與該專業領i或相關的信息,構建該領域的本體模型。然後採用OWL對本^f莫型進行編碼,最後通過美國史丹福大學的本體編輯工具Prot6g6,把本體庫內各條目的概念、關係和實例用OWL和RDF表示出來,並存儲為OWL文檔。本體的建立嚴格定義了類之間的逆關係(InverseOf)、傳遞關係(TranstiveProperty)、函凌丈關係(FunctionalProperty)、對稱關係(SymmetricProperty)、逆函悽史關係(InverseFunctionalProperty)以W於屬性的卩艮制。步驟502、首先對搜索語句進行預處理,提取搜索語句中的三元組,然後利用所述三元組生成SPARQL查詢語句,在本體庫中進行查找與該三元組相匹配的相關信息,如果查找成功,則轉入步驟504,若查找失敗,則轉入步驟503。步驟503、利用相應的查詢規則創建推理機,進行推理,並生成相應的數據模型,再次進行查詢,如果查詢成功,則轉入步驟504;若查詢再次失敗,則返回所查詢內容不能找到。步驟504、對候選答案進行排序,並將排序後的答案返回給查詢用戶。如圖6所示,下面結合旅遊領域查詢用戶所提出的相關問句,對本發明實施例做進一步的說明。因為用戶在查詢相關內容時候大部分都是以問句的形式輸入,所以在本實施例中特別針對查詢問句做了優化的處理,具體步驟包括步驟601、構建漢語框架知識庫(CFN)。步驟602、構建旅遊領域知識本體庫。面向某地的旅遊信息,選取有特色的旅遊景點,針對每個景點都建立語料庫,構建旅遊領域的本體庫。在景點語料庫的基礎上,根據旅遊六要素即遊、購、娛、食、住、行,對文檔進行了術語的抽取,並參照《中國分類主題詞表》及《旅遊服務^f出術語》(gb/t16766-1997)、《旅遊規劃通則》(gb/t18971-2003)、旅遊業各學科在中國圖書館分類法中所屬類別、《旅遊業標準體系表》、《旅行社國內旅遊服務質量要求》(lb/t004-1997)、《導遊服務質量》(gb/15971-1995)、中國國家標準網(www.chinagb.org)、旅遊規劃通則(gb/t18971-2003)、旅遊資源分類調查與評價(gb/t18972-2003)、旅遊服務彭出術語(gb/t16766-1997)等進4亍了》良遊本體模型的初步構建。圖6A為景點、住宿、交通工具、娛樂、餐飲及購物6類(概念)之間的關係模型圖。系統採用OWLLite進行本體模型的編碼,並使用了美國史丹福大學的本體編輯工具Prot6g6。本體的建立嚴才各定義了類之間的逆關係(InverseOf)、傳遞關係(TranstiveProperty)、函悽t關係(FunctionalProperty)、只十《爾關係(SymmetricProperty)、逆函悽t關係(InverseFunctionalProperty)以力寸屬性的限制。通iiProMg6,把與資料庫相關的概念、關係和實例用OWL和RDF表示出來,存儲為OWL文檔。步驟603、對用戶搜索輸入的查詢語句進行問題分類。對問題進行分類時,從不同的角度可以有不同的問題分類。本系統釆取了多角度分類形式,在TRECCTextRetrievalConference)分類的彭出上,利用本體的思想,對問題分類。根據問句庫的統計,目前對於旅遊領域查詢用戶所提的問句類型分為以下三類(1)簡單的問本體的主體,客體。包括特指疑問句和是非疑問句中詢問人物、時間、#:字、實體。如五臺山的氣候怎麼樣?五臺山附近有沒有旅館?(2)詢問方法,屬於描述。如開車從北京出發去五臺山、怎麼去?(3)原因、定義類的問題。步驟604、利用漢語框架知識庫對用戶搜索輸入的查詢語句提取具有語義信息的三元組,具體步驟如圖7所示,包括S701、利用漢語框架知識庫對查詢語句進行語義角色標註。標註共有三層,第一層為框架元素,框架元素分為核心框架元素和非核心框tableseeoriginaldocumentpage19表4架元素。核心框架元素是一個框架在概念理解上的必有成分,它們在不同的框架中類型和數量不同,顯示出框架的個性。非核心框架元素並不顯示框架的個性,表達時間、空間、環境條件、原因、目的等外圍語義成分。第二層為短語類型標註,第三層為句法功能標註。表4中給出了"到達"框架的框架描述。例句"駕車從;U^到五臺山怎樣走最近?"進4亍CFN標註後為〈mot-vp-va駕車>〈tg1^到達到>怎樣走最近?5702、問句分析。獲取疑問詞和疑問意向詞。由於問句可以通過疑問詞和疑問意向詞確定查詢用戶的查詢目的。5703、三元組的抽取。首先從問句的動詞中獲取語義謂詞,並將獲取到的語義謂詞與本體庫中的條目關係進行比對。通過語義指數來衡量語義謂詞的重要、基於規則評分後提取語義謂詞的主體和客體。例句駕車從;U^到五臺山怎樣走最近?首先經過預處理,通過CFN標註的信息直接提取框架元素〈mot-vp-va駕車>、〈src-pp-adva從太原〉、〈tgt^到達到>、,經過問題類型識別、判斷屬於TREC分類中的第二大類描述中的方法類,同時分析出比4交成分即路線屬性值。滿足,<自駕車?,目的地,五臺山〉的汽車子類自駕車的實例,然後對所有實例的路線屬性值進行比較。例如本發明實施例利用"到達"、"穿越"、"出發"、"位移"、"存在,,等框架,對詢問交通^各線或者交通工具的問句進行問句分析,同時利用衝匡架中的詞元對動詞進4亍了同義擴展。CFN第一層可以把交通工具以及出發點和目的;^艮快的識別出。表5為旅遊交通領域的部分問句標註示例。tableseeoriginaldocumentpage21步驟605、答案的提取。將所述三元組和查詢用戶的查詢目的作為查詢輸入,生成SPARQL查詢語言和Jena推理機在所述旅遊領域知識本體庫中進行答案的查找,具體的查詢流程包括當用戶輸入一個查詢"從包頭怎麼去五臺山?",則系統通過上述步驟從中抽取出發點、動詞和目的地,並問句分析得到用戶的查詢目的為詢問線路怎麼走。根據三元組和查詢目的信息生成SPARQL查詢語句,在本體庫中查找與詢問內斜目匹配的相關信息。如果查找成功,則直接生成候選答案集;如果查找失敗,則生成相應的查詢頭見則,並創建推理4幾,進行推理,然後生成相應的數據模型,再次進行查詢,查找成功則生成相應的候選答案集,並對候選答案集中的答案進行排序。最後將排序後的結果返回給用戶。如果生成相應的查詢MJ'j之後仍然失敗,則給查詢用戶返回空答案。例子的返回答案為1,火車1674/1675:包頭——忻州火車2462/2463:包頭——忻州大巴忻州2,飛機MU5690:包頭機場-i^f、武宿機場大巴;bf-i臺山3,大巴包頭——;U^、大巴A^、——i臺山。如圖8所示,本發明實施例還提供一種自然語言搜索裝置包括存儲才莫塊801、分析模塊802、問句模塊803、語義謂詞模塊804、答案生成模塊805:存儲模塊801,用於構建漢語框架知識庫CFN和專業領域知識本體庫,所述漢語框架知識庫中保存具有相同語義的多個詞元、框架以及構成框架的框架元素,其中所述框架用於表述所述相同語義,其中所述漢語框架知識庫中的所有內容都由語義Web標記語言描述。分析模塊802,用於當查詢用戶輸入搜索語句時,將所述搜索語句中的至少一個動詞與漢語框架知識庫中的詞元進行匹配,找到所述動詞所屬的框架,並根據所述框架中包含的框架元素對所述搜索語句進行標註。'如圖9所示,所述分析模塊包括框架確定單元和標註單元框架確定單元901,用於當查詢用戶輸入搜索語句時,將搜索語句中的動詞與漢語框架知識庫中的詞元進;f亍匹配,找到所述動詞所屬的框架。標註單元902,用於根據所述框架中包含的框架元素對所述搜索語句進行標註。問句模塊803,用於當用戶輸入的搜索語句為問句時,進行問句分析,提取所述問句的疑問詞和#是問意向詞,得到該問句的詢問信息;語義謂詞模塊804,用於選擇所述動詞中的一個作為語義謂詞,並根據所述標註從所述搜索語句中提取出所述語義謂詞以及該語義謂詞的主體和/或客體生成三元組。如圖10所示,所述語義謂詞模塊包括選擇單元1001和提取單元1002,其中所述選擇單元1001,用於當用戶輸入的搜索語句中只有一個動詞時,則該動詞為所述搜索語句的語義謂詞。如果用戶輸入的搜索語句中有多個動詞時,則將每個動詞與本體庫中的條目關係(即屬性)進行比對得到每個動詞的語義指數,所述語義指數用于衡量語義謂詞的重要性。然後根據語義指數選擇一個動詞作為該搜索語句的語義謂詞。所述提取單元1002,用於並根據所述標註從所述搜索語句中提取出所述語義謂詞以及該語義謂詞的主體和/或^:體生成三元組。答案生成模塊805,用於根據所述標註從所述搜索語句中提取出具有語義信息的三元組,所述三元組包才舌動詞以及動詞的主體和/或^體,並將所述三元組作為查詢搜索輸入,利用所述專業領域知識本體庫生成候選答案集。當所述搜索語句為問句時,則該答案生成沖莫塊還用於將所述詢問信息和三元組作為查詢輸入,利用所述專業領域本體庫生成候選答案集。如圖ll所示,所述答案生成模塊包括查詢單元1101、推理單元1102、排序單元1103:查詢單元1101,用於將所述三元組作為查詢搜索輸入,利用所述專業領域知識本體庫生成候選答案集。推理單元1102,用於當查詢模塊查找失敗時,利用相應的查詢規則創建推理才;ui行推理,並生成相應的數據模型進行查詢生成候選答案集。排序單元1103,用於對候選答案集中的答案進行排序,並根據該排序將答案返回給用戶。因為漢語框架知識庫中的所有內容都用語義Web進行描述,所以為計算才幾應用可讀、可理解的語義詞典,為實現語義Web中的語義知識共享以及智能化、個性化的Web服務提供基礎資源。並且,漢語框架知識庫中的句子庫記錄語義角色與短語類型、句法功能之間的對應關係,代替了從直覺出發對角色的選擇限制的描述,比人工描述的結果更具體、更準確,也更有實用價值。員根據本發明的技術方案得出其它的實施方式,同樣屬於本發明的技術創新範圍。明的精神和範圍。這樣,倘若本發明的這些修改和變型屬於本發明權利要求及其等同技術的範圍之內,則本發明也意圖包含這些改動和變型在內。權利要求1、一種自然語言搜索的方法,其特徵在於,包括A、構建漢語框架知識庫CFN和專業領域知識本體庫,所述漢語框架知識庫中保存具有相同語義的多個詞元、框架以及構成框架的框架元素,其中所述框架用於表述所述相同語義;B、針對查詢用戶輸入的搜索語句,將所述搜索語句中的至少一個動詞與漢語框架知識庫中的詞元進行匹配,找到所述動詞所屬的框架,並根據所述框架中包含的框架元素對所述搜索語句進行標註;C、選擇所述動詞中的一個作為語義謂詞,並根據所述標註從所述搜索語句中提取出所述語義謂詞以及該語義謂詞的主體和/或客體生成三元組;D、將所述三元組作為查詢輸入,利用所述專業領域知識本體庫生成候選答案集。2、如權利要求l所述的方法,其特徵在於,所述漢語框架知識庫中的內容由i吾義Web才示i己i吾言4翁述。3、如權利要求2所述的方法,其特徵在於,所述語義Web標記語言包括可擴展標記語言XML、資源描述框架RDF、本體標記語言OWL。4、如權利要求1所述的方法,其特徵在於,所述漢語知識框架庫包括框架庫、句子庫和詞元庫所述框架庫是以框架為單位,保存框架的定義、構成框架的框架元素以及框架和框架之間的關係;所述句子庫記錄帶有框架語義標註信息的句子,所述帶有框架語義標註信息的句子是按照框架庫所提供的框架和框架元素標註句子的框架語義信息和句法信息;所述詞元庫保存每個框架所涉及到的詞元。5、如權利要求1所述的方法,其特徵在於,構建專業領域知識本體庫,包括參照與專業領域相關的分類體系標準構建該領域的本體模型;通過本體編輯工具把本體庫內^口識條目的概念、各知識條目的關係以及實例用語義Web標記語言表示,並存儲為計算機可讀的文檔格式。6、如權利要求l所述的方法,其特徵在於,所述步驟B之後,進一步包括當搜索語句中有多個動詞時,將每個動詞與本體庫中的條目關係進行比對得到所述動詞的語義指數,並根據所述語義指數選擇動詞作為所述語句的語義謂詞,所述語義指數用于衡量動詞的重要性。7、如權利要求l所述的方法,其特徵在於,所述步驟D,包括根據所述標註從所述搜索語句中提取具有語義信息的三元組;根據所述三元組生成查詢語句,在本體庫中查找與該三元組匹配的相關內容;如果查找成功則生成l矣選答案集;如果查找失敗,則利用相應的查詢MJ'J創建推理4幾進行推理,並生成相應的數據模型進行查詢,查詢成功後生成相應的候選答案集。8、如權利要求1或7所述的方法,其特徵在於,所述生成候選答案集之後,進一步包括對候選答案集中的答案進行排序,並將排序後的答案返回給查詢用戶。9、如權利要求l所述的方法,其特44於,當用戶輸入的搜索語句為問句時,在生成三元組之後,進一步包才舌進行問句分析,提取所述問句的疑問詞和疑問意向詞,得到該問句的詢問信息;將所述詢問信息和三元組作為查詢輸入,利用所述專業領域本體庫生成候選答案集。10、一種自然語言搜索裝置,其特徵在於,包括存儲模塊,用於存儲漢語框架知識庫CFN和專業領域知識本體庫,所述漢語框架知識庫中保存具有相同語義的多個詞元、框架以及構成框架的框架元素,其中所述框架用於表述所述相同語義;分析模塊,用於當查詢用戶輸入搜索語句時,將所述搜索語句中的至少一個動詞與漢語框架知識庫中的詞元進行匹配,找到所述動詞所屬的框架,並根據所述框架中包含的框架元素對所述搜索語句進行標註;語義謂詞才莫塊,用於選擇所述動詞中的一個作為語義謂詞,並才艮據所述標註組;答案生成模塊,用於將所述三元組作為查詢輸入,利用所述專業領域知識本體庫生成候選答案集。11、如權利要求IO所述的裝置,其特徵在於,所述存儲模塊還用於利用語義Web標記語言描述漢語框架知識庫中的內容。12、如權利要求10所述的裝置,其特徵在於,所述分析模塊包括框架確定單元,用於當查詢用戶輸入搜索語句時,將搜索語句中的動詞與漢語框架知識庫中的詞元進行匹配,找到所述動詞所屬的框架;標註單元,用於根據所述框架中包含的框架元素對所述搜索語句進行標註。13、如權利要求IO所述的裝置,其特徵在於,所述語義謂詞模塊包括選擇單元,用於從搜索語句的動詞中選擇一個動詞作為語義謂詞;提取單元,用於並根據所述標註從所述搜索語句中提取出所述語義謂詞以及該-i吾義謂詞的主體和/或客體生成三元糹且。14、如權利10所述的裝置,其特徵在於,所述答案生成才莫塊包括查詢單元,用於將所述三元組作為查詢4叟索輸入,利用所述專業領域知識本體庫生成候選答案集;推理單元,用於當查詢模塊查找失敗時,利用相應的查詢規則創建推理機進行推理,並生成相應的#史據才莫型進4於查詢生成候選答案集。15、如權利要求14所述的裝置,其特徵在於,所述答案生成糹莫塊還包括排序單元,用於對候選答案集中的答案進行排序,並根據該排序將答案返回給用戶。16、如權利要求13所述的裝置,其特徵在於,所iii^擇單元還用於當搜索語句中有多個動詞時,將每個動詞與本體庫中的條目關係進行比對得到所述動詞的語義指lt,並根據所述語義指數選擇一個動詞作為所述語句的語義謂詞,所述語義指數用于衡量動詞的重要性。17、如權利要求10所述的裝置,其特徵在於,該裝置還包括問句才莫塊,用於當用戶輸入的4叟索語句為問句時,進行問句分析,提取所述問句的疑問詞和疑問意向詞,得到該問句的詢問信息;則所述答案生成才莫塊還用於將所述詢問信息和三元組作為查詢輸入,利用所述專業領域本體庫生成候選答案集。全文摘要本發明公開了一種自然語言的搜索方法和裝置,該方法為構建漢語框架知識庫CFN和專業領域知識本體庫,然後利用漢語框架知識庫對自然語言搜索輸入的查詢語句進行漢語框架語義角色自動標註,並根據所述標註從查詢語句中提取具有語義信息的三元組,最後將所述三元組作為查詢輸入,利用所述本體庫生成查詢答案。應用本發明,能夠識別用戶自然語言輸入的搜索語句。並且在答案提取時,不需要大量的答案庫進行匹配。文檔編號G06F17/30GK101414310SQ20081022434公開日2009年4月22日申請日期2008年10月17日優先權日2008年10月17日發明者劉開瑛,劉海靜,呂國英,孫佔虎,宋小香,彭洪寶,茹李,李雙紅,王文晶,王瑞波,由麗萍,波谷,欣邢,郭海旭,郭韋昱,鍾立軍,陳雪豔,高俊傑申請人:山西大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀