一種利用語義分析的垂直搜尋引擎系統與方法

2023-08-08 10:10:41 3

專利名稱：一種利用語義分析的垂直搜尋引擎系統與方法
技術領域：
本發明涉及搜尋引擎系統，更具體地說，涉及一種語義分析技術，以及利用該語義分析技術實現的垂直搜尋引擎系統與方法。
背景技術：
搜尋引擎已經成為人們獲取信息的重要手段，它現在已經取代門戶網站，成為人們上網的首選入口。目前搜尋引擎所採用的技術，基本是以全文檢索為主的。其一般原理就是利用倒排文件的技術，將待搜索的文字文本建立索引，然後利用關鍵詞匹配的檢索技術，從索引庫中，把包含相關關鍵詞的內容返回給用戶。關鍵詞檢索技術一般利用詞頻等統計信息計算索引庫中的文檔和關鍵詞的相關度，然後按照相關度排序的方式給出包含這些關鍵詞的文檔。這種技術把關鍵詞當做一個字符串進行統計處理，基本上沒有考慮關鍵詞本身的語義和關鍵詞所在的語言環境。隨著搜尋引擎的普及，人們對搜尋引擎的期望也越來越高，把自然語言處理的技術，特別是語義處理技術融合到搜尋引擎中，成為搜尋引擎的發展趨勢。也有很多企業在做各種積極的嘗試。美國powerset搜尋引擎，在引擎中增加了語法分析，考慮了主謂賓的因素，能區分「A打敗B」和「B打敗A」是兩種不同的請求。Powerset只針對wikipedia進行了搜索，沒有提供網際網路全網搜索。Powerset已被微軟公司收購。美國的hakia搜尋引擎，利用施樂公司的自然語言處理技術，能對同義、泛化等現象進行處理。Congnition搜尋引擎能搜索wiki、法律、健康等內容，它在搜索時能區分每個詞不同的詞義，可以根據詞義選擇搜索結果。Silobreaker在關係搜索上做了一些探索，surfcanon在消除主流搜尋引擎(比如google)的搜索結果上做了一些嘗試，能對搜索結果的相關性進行調整。Swotti在產品評價上，能對評價進行分級，並分析出積極消極因素。Jodange在觀點提取方面做了一些工作，能提取在特定議題上擁有影響力的人物，監測他們的觀點如何隨時間的推移而轉變，以及他們如何推動媒體及公眾的情緒變化。另外，W3C也在推動語義網的研究，希望能對網際網路的內容加上語義標籤，但總體來說，語義網還處在研究階段。可以看出，目前的研究基本還處在詞語層面和語法層面(powerset、hakia、 congnition等)，或者針對某一方面的語義(swotti、jodange等)，還沒有考慮句子，甚至更大範圍的語義語境對搜索的影響。如專利號98101921. 8模擬大腦語言感知過程的自然語言句類分析方法中的句類分析方法

發明內容
本發明的目的是提供一種利用語義分析的垂直搜尋引擎系統與方法，以解決針對現有搜尋引擎技術還處在詞語層面和語法層面，或者針對某一方面的語義，還沒有考慮句子，甚至更大範圍的語義語境對搜索的影響的缺陷。本發明解決其技術問題所採用的技術方案是採用以句為單位的語義分析技術，
5提取文本中每個句子所表示的語境屬性，並對語境屬性進行切分標註；在索引時，為每種類型的語境屬性單獨建立索引；在檢索時，可以對不同語境屬性進行獨立檢索，也可以進行組合檢索。本發明所述的系統，包括負責對文本進行分析，提取文本中的語境屬性，形成帶語境屬性的標註文本的文本語義分析模塊；負責調用文本語義分析模塊，並根據分析結果，為待索引文本，在索引庫中建立索引的索引系統模塊；負責接收用戶的搜索請求，對請求進行解析，從索引庫中檢索到相應的結果，對結果進行合併和相關度計算，並返回給用戶的檢索系統模塊；文本語義分析模塊包含一個在管理員配置垂直搜尋引擎時，根據所屬的行業和領域的特點，所定義的文本語境屬性的分類標準的本體定義模塊、一個根據本體定義模塊，對待索引文檔進行分析，提取文檔中每個句子的語境屬性模塊，並把語境屬性標註到原始文檔中，形成帶語境屬性的標註文本。所述的文本語義分析模塊，以句子為單位，對文本中的每個句子進行語境屬性提取；提取的依據是以xml形式表示，定義了本體所屬的領域或行業、描述、定義者和定義時間，同時定義了多組語境屬性kmProp ；提取過程中，綜合了三方面的因素特徵詞出現的次數、特徵詞的概念屬性(動詞、抽象概念、具體概念)加權，以及特徵詞在句子中的語義地位加權；在所述的多組語境屬性kmProp中，每個語境屬性中有表示屬性名稱，表示標註在文本中的標籤，還有〈Character〉表示該屬性的特徵詞，特徵詞可以有多個，之間用逗號隔開。所述文本語義分析模塊包括以下步驟步驟21中，把文本以句號為單位斷開，對每個句子進行處理；步驟22中，判斷當前句子是否已經到文本末尾；如果是，則轉步驟四；否則轉步驟 23 ；步驟23中，調用句子語境屬性提取模塊(具體流程參見下文)，提取句子的語境屬性 SemPropN ；步驟M中，判斷當前句子提取的屬性 mPr0pN是否是該文本的第一個屬性；如果是，則轉步驟25 ；否則轉步驟沈；步驟25中，在文本的起始處設置屬性開始標誌；轉步驟21進行下一句處理；步驟沈中，判斷當前提取的屬性^mPropN和該文本的上一個屬性kmPropN-l是否一樣；如果是，則轉步驟21進行下一句處理；否則轉步驟27 ；步驟27中，在當前句子之前，設置上一個屬性的結束標誌〈AemPropN-D ；步驟28中，在當前句子之前，設置當前屬性的開始標誌〈SemPropN〉；轉步驟21進行下一句處理；步驟四中，在文本末尾處設置最後一個屬性的結束標誌〈/SemPropN〉；步驟210中，輸出帶屬性標誌的標註文本。所述文本語義分析模塊中的語境屬性模塊包括以下步驟步驟32中，對句子進行分詞處理；步驟33中，分析句子的語義結構(使用專利號為98101921. 8，模擬大腦語言感知過程的自然語言句類分析方法中的句類分析方法，分析句子的語義結構)；步驟34中，根據本體定義14，提取句子中所有的屬性特徵詞；步驟35中，對每個特徵詞word，取出它所屬的屬性kmPropi，該屬性的權值為 weight (SemPropi) = 1 ；步驟36中，判斷特徵詞word的詞性；如果是動詞，則轉步驟37 ；如果是抽象概念，則轉步驟38 ；如果是具體概念，則轉步驟39 ；步驟37中，特徵詞word的詞性是動詞，則weight (SemPropi) +5 ；步驟38中，特徵詞word的詞性是抽象概念(抽象概念的定義是其所指的對象不具有物理屬性的概念，可參見文獻《HNC(概念層次網絡)理論導論》苗傳江著，一般的，比如外交、差距等詞語都是抽象概念)，則weight (SemPropi) +2 ；步驟39中，特徵詞word的詞性是具體概念(具體概念的定義是其所指的對象具有物理屬性的概念，可參見文獻《HNC(概念層次網絡)理論導論》苗傳江著，一般的，比如手機、自行車等詞語都是具體概念)，則weight (SemPropi) +1 ；步驟310中，判斷特徵詞word在句子語義結構(該語義結構是經過步驟33得到的)中的位置，如果它是句子的核心(句子核心的判斷可參見專利98101921. 8)，則轉步驟 312 ；如果它是語義塊(語義塊的定義可參見專利98101921. 8)的核心，則轉步驟311 ；否則轉 313 ；步驟311 中，給屬性 SemPropi 的權值乘以 2, weight (SemPropi) = weight (SemPropi)*2 ；步驟312 中，給屬性 SemPropi 的權值乘以 3，weight (SemPropi) = weight (SemPropi) *3 ；步驟313 中，給屬性 SemPropi 的權值乘以 l,weight (SemPropi) = weight (SemPropi)*1 ；步驟314中，對句子中提取的所有的屬性kmPropi按權值排序，取出權值最大的一個 SemPropMax ；步驟315中，輸出kmPropMax為句子的語境屬性。所述索引系統模塊是對每個文檔的標註結果，提取其語境屬性，為每個語境屬性在索引庫中單獨建立索引，索引庫中的每個索引，都是以按字詞混排的倒排文件形式存儲。所述的索引模塊，索引過程包括以下步驟步驟41中，判斷是否已到文本末尾；如果是，則結束；否則轉步驟42 ；步驟42中，提取下一個屬性開始標誌；步驟43中，提取該屬性的結束標誌；步驟44中，對開始標誌和結束標誌之間的內容wordlist，進行分詞；步驟45中，判斷當前屬性^mPropN是否在索引庫中已存在；如果是，則轉步驟 47 ；否則轉步驟46 ；步驟46中，在索引庫17中增加一個子庫，其名為^mPropN ；轉步驟47 ；步驟47中，把wordlist的分詞結果，如果是詞，則把詞索引加入到索引子庫 SemPropN中；如果是字，則把字索引加入到索引子庫kmPropN中。所述檢索系統模塊包括搜索請求分析、對索引庫的檢索，以及檢索結果生成三個子模塊；搜索請求分析模塊解析用戶的請求，給出每個語境屬性的請求串和語境屬性之間的邏輯關係(與、或、非等)；搜索請求分析模塊在搜索請求串中，語境屬性有幾種表示方式可以在請求串中用語境屬性」或者「語境屬性」來表示；可以在搜索頁面上，採用勾選的方式選擇(類似於google搜尋引擎的高級檢索)；所述的搜索請求分析模塊把請求串解析為多個子請求串Qi以及Qi之間的邏輯關係，其中可以用「 0 」來表示層次關係；所述子請求串Qi用以下方式表示，其中Qi表示解析出的一個子請求串，wordlist表示Qi這個子請求串所包含的檢索詞，SemPropi表示Qi子請求串所對應的語境屬性，Ql =WordLiStiSemProplQ2 =WordListiSemProp2Qn WordLi StiSemPropN所述對索引庫的檢索模塊包括以下步驟步驟M中，對每個Qi進行檢索；步驟55中，選擇Qi對應的語境屬性kmPropi所在的子索引庫SemPropi_index ；步驟56中，在子索引中，對Qi的wordlist中的每個詞語word 進行檢索；步驟57中，對每個word檢索返回的結果，進行word和文檔之間的相關度計算，並排序；步驟58中，對wordlist中的所有詞語word的檢索結果集，進行與操作，形成子請求串Qi的結果集；檢索結果生成模塊包括以下步驟步驟59中，利用子請求串Qi之間的邏輯關係53，對所有Qi的結果集進行邏輯運算；步驟510中，對結果集進行相關度調整；並輸出結果集給用戶12。本發明的優點在於，利用語境屬性來表示詞語所在的語言環境，語境屬性綜合了詞語的出現次數、詞語的概念屬性和詞語在句子中的語義地位，這樣在檢索時，可以增加語言環境的限定，使得檢索結果的相關度更好。本發明特別適合於企業搜索、垂直搜索等與領域相關的搜尋引擎系統，也適合於通用搜尋引擎對大量「暗網」數據的處理。

圖1是本發明的語義搜尋引擎系統示意圖；圖2是本發明的文本語義分析流程圖；圖3是本發明的句子語境屬性提取流程圖；圖4是本發明的索引流程圖；圖5是本發明的檢索流程圖。
具體實施例方式下面將結合附圖及實施例對本發明作進一步說明。1.系統主要操作本發明所述的語義搜尋引擎系統示意圖如附圖1所示。系統主要有三個操作過程文本語義分析操作、索引操作和搜索操作。索引操作會調用語義分析操作，他們都是在後臺，由管理員完成的，對普通用戶是不可見的；搜索操作負責接收用戶的搜索請求，從索引庫中，檢索到相應的內容，並返回給用戶。文本語義分析的依據是本體定義，因此在分析之前，管理員必須先給出本體定義。對索引操作，本發明的重點在於語境屬性對索引的影響，至於索引庫的結構和具體的存儲方式，和一般搜尋引擎方法類似，不做特殊說明。對檢索操作，本發明的重點在於檢索過程如何增加語境屬性的影響，至於如何從索引庫中檢索、相關度的具體計算方式等，和一般搜尋引擎方法類似，不做特殊說明。在本發明所述的系統中，所述的待索引文檔11，主要指文字文本，包括網頁(html 或xml格式)和純文本。在本發明所述的系統中，所述的用戶12，是指通過網頁上的搜索框，提交搜索請求，獲取搜索結果的人。在本發明所述的系統中，所述的本體定義14，是管理員配置垂直搜尋引擎時，根據所屬的行業和領域的特點，所定義的文本語境屬性的分類標準。在本發明所述的系統中，所述的文本語義分析13，是根據本體定義14，對文本進行分析，提取文本中每個句子的語境屬性，並把語境屬性標註到原始文本中，形成帶語境屬性的標註文本15。在本發明所述的系統中，所述的索引過程16，是對每個文檔的標註結果15，提取其語境屬性，為每個語境屬性在索引庫17中單獨建立索引。索引庫17中的每個索引，都是以按字詞混排的倒排文件形式存儲。在本發明所述的系統中，所述的檢索過程，是指接收到用戶12的請求，搜索請求分析模塊19對請求進行解析，檢索模塊18負責從索引庫17中檢索到相應的結果，檢索結果生成模塊110對18返回的結果進行合併和相關度計算，並返回給用戶12。所述的本體定義14，是一個以xml形式表示的映射文件，該映射文件格式如下 wordl, word2,…，wordn</Character)所述的映射文件中，以開始，以結束。〈domain〉表示該本
體所屬的領域或行業，是對該本體文件的一些描述，〈author〉是該本體的定義者，是該本體定義的時間。映射文件中可以有多組，來定義多組語境屬性。每個語境屬性〈SemProp〉中有〈name〉表示屬性名稱，表示標註在文本中的標籤，還有〈Character〉表示該屬性的特徵詞，特徵詞可以有多個，之間用逗號隔開。
每個語境屬性的會出現在標註結果15中。每個在索引庫17中對應一個索引。所述的文本語義分析13，其輸入是待索引文本11，其輸出是語境屬性標註結果 15。該模塊利用語義分析技術，對文本中的每個句子進行語境屬性提取，如果相鄰兩個句子的語境屬性相同，則合併他們成為一個語境屬性標註。對每個句子處理時，如果本體定義14 中語境屬性的特徵詞出現，則激活語境屬性提取。提取過程中，綜合了三方面的因素特徵詞出現的次數、特徵詞的概念屬性(動詞、抽象概念、具體概念)加權，以及特徵詞在句子中的語義地位加權。具體過程可參見下面的實施例。所述的索引模塊16，其輸入是標註結果15，其輸出是索引庫17。該模塊負責從標註結果中獲取語境屬性，對每個語境屬性建立不同的子索引。索引過程需要對每個語境屬性之間的文本進行分詞，對其中的詞語建立詞索引，對其中不能構成詞的單字建立字索引。所述的檢索模塊，其輸入是用戶12輸入的搜索請求，其輸出是返回給用戶12的搜索結果。檢索模塊包括搜索請求分析19，對索引庫的檢索18，以及檢索結果生成110三個子模塊。搜索請求分析19負責解析用戶的請求，給出每個語境屬性的請求串和語境屬性之間的邏輯關係(與、或、非等)。索引庫的檢索18負責對每個語境屬性的請求串進行檢索，它只給出相應子索引的結果集。檢索結果生成110負責對18返回的結果集，按照語境屬性之間的邏輯關係，進行集合運算，並計算相關度。下面結合具體實施例，說明文本語義分析操作、句子語境屬性提取操作、索引操作流程和檢索操作流程。2.文本語義分析操作文本語義分析流程圖如附圖2所示。文本語義分析的輸入是待索引文本11和本體定義14。假設一個本體定義如下ITIT電子產品說明書的本體定義 ^H 2009-12-3 構成 const<Character)，1 功能 func<Character)

計算機 category</tag 〈Character〉顯示器，鍵盤，硬碟，內存〈/Character〉例子計算機由顯示器、硬碟、內存、CPU等構成。顯示器顯示內容給用戶。硬碟的功能是存儲數據。文本語義分析步驟如下步驟21中，把文本以句號為單位斷開，對每個句子進行處理；步驟22中，判斷當前句子是否已經到文本末尾；如果是，則轉步驟四；否則轉步驟 23 ；步驟23中，調用句子語境屬性提取模塊(具體流程見「句子語境屬性提取操作」)，提取句子的語境屬性^mPropN ；步驟M中，判斷當前句子提取的屬性 mPr0pN是否是該文本的第一個屬性；如果是，則轉步驟25 ；否則轉步驟沈；步驟25中，在文本的起始處設置屬性開始標誌〈SemPropN〉；轉步驟21進行下一句處理；步驟沈中，判斷當前提取的屬性^mPropN和該文本的上一個屬性kmPropN-l是否一樣；如果是，則轉步驟21進行下一句處理；否則轉步驟27 ；步驟27中，在當前句子之前，設置上一個屬性的結束標誌〈AemPropN-D ；步驟28中，在當前句子之前，設置當前屬性的開始標誌〈SemPropN〉；轉步驟21進行下一句處理；步驟四中，在文本末尾處設置最後一個屬性的結束標誌〈/SemPropN〉；步驟210中，輸出帶屬性標誌的標註文本；經過上述步驟，對文本中的每個句子都做了語境屬性的標註，給出了每個句子所表示的語言環境。這樣，相當於給文本中的每個詞語都賦予了語境屬性。對下面的文本的標註結果如下所示〈const〉計算機由顯示器、硬碟、內存、CPU等構成。顯示器用於顯示內容給用戶。硬碟的功能是存儲數據。3.句子語境屬性提取操作句子語境屬性提取流程圖如附圖3所示。句子語境屬性提取模塊的輸入是一個句子31，和本體定義14。例子S1計算機由顯示器、硬碟、內存、CPU等構成。S2顯示器顯示內容給用戶。S3 硬碟的功能是存儲數據。句子語境屬性提取步驟如下步驟32中，對句子進行分詞處理；步驟33中，調用句類分析方法，分析句子的語義結構；例子Sl {計算機} :B+{由} + {顯示器、硬碟、內存、CPU等} :B+{構成} =E0S2{顯示器} :B+{顯示} :E+{內容給用戶} :C。
S3{硬碟的功能}出+{是} :E+{存儲數據} =B0(其中，B表示語義結構中的對象，E是核心動詞，C是內容。)步驟34中，根據本體定義14，提取句子中所有的屬性特徵詞；Sl 顯示器、硬碟、內存、CPU構成S2 顯示器S3 硬碟功能步驟35中，對每個特徵詞word，取出它所屬的屬性kmPropi，該屬性的權值為 weight (SemPropi) = 1 ；例子:S1顯示器、硬碟、內存、CPU weight (category) = 4構成 weight (const) = 1S2 顯示器 weight (category) = 1S3 硬碟 weight (category) = 1功能 weight (func) = 1步驟36中，判斷特徵詞word的詞性；如果是動詞，則轉步驟37 ；如果是抽象概念，則轉步驟38 ；如果是具體概念，則轉步驟39 ；步驟37中，特徵詞word的詞性是動詞，則weight GemPropi)+5 ；例子=Sl 構成 weight (const) =1+5 = 6步驟38中，特徵詞word的詞性是抽象概念(抽象概念的定義是其所指的對象不具有物理屬性的概念比如外交、差距等詞語都是抽象概念)，則weight (SemPropi) +2 S3 功能 weight (func) = 1+2 = 3步驟39中，特徵詞word的詞性是具體概念(具體概念的定義是其所指的對象具有物理屬性的概念比如手機、自行車等詞語都是具體概念)，則weight (SemPropi)不變；例子Sl顯示器、硬碟、內存、CPU weight (category) = 4構成 weight (const) = 1+5 = 6S2 顯示器 weight (category) = 1S3 硬碟 weight (category) = 1功能 weight (func) =1+2 = 3步驟310中，判斷特徵詞word在句子語義結構(該語義結構是經過步驟33得到的)中的位置，如果它是句子的核心，則轉步驟312 ；如果它是語義塊的核心，則轉步驟311 ；否則轉313 ；步驟311 中，給屬性 kmPropi 的權值乘以 2，weight (SemPropi)= weight (SemPropi)*2 ；例子:S1顯示器、硬碟、內存、CPU weight (category) = 4*2 = 8構成 weight (const) = 1+5 = 6S2 顯示器 weight (category) = 1*2 = 2S3 硬碟 weight (category) = 1功能 weight (func) = 1+2 = 3*2 = 6
12
步驟312 中，給屬性 kmPropi 的權值乘以 3，weight (SemPropi)= weight (SemPropi)*3 ；例子:S1 構成 weight (const) = 1+5 = 6*3 = 18步驟313 中，給屬性 kmPropi 的權值乘以 1，weight (SemPropi)= weight (SemPropi)*1 ；Sl 顯示器、硬碟、內存、CPU weight (category) = 4*2 = 8構成 weight (const) = 1+5 = 6*3 = 18S2 顯示器 weight (category) = 1*2 = 2S3 硬碟 weight (category) = 1功能 weight (func) = 1+2 = 3*2 = 6步驟314中，對句子中提取的所有的屬性kmPropi按權值排序，取出權值最大的一個 SemPropMax ；仿Ij子Sl SemPropMax = 18S2 SemPropMax = 2S3 SemPropMax = 6步驟315中，輸出kmPropMax為句子的語境屬性；例子Sl :constS2 :constS3 func句子語境屬性提取過程中，綜合了三方面的因素特徵詞出現的次數。特徵詞的每次出現，都會給其權值weight至少加1 ；特徵詞的概念屬性。不同的概念屬性(動詞、抽象概念、具體概念)，其權值weight 的加權不同；特徵詞在句子中的語義地位加權。特徵詞在句子語義結構中的位置不同，說明它的作用也不同，因此也有不同的加權。4.索引操作索引流程圖如附圖4所示。索引模塊的輸入是待索引文本的標註結果15。索引模塊的步驟如下步驟41中，判斷是否已到文本末尾；如果是，則結束；否則轉步驟42 ；步驟42中，提取下一個屬性開始標誌；步驟43中，提取該屬性的結束標誌；步驟44中，對開始標誌和結束標誌之間的內容wordlist，進行分詞；步驟45中，判斷當前屬性kmPropN是否在索引庫中已存在；如果是，則轉步驟 47 ；否則轉步驟46 ；步驟46中，在索引庫17中增加一個子庫，其名為^mPropN ；轉步驟47 ；步驟47中，把wordlist的分詞結果，如果是詞，則把詞索引加入到索引子庫 SemPropN中；如果是字，則把字索引加入到索引子庫kmPropN中；5.檢索操作
檢索流程圖如附圖5所示。檢索模塊接收用戶12的搜索請求。假設有兩個文檔Docl和Doc2，其中都包含「顯示器」，其標註結果如下Docl :計算機由顯示器、硬碟、內存、CPU等構成。顯示器顯示內容給用戶。硬碟的功能是存儲數據。Doc2 :該纖維材料可用於製作顯示器的防輻射屏保。例子檢索「顯示器，在語境屬性「構成const」中，並且包含關鍵詞「功能」檢索模塊的步驟如下步驟51中，對搜索請求串進行解析，在搜索請求串中，語境屬性可以有幾種表示方式可以在請求串中用語境屬性」或者「語境屬性」來表示；可以在搜索頁面上，採用勾選的方式選擇(類似於google搜尋引擎的高級檢索)；請求串解析的結果有兩個1)每個語境屬性的檢索串52，可以表示為如下。其中Qi表示解析出的一個子請求串，wordlist表示Qi這個子請求串所包含的檢索詞，SemPropi表示Qi子請求串所對應的語境屬性。如果沒有「(^emPropN」，則說明不需要匹配語境屬性。Ql =WordLiStiSemProplQ2 =WordListiSemProp2Qn WordListiSemPropN例子Q1顯示器 OconstQ2 功能2)子請求串Qi之間的邏輯關係53。其中可以用「 0 」來表示層次關係。比如「 (Q1&Q2) |Q3」表示Ql子請求串先和Q2子請求串做邏輯與，其結果再和Q3做邏輯或。例子Q1&Q2步驟M中，對每個Qi進行檢索；步驟55中，選擇Qi對應的語境屬性kmPropi所在的子索引庫kmPropi_index ；例子Ql選擇const子索引Q2不選擇子索引步驟56中，在子索引中，對Qi的wordlist中的每個詞語word 進行檢索；例子Q1在const中檢索「顯示器」Q2在所有子索引中檢索「功能」步驟57中，對每個word檢索返回的結果，進行word和文檔之間的相關度計算，並排序；步驟58中，對wordlist中的所有詞語word的檢索結果集，進行與操作，形成子請求串Qi的結果集；例子:resultQl {docl}ResultQ2 {docl}
步驟59中，利用子請求串Qi之間的邏輯關係53，對所有Qi的結果集進行邏輯運算；例子:Result = {result} &{result2}步驟510中，對結果集進行相關度調整；並輸出結果集給用戶12。例子=Result = {docl}
權利要求
1.一種利用語義分析技術實現垂直搜尋引擎的方法，其特徵在於，採用以句為單位的語義分析技術，提取文本中每個句子所表示的語境屬性，並對語境屬性進行切分標註；在索引時，為每種類型的語境屬性單獨建立索引；在檢索時，可以對不同語境屬性進行獨立檢索，也可以進行組合檢索。
2.一種利用語義分析技術實現垂直搜尋引擎的系統，其特徵在於它包括負責對文本進行分析，提取文本中的語境屬性，形成帶語境屬性的標註文本的文本語義分析模塊；負責調用文本語義分析模塊，並根據分析結果，為待索引文本，在索引庫中建立索引的索引系統模塊；負責接收用戶的搜索請求，對請求進行解析，從索引庫中檢索到相應的結果，對結果進行合併和相關度計算，並返回給用戶的檢索系統模塊；文本語義分析模塊包含一個在管理員配置垂直搜尋引擎時，根據所屬的行業和領域的特點，所定義的文本語境屬性的分類標準的本體定義模塊、一個根據本體定義模塊，對待索引文檔進行分析，提取文檔中每個句子的語境屬性模塊，並把語境屬性標註到原始文檔中，形成帶語境屬性的標註文本。
3.根據權利要求2所述的一種利用語義分析技術實現垂直搜尋引擎的系統，其特徵在於，所述的文本語義分析模塊，以句子為單位，對文本中的每個句子進行語境屬性提取；提取的依據是以xml形式表示，定義了本體所屬的領域或行業、描述、定義者和定義時間，同時定義了多組語境屬性^^^叩；提取過程中，綜合了三方面的因素特徵詞出現的次數、特徵詞的概念屬性(動詞、抽象概念、具體概念)加權，以及特徵詞在句子中的語義地位加權；在所述的多組語境屬性kmProp中，每個語境屬性〈SemProp〉中有〈name〉表示屬性名稱，表示標註在文本中的標籤，還有〈Character〉表示該屬性的特徵詞，特徵詞可以有多個，之間用逗號隔開。
4.根據權利要求3所述的一種利用語義分析技術實現垂直搜尋引擎的系統，其特徵在於，所述文本語義分析模塊包括以下步驟步驟21中，把文本以句號為單位斷開，對每個句子進行處理；步驟22中，判斷當前句子是否已經到文本末尾；如果是，則轉步驟四；否則轉步驟23 ；步驟23中，調用句子語境屬性提取模塊，提取句子的語境屬性kmPropN ；步驟M中，判斷當前句子提取的屬性kmPropN是否是該文本的第一個屬性；如果是，則轉步驟25 ；否則轉步驟沈；步驟25中，在文本的起始處設置屬性開始標誌〈SemPropN〉；轉步驟21進行下一句處理；步驟沈中，判斷當前提取的屬性^mPropN和該文本的上一個屬性kmPropN-1是否一樣；如果是，則轉步驟21進行下一句處理；否則轉步驟27 ；步驟27中，在當前句子之前，設置上一個屬性的結束標誌〈AemPropN-D ；步驟觀中，在當前句子之前，設置當前屬性的開始標誌〈SemPropN〉；轉步驟21進行下一句處理；步驟四中，在文本末尾處設置最後一個屬性的結束標誌〈/SemPropN〉；步驟210中，輸出帶屬性標誌的標註文本。
5.根據權利要求3所述的一種利用語義分析技術實現垂直搜尋引擎的系統，其特徵在於，所述文本語義分析模塊中的語境屬性模塊包括以下步驟步驟32中，對句子進行分詞處理；2步驟33中，分析句子的語義結構；步驟34中，根據本體定義14，提取句子中所有的屬性特徵詞；步驟35中，對每個特徵詞word，取出它所屬的屬性kmPropi，該屬性的權值為 weight (SemPropi) = 1 ；步驟36中，判斷特徵詞word的詞性；如果是動詞，則轉步驟37 ；如果是抽象概念，則轉步驟38 ；如果是具體概念，則轉步驟39 ；步驟37中，特徵詞word的詞性是動詞，則weight (SemPropi) +5 ；步驟38中，特徵詞word的詞性是抽象概念，則weight (SemPropi) +2 ；步驟39中，特徵詞word的詞性是具體概念，則weight (SemPropi) +1 ；步驟310中，判斷特徵詞word在句子語義結構(該語義結構是經過步驟33得到的) 中的位置，如果它是句子的核心，則轉步驟312 ；如果它是語義塊的核心，則轉步驟311 ；否則轉313 ；步驟311 中，給屬性 SemPropi 的權值乘以 2，weight GemPropi) = weight (SemPropi) ；步驟 312 中，給屬性 SemPropi 的權值乘以 3，weight GemPropi) = weight (SemPropi) ；步驟 313 中，給屬性 SemPropi 的權值乘以 1，weight (SemPropi) = weight (SemPropi) * 1 ；步驟314中，對句子中提取的所有的屬性kmPropi按權值排序，取出權值最大的一個 SemPropMax ；步驟315中，輸出kmPropMax為句子的語境屬性。
6.根據權利要求2所述的一種利用語義分析技術實現垂直搜尋引擎的系統，其特徵在於，所述索引系統模塊是對每個文檔的標註結果，提取其語境屬性，為每個語境屬性在索引庫中單獨建立索引，索引庫中的每個索引，都是以按字詞混排的倒排文件形式存儲。
7.根據權利要求6所述的一種利用語義分析技術實現垂直搜尋引擎的系統，其特徵在於，所述的索引模塊，索引過程包括以下步驟步驟41中，判斷是否已到文本末尾；如果是，則結束；否則轉步驟42 ；步驟42中，提取下一個屬性開始標誌〈SemPropN〉；步驟43中，提取該屬性的結束標誌〈/SemPropN〉；步驟44中，對開始標誌和結束標誌之間的內容wordlist，進行分詞；步驟45中，判斷當前屬性kmPropN是否在索引庫中已存在；如果是，則轉步驟47 ；否則轉步驟46 ；步驟46中，在索引庫17中增加一個子庫，其名為kmPropN ；轉步驟47 ；步驟47中，把wordlist的分詞結果，如果是詞，則把詞索引加入到索引子庫MmPropN 中；如果是字，則把字索引加入到索引子庫kmPropN中。
8.根據權利要求2所述的一種利用語義分析技術實現垂直搜尋引擎的系統，其特徵在於，所述檢索系統模塊包括搜索請求分析、對索引庫的檢索，以及檢索結果生成三個子模塊；搜索請求分析模塊解析用戶的請求，給出每個語境屬性的請求串和語境屬性之間的邏輯關係(與、或、非等)；搜索請求分析模塊在搜索請求串中，語境屬性有幾種表示方式可以在請求串中用語境屬性」或者「語境屬性」來表示；可以在搜索頁面上，採用勾選的方式選擇(類似於google搜尋引擎的高級檢索)；所述的搜索請求分析模塊把請求串解析為多個子請求串Qi以及Qi之間的邏輯關係，其中可以用「」來表示層次關係；所述子請求串Qi用以下方式表示，其中Qi表示解析出的一個子請求串，wordlist表示Qi這個子請求串所包含的檢索詞，SemPropi表示Qi子請求串所對應的語境屬性， Ql =WordListiSemPropl Q2 =WordListiSemProp2 Qn WordLiStiSemPropN 所述對索引庫的檢索模塊包括以下步驟步驟M中，對每個Qi進行檢索；步驟55中，選擇Qi對應的語境屬性kmPropi所在的子索引庫kmPropi_index ；步驟56中，在子索引中，對Qi的wordlist中的每個詞語word進行檢索；步驟57中，對每個word檢索返回的結果，進行word和文檔之間的相關度計算，並排序；步驟58中，對wordl i st中的所有詞語word的檢索結果集，進行與操作，形成子請求串 Qi的結果集；檢索結果生成模塊包括以下步驟步驟59中，利用子請求串Qi之間的邏輯關係53，對所有Qi的結果集進行邏輯運算；步驟510中，對結果集進行相關度調整；並輸出結果集給用戶12。
全文摘要
本發明公開了一種利用語義分析的垂直搜尋引擎系統與方法。該系統包括文本語義分析、索引系統、檢索系統三個模塊。文本語義分析模塊以句為單位，提取文本中每個句子所表示的語境屬性，並對語境屬性進行切分標註；語境屬性綜合了詞語的出現次數、詞語的概念屬性和詞語在句子中的語義地位；索引模塊為每種類型的語境屬性單獨建立索引；在檢索時，可以對不同語境屬性進行獨立檢索，也可以進行組合檢索。本發明的優點在於，利用語境屬性來表示詞語所在的語言環境，這樣在檢索時，可以增加語言環境的限定，使得檢索結果的相關度更好。本發明特別適合於企業搜索、垂直搜索等與領域相關的搜尋引擎系統，也適合於通用搜尋引擎對大量「暗網」數據的處理。
文檔編號G06F17/30GK102200975SQ201010132348
公開日2011年9月28日申請日期2010年3月25日優先權日2010年3月25日
發明者晉耀紅申請人:北京師範大學

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

一種利用語義分析的垂直搜尋引擎系統與方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法