新四季網

一種利用語義分析的垂直搜尋引擎系統與方法

2023-08-08 10:10:41 2

專利名稱:一種利用語義分析的垂直搜尋引擎系統與方法
技術領域:
本發明涉及搜尋引擎系統,更具體地說,涉及一種語義分析技術,以及利用該語義分析技術實現的垂直搜尋引擎系統與方法。
背景技術:
搜尋引擎已經成為人們獲取信息的重要手段,它現在已經取代門戶網站,成為人們上網的首選入口。目前搜尋引擎所採用的技術,基本是以全文檢索為主的。其一般原理就是利用倒排文件的技術,將待搜索的文字文本建立索引,然後利用關鍵詞匹配的檢索技術,從索引庫中,把包含相關關鍵詞的內容返回給用戶。關鍵詞檢索技術一般利用詞頻等統計信息計算索引庫中的文檔和關鍵詞的相關度,然後按照相關度排序的方式給出包含這些關鍵詞的文檔。這種技術把關鍵詞當做一個字符串進行統計處理,基本上沒有考慮關鍵詞本身的語義和關鍵詞所在的語言環境。隨著搜尋引擎的普及,人們對搜尋引擎的期望也越來越高,把自然語言處理的技術,特別是語義處理技術融合到搜尋引擎中,成為搜尋引擎的發展趨勢。也有很多企業在做各種積極的嘗試。美國powerset搜尋引擎,在引擎中增加了語法分析,考慮了主謂賓的因素,能區分「A打敗B」和「B打敗A」是兩種不同的請求。Powerset只針對wikipedia進行了搜索,沒有提供網際網路全網搜索。Powerset已被微軟公司收購。美國的hakia搜尋引擎, 利用施樂公司的自然語言處理技術,能對同義、泛化等現象進行處理。Congnition搜尋引擎能搜索wiki、法律、健康等內容,它在搜索時能區分每個詞不同的詞義,可以根據詞義選擇搜索結果。Silobreaker在關係搜索上做了一些探索,surfcanon在消除主流搜尋引擎(比如google)的搜索結果上做了一些嘗試,能對搜索結果的相關性進行調整。Swotti在產品評價上,能對評價進行分級,並分析出積極消極因素。Jodange在觀點提取方面做了一些工作,能提取在特定議題上擁有影響力的人物,監測他們的觀點如何隨時間的推移而轉變,以及他們如何推動媒體及公眾的情緒變化。另外,W3C也在推動語義網的研究,希望能對網際網路的內容加上語義標籤,但總體來說,語義網還處在研究階段。可以看出,目前的研究基本還處在詞語層面和語法層面(powerset、hakia、 congnition等),或者針對某一方面的語義(swotti、jodange等),還沒有考慮句子,甚至更大範圍的語義語境對搜索的影響。如專利號98101921. 8模擬大腦語言感知過程的自然語言句類分析方法中的句類分析方法

發明內容
本發明的目的是提供一種利用語義分析的垂直搜尋引擎系統與方法,以解決針對現有搜尋引擎技術還處在詞語層面和語法層面,或者針對某一方面的語義,還沒有考慮句子,甚至更大範圍的語義語境對搜索的影響的缺陷。本發明解決其技術問題所採用的技術方案是採用以句為單位的語義分析技術,
5提取文本中每個句子所表示的語境屬性,並對語境屬性進行切分標註;在索引時,為每種類型的語境屬性單獨建立索引;在檢索時,可以對不同語境屬性進行獨立檢索,也可以進行組合檢索。本發明所述的系統,包括負責對文本進行分析,提取文本中的語境屬性,形成帶語境屬性的標註文本的文本語義分析模塊;負責調用文本語義分析模塊,並根據分析結果, 為待索引文本,在索引庫中建立索引的索引系統模塊;負責接收用戶的搜索請求,對請求進行解析,從索引庫中檢索到相應的結果,對結果進行合併和相關度計算,並返回給用戶的檢索系統模塊;文本語義分析模塊包含一個在管理員配置垂直搜尋引擎時,根據所屬的行業和領域的特點,所定義的文本語境屬性的分類標準的本體定義模塊、一個根據本體定義模塊,對待索引文檔進行分析,提取文檔中每個句子的語境屬性模塊,並把語境屬性標註到原始文檔中,形成帶語境屬性的標註文本。所述的文本語義分析模塊,以句子為單位,對文本中的每個句子進行語境屬性提取;提取的依據是以xml形式表示,定義了本體所屬的領域或行業、描述、定義者和定義時間,同時定義了多組語境屬性kmProp ;提取過程中,綜合了三方面的因素特徵詞出現的次數、特徵詞的概念屬性(動詞、抽象概念、具體概念)加權,以及特徵詞在句子中的語義地位加權;在所述的多組語境屬性kmProp中,每個語境屬性中有表示屬性名稱,表示標註在文本中的標籤,還有〈Character〉表示該屬性的特徵詞,特徵詞可以有多個,之間用逗號隔開。所述文本語義分析模塊包括以下步驟步驟21中,把文本以句號為單位斷開,對每個句子進行處理;步驟22中,判斷當前句子是否已經到文本末尾;如果是,則轉步驟四;否則轉步驟 23 ;步驟23中,調用句子語境屬性提取模塊(具體流程參見下文),提取句子的語境屬性 SemPropN ;步驟M中,判斷當前句子提取的屬性 mPr0pN是否是該文本的第一個屬性;如果是,則轉步驟25 ;否則轉步驟沈;步驟25中,在文本的起始處設置屬性開始標誌 ;轉步驟21進行下一句處理;步驟沈中,判斷當前提取的屬性^mPropN和該文本的上一個屬性kmPropN-l是否一樣;如果是,則轉步驟21進行下一句處理;否則轉步驟27 ;步驟27中,在當前句子之前,設置上一個屬性的結束標誌〈AemPropN-D ;步驟28中,在當前句子之前,設置當前屬性的開始標誌〈SemPropN〉;轉步驟21進行下一句處理;步驟四中,在文本末尾處設置最後一個屬性的結束標誌〈/SemPropN〉;步驟210中,輸出帶屬性標誌的標註文本。所述文本語義分析模塊中的語境屬性模塊包括以下步驟步驟32中,對句子進行分詞處理;步驟33中,分析句子的語義結構(使用專利號為98101921. 8,模擬大腦語言感知過程的自然語言句類分析方法中的句類分析方法,分析句子的語義結構);步驟34中,根據本體定義14,提取句子中所有的屬性特徵詞;步驟35中,對每個特徵詞word,取出它所屬的屬性kmPropi,該屬性的權值為 weight (SemPropi) = 1 ;步驟36中,判斷特徵詞word的詞性;如果是動詞,則轉步驟37 ;如果是抽象概念, 則轉步驟38 ;如果是具體概念,則轉步驟39 ;步驟37中,特徵詞word的詞性是動詞,則weight (SemPropi) +5 ;步驟38中,特徵詞word的詞性是抽象概念(抽象概念的定義是其所指的對象不具有物理屬性的概念,可參見文獻《HNC(概念層次網絡)理論導論》苗傳江著,一般的,比如外交、差距等詞語都是抽象概念),則weight (SemPropi) +2 ;步驟39中,特徵詞word的詞性是具體概念(具體概念的定義是其所指的對象具有物理屬性的概念,可參見文獻《HNC(概念層次網絡)理論導論》苗傳江著,一般的,比如手機、自行車等詞語都是具體概念),則weight (SemPropi) +1 ;步驟310中,判斷特徵詞word在句子語義結構(該語義結構是經過步驟33得到的)中的位置,如果它是句子的核心(句子核心的判斷可參見專利98101921. 8),則轉步驟 312 ;如果它是語義塊(語義塊的定義可參見專利98101921. 8)的核心,則轉步驟311 ;否則轉 313 ;步驟311 中,給屬性 SemPropi 的權值乘以 2, weight (SemPropi) = weight (SemPropi)*2 ;步驟312 中,給屬性 SemPropi 的權值乘以 3,weight (SemPropi) = weight (SemPropi) *3 ;步驟313 中,給屬性 SemPropi 的權值乘以 l,weight (SemPropi) = weight (SemPropi)*1 ;步驟314中,對句子中提取的所有的屬性kmPropi按權值排序,取出權值最大的一個 SemPropMax ;步驟315中,輸出kmPropMax為句子的語境屬性。所述索引系統模塊是對每個文檔的標註結果,提取其語境屬性,為每個語境屬性在索引庫中單獨建立索引,索引庫中的每個索引,都是以按字詞混排的倒排文件形式存儲。所述的索引模塊,索引過程包括以下步驟步驟41中,判斷是否已到文本末尾;如果是,則結束;否則轉步驟42 ;步驟42中,提取下一個屬性開始標誌 ;步驟43中,提取該屬性的結束標誌 ;步驟44中,對開始標誌和結束標誌之間的內容wordlist,進行分詞;步驟45中,判斷當前屬性^mPropN是否在索引庫中已存在;如果是,則轉步驟 47 ;否則轉步驟46 ;步驟46中,在索引庫17中增加一個子庫,其名為^mPropN ;轉步驟47 ;步驟47中,把wordlist的分詞結果,如果是詞,則把詞索引加入到索引子庫 SemPropN中;如果是字,則把字索引加入到索引子庫kmPropN中。所述檢索系統模塊包括搜索請求分析、對索引庫的檢索,以及檢索結果生成三個子模塊;搜索請求分析模塊解析用戶的請求,給出每個語境屬性的請求串和語境屬性之間的邏輯關係(與、或、非等);搜索請求分析模塊在搜索請求串中,語境屬性有幾種表示方式可以在請求串中用語境屬性」或者「語境屬性」來表示;可以在搜索頁面上,採用勾選的方式選擇(類似於google搜尋引擎的高級檢索);所述的搜索請求分析模塊把請求串解析為多個子請求串Qi以及Qi之間的邏輯關係,其中可以用「 0 」來表示層次關係;所述子請求串Qi用以下方式表示,其中Qi表示解析出的一個子請求串,wordlist表示Qi這個子請求串所包含的檢索詞,SemPropi表示Qi子請求串所對應的語境屬性,Ql =WordLiStiSemProplQ2 =WordListiSemProp2Qn WordLi StiSemPropN所述對索引庫的檢索模塊包括以下步驟步驟M中,對每個Qi進行檢索;步驟55中,選擇Qi對應的語境屬性kmPropi所在的子索引庫SemPropi_index ;步驟56中,在子索引中,對Qi的wordlist中的每個詞語word 進行檢索;步驟57中,對每個word檢索返回的結果,進行word和文檔之間的相關度計算,並排序;步驟58中,對wordlist中的所有詞語word的檢索結果集,進行與操作,形成子請求串Qi的結果集;檢索結果生成模塊包括以下步驟步驟59中,利用子請求串Qi之間的邏輯關係53,對所有Qi的結果集進行邏輯運算;步驟510中,對結果集進行相關度調整;並輸出結果集給用戶12。本發明的優點在於,利用語境屬性來表示詞語所在的語言環境,語境屬性綜合了詞語的出現次數、詞語的概念屬性和詞語在句子中的語義地位,這樣在檢索時,可以增加語言環境的限定,使得檢索結果的相關度更好。本發明特別適合於企業搜索、垂直搜索等與領域相關的搜尋引擎系統,也適合於通用搜尋引擎對大量「暗網」數據的處理。


圖1是本發明的語義搜尋引擎系統示意圖;圖2是本發明的文本語義分析流程圖;圖3是本發明的句子語境屬性提取流程圖;圖4是本發明的索引流程圖;圖5是本發明的檢索流程圖。
具體實施例方式下面將結合附圖及實施例對本發明作進一步說明。1.系統主要操作本發明所述的語義搜尋引擎系統示意圖如附圖1所示。系統主要有三個操作過程文本語義分析操作、索引操作和搜索操作。索引操作會調用語義分析操作,他們都是在後臺,由管理員完成的,對普通用戶是不可見的;搜索操作負責接收用戶的搜索請求,從索引庫中,檢索到相應的內容,並返回給用戶。文本語義分析的依據是本體定義,因此在分析之前,管理員必須先給出本體定義。對索引操作,本發明的重點在於語境屬性對索引的影響,至於索引庫的結構和具體的存儲方式,和一般搜尋引擎方法類似,不做特殊說明。對檢索操作,本發明的重點在於檢索過程如何增加語境屬性的影響,至於如何從索引庫中檢索、相關度的具體計算方式等,和一般搜尋引擎方法類似,不做特殊說明。在本發明所述的系統中,所述的待索引文檔11,主要指文字文本,包括網頁(html 或xml格式)和純文本。在本發明所述的系統中,所述的用戶12,是指通過網頁上的搜索框,提交搜索請求,獲取搜索結果的人。在本發明所述的系統中,所述的本體定義14,是管理員配置垂直搜尋引擎時,根據所屬的行業和領域的特點,所定義的文本語境屬性的分類標準。在本發明所述的系統中,所述的文本語義分析13,是根據本體定義14,對文本進行分析,提取文本中每個句子的語境屬性,並把語境屬性標註到原始文本中,形成帶語境屬性的標註文本15。在本發明所述的系統中,所述的索引過程16,是對每個文檔的標註結果15,提取其語境屬性,為每個語境屬性在索引庫17中單獨建立索引。索引庫17中的每個索引,都是以按字詞混排的倒排文件形式存儲。在本發明所述的系統中,所述的檢索過程,是指接收到用戶12的請求,搜索請求分析模塊19對請求進行解析,檢索模塊18負責從索引庫17中檢索到相應的結果,檢索結果生成模塊110對18返回的結果進行合併和相關度計算,並返回給用戶12。所述的本體定義14,是一個以xml形式表示的映射文件,該映射文件格式如下 wordl, word2,…,wordn</Character)所述的映射文件中,以開始,以結束。〈domain〉表示該本
體所屬的領域或行業,是對該本體文件的一些描述,〈author〉是該本體的定義者, 是該本體定義的時間。映射文件中可以有多組,來定義多組語境屬性。每個語境屬性〈SemProp〉中有〈name〉表示屬性名稱,表示標註在文本中的標籤,還有〈Character〉表示該屬性的特徵詞,特徵詞可以有多個,之間用逗號隔開。
每個語境屬性的會出現在標註結果15中。每個在索引庫17中對應一個索引。所述的文本語義分析13,其輸入是待索引文本11,其輸出是語境屬性標註結果 15。該模塊利用語義分析技術,對文本中的每個句子進行語境屬性提取,如果相鄰兩個句子的語境屬性相同,則合併他們成為一個語境屬性標註。對每個句子處理時,如果本體定義14 中語境屬性的特徵詞出現,則激活語境屬性提取。提取過程中,綜合了三方面的因素特徵詞出現的次數、特徵詞的概念屬性(動詞、抽象概念、具體概念)加權,以及特徵詞在句子中的語義地位加權。具體過程可參見下面的實施例。所述的索引模塊16,其輸入是標註結果15,其輸出是索引庫17。該模塊負責從標註結果中獲取語境屬性,對每個語境屬性建立不同的子索引。索引過程需要對每個語境屬性之間的文本進行分詞,對其中的詞語建立詞索引,對其中不能構成詞的單字建立字索引。所述的檢索模塊,其輸入是用戶12輸入的搜索請求,其輸出是返回給用戶12的搜索結果。檢索模塊包括搜索請求分析19,對索引庫的檢索18,以及檢索結果生成110三個子模塊。搜索請求分析19負責解析用戶的請求,給出每個語境屬性的請求串和語境屬性之間的邏輯關係(與、或、非等)。索引庫的檢索18負責對每個語境屬性的請求串進行檢索, 它只給出相應子索引的結果集。檢索結果生成110負責對18返回的結果集,按照語境屬性之間的邏輯關係,進行集合運算,並計算相關度。下面結合具體實施例,說明文本語義分析操作、句子語境屬性提取操作、索引操作流程和檢索操作流程。2.文本語義分析操作文本語義分析流程圖如附圖2所示。文本語義分析的輸入是待索引文本11和本體定義14。假設一個本體定義如下ITIT電子產品說明書的本體定義 ^H 2009-12-3 構成 const<Character),1 功能 func<Character)

計算機 category</tag 〈Character〉顯示器,鍵盤,硬碟,內存〈/Character〉 例子計算機由顯示器、硬碟、內存、CPU等構成。顯示器顯示內容給用戶。硬碟的功能是存儲數據。文本語義分析步驟如下步驟21中,把文本以句號為單位斷開,對每個句子進行處理;步驟22中,判斷當前句子是否已經到文本末尾;如果是,則轉步驟四;否則轉步驟 23 ;步驟23中,調用句子語境屬性提取模塊(具體流程見「句子語境屬性提取操作」), 提取句子的語境屬性^mPropN ;步驟M中,判斷當前句子提取的屬性 mPr0pN是否是該文本的第一個屬性;如果是,則轉步驟25 ;否則轉步驟沈;步驟25中,在文本的起始處設置屬性開始標誌〈SemPropN〉;轉步驟21進行下一句處理;步驟沈中,判斷當前提取的屬性^mPropN和該文本的上一個屬性kmPropN-l是否一樣;如果是,則轉步驟21進行下一句處理;否則轉步驟27 ;步驟27中,在當前句子之前,設置上一個屬性的結束標誌〈AemPropN-D ;步驟28中,在當前句子之前,設置當前屬性的開始標誌〈SemPropN〉;轉步驟21進行下一句處理;步驟四中,在文本末尾處設置最後一個屬性的結束標誌〈/SemPropN〉;步驟210中,輸出帶屬性標誌的標註文本;經過上述步驟,對文本中的每個句子都做了語境屬性的標註,給出了每個句子所表示的語言環境。這樣,相當於給文本中的每個詞語都賦予了語境屬性。對下面的文本的標註結果如下所示〈const〉計算機由顯示器、硬碟、內存、CPU等構成。顯示器用於顯示內容給用戶。 硬碟的功能是存儲數據。3.句子語境屬性提取操作句子語境屬性提取流程圖如附圖3所示。句子語境屬性提取模塊的輸入是一個句子31,和本體定義14。例子S1計算機由顯示器、硬碟、內存、CPU等構成。S2顯示器顯示內容給用戶。S3 硬碟的功能是存儲數據。句子語境屬性提取步驟如下步驟32中,對句子進行分詞處理;步驟33中,調用句類分析方法,分析句子的語義結構;例子Sl {計算機} :B+{由} + {顯示器、硬碟、內存、CPU等} :B+{構成} =E0S2{顯示器} :B+{顯示} :E+{內容給用戶} :C。
S3{硬碟的功能}出+{是} :E+{存儲數據} =B0(其中,B表示語義結構中的對象,E是核心動詞,C是內容。)步驟34中,根據本體定義14,提取句子中所有的屬性特徵詞;Sl 顯示器、硬碟、內存、CPU構成S2 顯示器S3 硬碟功能步驟35中,對每個特徵詞word,取出它所屬的屬性kmPropi,該屬性的權值為 weight (SemPropi) = 1 ;例子:S1顯示器、硬碟、內存、CPU weight (category) = 4構成 weight (const) = 1S2 顯示器 weight (category) = 1S3 硬碟 weight (category) = 1功能 weight (func) = 1步驟36中,判斷特徵詞word的詞性;如果是動詞,則轉步驟37 ;如果是抽象概念, 則轉步驟38 ;如果是具體概念,則轉步驟39 ;步驟37中,特徵詞word的詞性是動詞,則weight GemPropi)+5 ;例子=Sl 構成 weight (const) =1+5 = 6步驟38中,特徵詞word的詞性是抽象概念(抽象概念的定義是其所指的對象不具有物理屬性的概念比如外交、差距等詞語都是抽象概念),則weight (SemPropi) +2 S3 功能 weight (func) = 1+2 = 3步驟39中,特徵詞word的詞性是具體概念(具體概念的定義是其所指的對象具有物理屬性的概念比如手機、自行車等詞語都是具體概念),則weight (SemPropi)不變;例子Sl顯示器、硬碟、內存、CPU weight (category) = 4構成 weight (const) = 1+5 = 6S2 顯示器 weight (category) = 1S3 硬碟 weight (category) = 1功能 weight (func) =1+2 = 3步驟310中,判斷特徵詞word在句子語義結構(該語義結構是經過步驟33得到的)中的位置,如果它是句子的核心,則轉步驟312 ;如果它是語義塊的核心,則轉步驟311 ; 否則轉313 ;步驟311 中,給屬性 kmPropi 的權值乘以 2,weight (SemPropi)= weight (SemPropi)*2 ;例子:S1顯示器、硬碟、內存、CPU weight (category) = 4*2 = 8構成 weight (const) = 1+5 = 6S2 顯示器 weight (category) = 1*2 = 2S3 硬碟 weight (category) = 1功能 weight (func) = 1+2 = 3*2 = 6
12
步驟312 中,給屬性 kmPropi 的權值乘以 3,weight (SemPropi)= weight (SemPropi)*3 ;例子:S1 構成 weight (const) = 1+5 = 6*3 = 18步驟313 中,給屬性 kmPropi 的權值乘以 1,weight (SemPropi)= weight (SemPropi)*1 ;Sl 顯示器、硬碟、內存、CPU weight (category) = 4*2 = 8構成 weight (const) = 1+5 = 6*3 = 18S2 顯示器 weight (category) = 1*2 = 2S3 硬碟 weight (category) = 1功能 weight (func) = 1+2 = 3*2 = 6步驟314中,對句子中提取的所有的屬性kmPropi按權值排序,取出權值最大的一個 SemPropMax ;仿Ij子Sl SemPropMax = 18S2 SemPropMax = 2S3 SemPropMax = 6步驟315中,輸出kmPropMax為句子的語境屬性;例子Sl :constS2 :constS3 func句子語境屬性提取過程中,綜合了三方面的因素特徵詞出現的次數。特徵詞的每次出現,都會給其權值weight至少加1 ;特徵詞的概念屬性。不同的概念屬性(動詞、抽象概念、具體概念),其權值weight 的加權不同;特徵詞在句子中的語義地位加權。特徵詞在句子語義結構中的位置不同,說明它的作用也不同,因此也有不同的加權。4.索引操作索引流程圖如附圖4所示。索引模塊的輸入是待索引文本的標註結果15。索引模塊的步驟如下步驟41中,判斷是否已到文本末尾;如果是,則結束;否則轉步驟42 ;步驟42中,提取下一個屬性開始標誌 ;步驟43中,提取該屬性的結束標誌 ;步驟44中,對開始標誌和結束標誌之間的內容wordlist,進行分詞;步驟45中,判斷當前屬性kmPropN是否在索引庫中已存在;如果是,則轉步驟 47 ;否則轉步驟46 ;步驟46中,在索引庫17中增加一個子庫,其名為^mPropN ;轉步驟47 ;步驟47中,把wordlist的分詞結果,如果是詞,則把詞索引加入到索引子庫 SemPropN中;如果是字,則把字索引加入到索引子庫kmPropN中;5.檢索操作
檢索流程圖如附圖5所示。檢索模塊接收用戶12的搜索請求。假設有兩個文檔Docl和Doc2,其中都包含「顯示器」,其標註結果如下Docl :計算機由顯示器、硬碟、內存、CPU等構成。顯示器顯示內容給用戶。 硬碟的功能是存儲數據。Doc2 :該纖維材料可用於製作顯示器的防輻射屏保。例子檢索「顯示器,在語境屬性「構成const」中,並且包含關鍵詞「功能」檢索模塊的步驟如下步驟51中,對搜索請求串進行解析,在搜索請求串中,語境屬性可以有幾種表示方式可以在請求串中用語境屬性」或者「語境屬性」來表示;可以在搜索頁面上,採用勾選的方式選擇(類似於google搜尋引擎的高級檢索);請求串解析的結果有兩個1)每個語境屬性的檢索串52,可以表示為如下。其中Qi表示解析出的一個子請求串,wordlist表示Qi這個子請求串所包含的檢索詞,SemPropi表示Qi子請求串所對應的語境屬性。如果沒有「(^emPropN」,則說明不需要匹配語境屬性。Ql =WordLiStiSemProplQ2 =WordListiSemProp2Qn WordListiSemPropN例子Q1顯示器 OconstQ2 功能2)子請求串Qi之間的邏輯關係53。其中可以用「 0 」來表示層次關係。比如 「 (Q1&Q2) |Q3」表示Ql子請求串先和Q2子請求串做邏輯與,其結果再和Q3做邏輯或。例子Q1&Q2步驟M中,對每個Qi進行檢索;步驟55中,選擇Qi對應的語境屬性kmPropi所在的子索引庫kmPropi_index ;例子Ql選擇const子索引Q2不選擇子索引步驟56中,在子索引中,對Qi的wordlist中的每個詞語word 進行檢索;例子Q1在const中檢索「顯示器」Q2在所有子索引中檢索「功能」步驟57中,對每個word檢索返回的結果,進行word和文檔之間的相關度計算,並排序;步驟58中,對wordlist中的所有詞語word的檢索結果集,進行與操作,形成子請求串Qi的結果集;例子:resultQl {docl}ResultQ2 {docl}
步驟59中,利用子請求串Qi之間的邏輯關係53,對所有Qi的結果集進行邏輯運算;例子:Result = {result} &{result2}步驟510中,對結果集進行相關度調整;並輸出結果集給用戶12。例子=Result = {docl}
權利要求
1.一種利用語義分析技術實現垂直搜尋引擎的方法,其特徵在於,採用以句為單位的語義分析技術,提取文本中每個句子所表示的語境屬性,並對語境屬性進行切分標註;在索引時,為每種類型的語境屬性單獨建立索引;在檢索時,可以對不同語境屬性進行獨立檢索,也可以進行組合檢索。
2.一種利用語義分析技術實現垂直搜尋引擎的系統,其特徵在於它包括負責對文本進行分析,提取文本中的語境屬性,形成帶語境屬性的標註文本的文本語義分析模塊;負責調用文本語義分析模塊,並根據分析結果,為待索引文本,在索引庫中建立索引的索引系統模塊;負責接收用戶的搜索請求,對請求進行解析,從索引庫中檢索到相應的結果,對結果進行合併和相關度計算,並返回給用戶的檢索系統模塊;文本語義分析模塊包含一個在管理員配置垂直搜尋引擎時,根據所屬的行業和領域的特點,所定義的文本語境屬性的分類標準的本體定義模塊、一個根據本體定義模塊,對待索引文檔進行分析,提取文檔中每個句子的語境屬性模塊,並把語境屬性標註到原始文檔中,形成帶語境屬性的標註文本。
3.根據權利要求2所述的一種利用語義分析技術實現垂直搜尋引擎的系統,其特徵在於,所述的文本語義分析模塊,以句子為單位,對文本中的每個句子進行語境屬性提取;提取的依據是以xml形式表示,定義了本體所屬的領域或行業、描述、定義者和定義時間,同時定義了多組語境屬性^^^叩;提取過程中,綜合了三方面的因素特徵詞出現的次數、 特徵詞的概念屬性(動詞、抽象概念、具體概念)加權,以及特徵詞在句子中的語義地位加權;在所述的多組語境屬性kmProp中,每個語境屬性〈SemProp〉中有〈name〉表示屬性名稱,表示標註在文本中的標籤,還有〈Character〉表示該屬性的特徵詞,特徵詞可以有多個,之間用逗號隔開。
4.根據權利要求3所述的一種利用語義分析技術實現垂直搜尋引擎的系統,其特徵在於,所述文本語義分析模塊包括以下步驟步驟21中,把文本以句號為單位斷開,對每個句子進行處理;步驟22中,判斷當前句子是否已經到文本末尾;如果是,則轉步驟四;否則轉步驟23 ;步驟23中,調用句子語境屬性提取模塊,提取句子的語境屬性kmPropN ;步驟M中,判斷當前句子提取的屬性kmPropN是否是該文本的第一個屬性;如果是, 則轉步驟25 ;否則轉步驟沈;步驟25中,在文本的起始處設置屬性開始標誌〈SemPropN〉;轉步驟21進行下一句處理;步驟沈中,判斷當前提取的屬性^mPropN和該文本的上一個屬性kmPropN-1是否一樣;如果是,則轉步驟21進行下一句處理;否則轉步驟27 ;步驟27中,在當前句子之前,設置上一個屬性的結束標誌〈AemPropN-D ;步驟觀中,在當前句子之前,設置當前屬性的開始標誌〈SemPropN〉;轉步驟21進行下一句處理;步驟四中,在文本末尾處設置最後一個屬性的結束標誌〈/SemPropN〉;步驟210中,輸出帶屬性標誌的標註文本。
5.根據權利要求3所述的一種利用語義分析技術實現垂直搜尋引擎的系統,其特徵在於,所述文本語義分析模塊中的語境屬性模塊包括以下步驟步驟32中,對句子進行分詞處理;2步驟33中,分析句子的語義結構;步驟34中,根據本體定義14,提取句子中所有的屬性特徵詞; 步驟35中,對每個特徵詞word,取出它所屬的屬性kmPropi,該屬性的權值為 weight (SemPropi) = 1 ;步驟36中,判斷特徵詞word的詞性;如果是動詞,則轉步驟37 ;如果是抽象概念,則轉步驟38 ;如果是具體概念,則轉步驟39 ;步驟37中,特徵詞word的詞性是動詞,則weight (SemPropi) +5 ; 步驟38中,特徵詞word的詞性是抽象概念,則weight (SemPropi) +2 ; 步驟39中,特徵詞word的詞性是具體概念,則weight (SemPropi) +1 ; 步驟310中,判斷特徵詞word在句子語義結構(該語義結構是經過步驟33得到的) 中的位置,如果它是句子的核心,則轉步驟312 ;如果它是語義塊的核心,則轉步驟311 ;否則轉313 ;步驟311 中,給屬性 SemPropi 的權值乘以 2,weight GemPropi) = weight (SemPropi) ; 步驟 312 中,給屬性 SemPropi 的權值乘以 3,weight GemPropi) = weight (SemPropi) ; 步驟 313 中,給屬性 SemPropi 的權值乘以 1,weight (SemPropi) = weight (SemPropi) * 1 ; 步驟314中,對句子中提取的所有的屬性kmPropi按權值排序,取出權值最大的一個 SemPropMax ;步驟315中,輸出kmPropMax為句子的語境屬性。
6.根據權利要求2所述的一種利用語義分析技術實現垂直搜尋引擎的系統,其特徵在於,所述索引系統模塊是對每個文檔的標註結果,提取其語境屬性,為每個語境屬性在索引庫中單獨建立索引,索引庫中的每個索引,都是以按字詞混排的倒排文件形式存儲。
7.根據權利要求6所述的一種利用語義分析技術實現垂直搜尋引擎的系統,其特徵在於,所述的索引模塊,索引過程包括以下步驟步驟41中,判斷是否已到文本末尾;如果是,則結束;否則轉步驟42 ; 步驟42中,提取下一個屬性開始標誌〈SemPropN〉; 步驟43中,提取該屬性的結束標誌〈/SemPropN〉; 步驟44中,對開始標誌和結束標誌之間的內容wordlist,進行分詞; 步驟45中,判斷當前屬性kmPropN是否在索引庫中已存在;如果是,則轉步驟47 ;否則轉步驟46 ;步驟46中,在索引庫17中增加一個子庫,其名為kmPropN ;轉步驟47 ; 步驟47中,把wordlist的分詞結果,如果是詞,則把詞索引加入到索引子庫MmPropN 中;如果是字,則把字索引加入到索引子庫kmPropN中。
8.根據權利要求2所述的一種利用語義分析技術實現垂直搜尋引擎的系統,其特徵在於,所述檢索系統模塊包括搜索請求分析、對索引庫的檢索,以及檢索結果生成三個子模塊;搜索請求分析模塊解析用戶的請求,給出每個語境屬性的請求串和語境屬性之間的邏輯關係(與、或、非等);搜索請求分析模塊在搜索請求串中,語境屬性有幾種表示方式可以在請求串中用語境屬性」或者「語境屬性」來表示;可以在搜索頁面上,採用勾選的方式選擇(類似於google搜尋引擎的高級檢索);所述的搜索請求分析模塊把請求串解析為多個子請求串Qi以及Qi之間的邏輯關係,其中可以用「」來表示層次關係;所述子請求串Qi用以下方式表示,其中Qi表示解析出的一個子請求串,wordlist表示Qi這個子請求串所包含的檢索詞,SemPropi表示Qi子請求串所對應的語境屬性, Ql =WordListiSemPropl Q2 =WordListiSemProp2 Qn WordLiStiSemPropN 所述對索引庫的檢索模塊包括以下步驟 步驟M中,對每個Qi進行檢索;步驟55中,選擇Qi對應的語境屬性kmPropi所在的子索引庫kmPropi_index ; 步驟56中,在子索引中,對Qi的wordlist中的每個詞語word進行檢索;步驟57中,對每個word檢索返回的結果,進行word和文檔之間的相關度計算,並排序;步驟58中,對wordl i st中的所有詞語word的檢索結果集,進行與操作,形成子請求串 Qi的結果集;檢索結果生成模塊包括以下步驟步驟59中,利用子請求串Qi之間的邏輯關係53,對所有Qi的結果集進行邏輯運算; 步驟510中,對結果集進行相關度調整;並輸出結果集給用戶12。
全文摘要
本發明公開了一種利用語義分析的垂直搜尋引擎系統與方法。該系統包括文本語義分析、索引系統、檢索系統三個模塊。文本語義分析模塊以句為單位,提取文本中每個句子所表示的語境屬性,並對語境屬性進行切分標註;語境屬性綜合了詞語的出現次數、詞語的概念屬性和詞語在句子中的語義地位;索引模塊為每種類型的語境屬性單獨建立索引;在檢索時,可以對不同語境屬性進行獨立檢索,也可以進行組合檢索。本發明的優點在於,利用語境屬性來表示詞語所在的語言環境,這樣在檢索時,可以增加語言環境的限定,使得檢索結果的相關度更好。本發明特別適合於企業搜索、垂直搜索等與領域相關的搜尋引擎系統,也適合於通用搜尋引擎對大量「暗網」數據的處理。
文檔編號G06F17/30GK102200975SQ201010132348
公開日2011年9月28日 申請日期2010年3月25日 優先權日2010年3月25日
發明者晉耀紅 申請人:北京師範大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀