新四季網

論文的搜索方法及裝置製造方法

2023-10-30 04:42:12

論文的搜索方法及裝置製造方法
【專利摘要】本發明公開了一種論文的搜索方法,包括:接收搜索詞;根據搜索詞生成多個搜索結果並提供,其中,每個搜索結果包括多個屬性參數,其中,多個屬性參數中至少有部分屬性參數具有對應的實體標識;以及當搜索結果中的屬性參數被觸發時,根據屬性參數對應的實體標識生成新的搜索結果並提供。本發明實施例的方法,徹底解決了實體重名、長搜索詞的部分匹配等的問題,提高了搜索結果的精確度,提升了用戶體驗。本發明還公開了一種論文的搜索裝置。
【專利說明】論文的搜索方法及裝置

【技術領域】
[0001]本發明涉及搜尋引擎【技術領域】,尤其涉及一種論文的搜索方法及裝置。

【背景技術】
[0002]目前,在學術科研領域,學者/學生/科研工作者等對某個知識的研究成果最終會以論文的方式進行發表,而發表的論文本身包括了很多屬性,例如,論文作者姓名、論文發表處(包括期刊、會議、學位論文等)。然而,多篇論文的相同屬性之間又構成了各自的屬性集合,論文集和屬性集之間的關聯形成了論文的知識圖譜,用戶可通過圖譜中的任何一個屬性都可以查看與其相關的其他屬性的信息,但因為目前存在的論文數量巨大,因此構成的屬性集合數量也很大,且屬性集合中存在著大量的相同名稱但含義不同的屬性,使得檢索速度很慢且無法精確找到對應信息。
[0003]相關技術中,可通過搜索語法制定定向搜索作者姓名或發表機構名,搜索出目標結果,目前一般僅做字面上的文本匹配。例如,如圖1(a)所示,當用戶在搜尋引擎中輸入搜索詞「南瓜組培根根系分泌物的化感效應研究」時,搜尋引擎可根據該搜索詞為用戶提供相關的搜索結果,當用戶點擊搜索結果中的「李明」時,搜尋引擎可將「李明」作為搜索詞進行搜索,以得到與「李明」相關的搜索結果。又如,如圖1(b)所示,當用戶在搜尋引擎中輸入搜索詞「journal:(生態學報)」時,搜尋引擎可根據該搜索詞為用戶提供相關的搜索結果。
[0004]但是,相關技術中存在的問題是:(I)無法實現重名作者的消歧,例如,當用戶點擊如圖1(a)中作者「李明」來發起搜索時,用戶希望搜索到與論文《南瓜組培根根系分泌物的化感效應研究》的發表者「李明」相關的結果,而非其他機構的「李明」。然而,通過相關技術中的搜索方法,得到的搜索結果的「李明」來自各個領域,與目標的李明完全不是同一個人,無法滿足用戶的精確人名查詢需求;(2)無法解決長query (搜索詞)的部分匹配問題,例如,如圖1 (b)所示,使用「journal:(生態學報)」搜索《生態學報》發表的論文,可以看到《應用生態學報》也會被檢出,傳統靠關鍵字匹配方式的搜索,無法解決部分匹配問題,從而導致搜索結果可能不精確,導致用戶體驗變差。


【發明內容】

[0005]本發明的目的旨在至少在一定程度上解決相關技術中的技術問題之一。
[0006]為此,本發明的第一個目的在於提出一種論文的搜索方法。該方法可以徹底解決實體重名、長搜索詞的部分匹配等的問題,提高搜索結果的精確度,提升用戶體驗。
[0007]本發明的第二個目的在於提出一種論文的搜索裝置。
[0008]為了實現上述目的,本發明第一方面實施例的論文的搜索方法,包括:S1、接收搜索詞;S2、根據所述搜索詞生成多個搜索結果並提供,其中,每個搜索結果包括多個屬性參數,其中,所述多個屬性參數中至少有部分屬性參數具有對應的實體標識;以及S3、當搜索結果中的屬性參數被觸發時,根據所述屬性參數對應的實體標識生成新的搜索結果並提供。
[0009]本發明實施例的論文的搜索方法,可先接收搜索詞,之後根據搜索詞生成多個搜索結果並提供,其中,每個搜索結果包括多個屬性參數,多個屬性參數中至少有部分屬性參數具有對應的實體標識,當搜索結果中的屬性參數被觸發時,根據屬性參數對應的實體標識生成新的搜索結果並提供,即由於屬性參數可作為一個實體,通過將實體轉換為實體標識,根據實體標識的唯一性,獲得與其對應的搜索結果,徹底解決了實體重名、長搜索詞的部分匹配等的問題,提高了搜索結果的精確度,提升了用戶體驗。
[0010]為了實現上述目的,本發明第二方面實施例的論文的搜索裝置,包括:接收模塊,用於接收搜索詞;第一生成模塊,用於根據所述搜索詞生成多個搜索結果並提供,其中,每個搜索結果包括多個屬性參數,其中,所述多個屬性參數中至少有部分屬性參數具有對應的實體標識;以及第二生成模塊,用於在搜索結果中的屬性參數被觸發時,根據所述屬性參數對應的實體標識生成新的搜索結果並提供。
[0011]本發明實施例的論文的搜索裝置,可通過接收模塊接收搜索詞,第一生成模塊根據搜索詞生成多個搜索結果並提供,其中,每個搜索結果包括多個屬性參數,多個屬性參數中至少有部分屬性參數具有對應的實體標識,第二生成模塊在搜索結果中的屬性參數被觸發時,根據屬性參數對應的實體標識生成新的搜索結果並提供,即由於屬性參數可作為一個實體,通過將實體轉換為實體標識,根據實體標識的唯一性,獲得與其對應的搜索結果,徹底解決了實體重名、長搜索詞的部分匹配等的問題,提高了搜索結果的精確度,提升了用戶體驗。
[0012]本發明附加的方面和優點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發明的實踐了解到。

【專利附圖】

【附圖說明】
[0013]本發明上述的和/或附加的方面和優點從下面結合附圖對實施例的描述中將變得明顯和容易理解,其中,
[0014]圖1(a)和(b)是現有技術中論文的搜索方法的示例圖;
[0015]圖2是根據本發明一個實施例的論文的搜索方法的流程圖;
[0016]圖3是根據本發明一個實施例的生成實體標識的流程圖;
[0017]圖4是根據本發明另一個實施例的生成實體標識的流程圖;
[0018]圖5是根據本發明一個實施例的摘要在展現頁面進行展示的示意圖;
[0019]圖6(a)和(b)是根據本發明一個實施例的論文的搜索方法的示例圖;
[0020]圖7是根據本發明一個實施例的論文的搜索裝置的結構示意圖;
[0021]圖8是根據本發明另一個實施例的論文的搜索裝置的結構示意圖;以及
[0022]圖9是根據本發明又一個實施例的論文的搜索裝置的結構示意圖。

【具體實施方式】
[0023]下面詳細描述本發明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,旨在用於解釋本發明,而不能理解為對本發明的限制。
[0024]為了解決在通過相關技術中的論文搜索方法進行論文搜索時,無法實現重名作者的消歧、且無法解決長query (搜索詞)的部分匹配等的問題,本發明提出了一種論文的搜索方法及裝置。具體地,下面參考附圖描述本發明實施例的論文的搜索方法及裝置。
[0025]本發明提出一種論文的搜索方法,包括:S1、接收搜索詞;S2、根據搜索詞生成多個搜索結果並提供,其中,每個搜索結果包括多個屬性參數,其中,多個屬性參數中至少有部分屬性參數具有對應的實體標識;以及S3、當搜索結果中的屬性參數被觸發時,根據屬性參數對應的實體標識生成新的搜索結果並提供。
[0026]圖2是根據本發明一個實施例的論文的搜索方法的流程圖。如圖2所示,該論文的搜索方法可以包括:
[0027]S201,接收搜索詞。
[0028]其中,在本發明的實施例中,搜索詞可以是各種語言的字符(如文字、拼音、符號和/或數字等)中的一種或者它們的組合。
[0029]例如,搜尋引擎可接收用戶通過瀏覽器提供的輸入框中輸入的搜索詞。
[0030]S202,根據搜索詞生成多個搜索結果並提供,其中,每個搜索結果包括多個屬性參數,其中,多個屬性參數中至少有部分屬性參數具有對應的實體標識。
[0031]具體地,在接收到搜索詞之後,可根據搜索詞進行搜索,以生成與搜索詞相關的多個搜索結果,並將該多個搜索結果展現在搜索結果展示頁面以提供給用戶,從而方便用戶的查看。
[0032]應當理解,在本發明的實施例中,屬性參數可包括但不限於標題、關鍵詞、作者姓名、作者所處機構和發表處等。也就是說,每個搜索結果中可包括至少兩個屬性參數,如標題、關鍵詞、作者姓名和發表處等。多個屬性參數中至少有部分屬性參數具有對應的實體標識。其中,在本發明的實施例中,具有實體標識的屬性參數可包括作者姓名和/或發表處坐寸ο
[0033]還可以理解,屬性參數如作者姓名、作者所處機構和發表處等可稱為實體,實體標識可理解為是作者姓名、作者所處機構和發表處等實體的唯一標識。由於不同實體之間會存在重名的問題、全稱和簡稱表達不一致的問題。為了解決實體存在的上述問題,可通過消歧策略根據實體(如作者姓名、作者所處機構或發表處等)以生成與實體對應的實體標識,從而通過實體標識使得實體既能區別於其他實體又能盡最大程序包含自己的信息。下面可參考附圖中的圖3和圖4以對實體標識的生成過程進行具體描述。
[0034]在本發明的一個實施例中,如圖3所示,實體標識可被預先生成,即在接收搜索詞(即上述S201)之前,該論文的搜索方法還可包括以下步驟以生成實體標識:
[0035]S301,獲取多個論文。
[0036]S302,從多個論文中分別抽取每個論文對應的作者姓名和作者所處機構。
[0037]具體地,可先對每個論文進行結構解析,以得到每個論文的結構化信息,如論文標題、摘要、關鍵詞、作者姓名、作者所處機構、論文正文內容等,之後可從結構化信息中抽取出每個論文對應的作者姓名和作者所處機構。然後,可以作者姓名為主鍵將每個論文中的所有作者姓名匯集在一起,得到作者姓名的聚簇。最後,可對作者姓名進行判斷,判斷作者姓名是否為唯一,即該作者姓名是否存在重名。
[0038]S303,如果論文對應的作者姓名為唯一,則根據作者姓名生成實體標識。
[0039]具體地,當判斷該論文對應的作者姓名為唯一,即該作者姓名不存在重名時,可通過預設的編碼規則將作者姓名進行編碼以生成與作者姓名對應的實體標識。
[0040]S304,如果論文對應的作者姓名不為唯一,則根據作者姓名和作者所處機構生成實體標識。
[0041]具體地,當判斷該論文對應的作者姓名不為唯一,即該作者姓名存在重名時,可通過預設的編碼規則將作者姓名和作者所處機構進行編碼以生成與作者姓名和作者所處機構對應的實體標識。這是由於在同一個機構中不一定具有相同姓名的作者,由此,解決了不同實體之間會存在重名的問題。
[0042]其中,在本發明的實施例中,預設的編碼規則可以是一個預先約定的編碼規則,可以按以下兩種方式產出:
[0043]方式1:將消歧後的作者姓名(或作者姓名+作者所處機構)賦予連續遞增的整數,這個整數就是作者姓名(或作者姓名+作者所處機構)的實體標識例如,論文具有兩個不同的作者,作者姓名分別為「張三」、「李四」,則可將這兩個作者姓名賦予連續遞增的整數,如「張三」對應的實體標識為「 14268442」、「李四」對應的實體標識為「 14268443」。
[0044]方式2:對作者姓名(或作者姓名+作者所處機構)做數字籤名,籤名結果作為作者姓名(或作者姓名+作者所處機構)的實體標識。也就是說,作者姓名對應的實體標識可通過對作者姓名進行籤名獲得。其中,籤名算法可採用標準的64或128位的MD5 (MessageDigest Algorithm,消息摘要算法-第五版)籤名算法。例如,作者姓名為「李明」,作者所處機構為「中國科學院水土保持與生態環境研究中心」,則可通過MD5籤名算法將「李明」+ 「中國科學院水土保持與生態環境研究中心」做數字籤名,得到對應的實體標識為「57d2b4212e5ba064」。
[0045]由此,根據作者姓名(或作者姓名+作者所處機構)生成與其對應的實體標識,由於實體標識具有唯一性,因此實現了重名作者的消歧的目的。
[0046]在本發明的另一個實施例中,如圖4所示,實體標識可被預先生成,即在接收搜索詞(即上述S201)之前,該論文的搜索方法還可包括以下步驟以生成實體標識:
[0047]S401,獲取多個論文。
[0048]S402,從多個論文中分別獲取每個論文對應的發表處。
[0049]具體地,可先對每個論文進行結構解析,以得到每個論文的結構化信息,如論文發表處、作者姓名、作者所處機構、論文標題等,之後可從結構化信息中獲取每個論文對應的發表處,即可以理解為獲取每個論文在哪個期刊、或會議、或學校(即學位論文)上進行了發表。
[0050]S403,根據論文對應的發表處生成發表處對應的實體標識。
[0051]具體地,在獲取到每個論文對應的發表處之後,可通過預設的編碼規則將論文對應的發表處進行編碼以生成與發表處對應的實體標識。應當理解,在本步驟中,預設的編碼規則的實現方式與上述實施例中預設的編碼規則的實現方式相同,即可將發表處賦予連續遞增的整數,該整數就是發表處對應的實體標識;或者,可通過對發表處進行籤名以獲取發表處對應的實體標識。
[0052]由此,根據發表處生成與其對應的實體標識,由於實體標識具有唯一性,因此解決了由於全稱和簡稱表達不一致而可能導致根據全稱或簡稱檢索出來的結果不一致的問題,即解決了長搜索詞的部分匹配的問題。
[0053]需要說明的是,在本發明的一個實施例中,在生成實體標識之後,可對實體標識建立倒排索引。具體地,對實體標識進行建立倒排索引的過程主要可分為兩步,下面可結合實例說明:例如,假設論文A、B、C分別具有兩個作者姓名,論文A的兩個作者姓名對應的實體標識分別是al、a2,論文B的兩個作者姓名實體標識分別是bl、b2,論文C的兩個作者姓名實體標識分別是al、b2,S1:可生成論文的DocID(論文編號)到實體標識對應的正排數據得到如下正排數據「A->al、a2、B->bl、b2、C_>al、b2」;S2:將正排數據轉換為以作者姓名實體標識為key (主鍵)的到排數據,如「al->A、C ;a2_>A ;bl_>B ;b2_>A、C」。由此,通過對實體標識建立倒排索引,使得只要通過作者姓名實體標識即可知道該作者撰寫過哪些論文。
[0054]還需要說明的是,在本發明的一個實施例中,可將實體標識添加到摘要中,即將實體標識記錄到實體展現內容的相同欄位中,以實現人名或機構名與實體的對應。其中,在本發明的實施例中,摘要可理解為就是最終用戶可見的搜索結果以及不可見的輔助信息,如圖5所示,「標題」、「作者」、「摘要」、「關鍵詞」等均是通過摘要最終呈現給用戶。
[0055]應當理解,在將實體標識進行建立倒排索引時,由於索引存儲時考慮空間和性能因素不會存儲作者姓名的明文字符串,而是存儲的作者姓名實體標識,因此,通過將作者姓名和作者姓名的實體標識同時寫入摘要中,以實現通過摘要將作者姓名的實體標識與最終展現的作者姓名對應起來。
[0056]S203,當搜索結果中的屬性參數被觸發時,根據屬性參數對應的實體標識生成新的搜索結果並提供。
[0057]具體而言,在本發明的一個實施例中,當搜索結果中的屬性參數被觸發時,根據屬性參數對應的實體標識和屬性參數生成新的搜索結果並提供。具體地,當檢測到用戶點擊搜索結果中的屬性參數(標題、或作者姓名、或發表處等)時,可先根據屬性參數查找到對應的實體標識,之後根據該實體標識進行搜索,得到與該實體標識對應的搜索結果,並將搜索結果提供給用戶。
[0058]舉例而言,以屬性參數為作者姓名「李明」為例,如圖6(a)所示,當根據搜索詞「南瓜組培根根系分泌物的化感效應研究」生成多個搜索結果並提供給用戶之後,用戶可點擊作者欄「李明」,當檢測到用戶點擊「李明」時,可先根據「李明」從摘要中讀取其對應的實體標識「57d2b4212e5ba064」。之後通過該實體標識「57d2b4212e5ba064」發起檢索,搜尋引擎根據該實體標識「57d2b4212e5ba064」搜索其對應的倒排索引,以查出命中實體標識「57d2b4212e5ba064」的搜索結果,讀取摘要並將其展現給用戶,如圖6 (b)所示,是通過作者姓名「李明」對應的實體標識「 57d2b4212e5ba064」檢索後的最終效果。由於實體標識具有唯一性,因此兩篇論文一定都是同一個作者「李明」所撰寫。由此,最終發起的檢索請求通過使用實體標識進行查詢「authorur1: (57d2b4212e5ba064) 」,代替了普通的作者姓名查詢「author:(李明)」,從而從根本上避免了歧義問題。
[0059]本發明實施例的論文的搜索方法,可先接收搜索詞,之後根據搜索詞生成多個搜索結果並提供,其中,每個搜索結果包括多個屬性參數,多個屬性參數中至少有部分屬性參數具有對應的實體標識,當搜索結果中的屬性參數被觸發時,根據屬性參數對應的實體標識生成新的搜索結果並提供,即由於屬性參數可作為一個實體,通過將實體轉換為實體標識,根據實體標識的唯一性,獲得與其對應的搜索結果,徹底解決了實體重名、長搜索詞的部分匹配等的問題,提高了搜索結果的精確度,提升了用戶體驗。
[0060]為了實現上述實施例,本發明還提出了一種論文的搜索裝置,包括:接收模塊,用於接收搜索詞;第一生成模塊,用於根據搜索詞生成多個搜索結果並提供,其中,每個搜索結果包括多個屬性參數,其中,多個屬性參數中至少有部分屬性參數具有對應的實體標識;以及第二生成模塊,用於在搜索結果中的屬性參數被觸發時,根據屬性參數對應的實體標識生成新的搜索結果並提供。
[0061]圖7是根據本發明一個實施例的論文的搜索裝置的結構示意圖。如圖7所示,該論文的搜索裝置可以包括:接收模塊10、第一生成模塊20和第二生成模塊30。
[0062]具體地,接收模塊10可用於接收搜索詞。其中,在本發明的實施例中,搜索詞可以是各種語言的字符(如文字、拼音、符號和/或數字等)中的一種或者它們的組合。例如,接收模塊10可接收用戶通過瀏覽器提供的輸入框中輸入的搜索詞。
[0063]第一生成模塊20可用於根據搜索詞生成多個搜索結果並提供,其中,每個搜索結果包括多個屬性參數,其中,多個屬性參數中至少有部分屬性參數具有對應的實體標識。更具體地,在接收模塊10接收到搜索詞之後,第一生成模塊20可根據搜索詞進行搜索,以生成與搜索詞相關的多個搜索結果,並將該多個搜索結果展現在搜索結果展示頁面以提供給用戶,從而方便用戶的查看。
[0064]應當理解,在本發明的實施例中,屬性參數可包括但不限於標題、關鍵詞、作者姓名、作者所處機構和發表處等。也就是說,每個搜索結果中可包括至少兩個屬性參數,如標題、關鍵詞、作者姓名和發表處等。多個屬性參數中至少有部分屬性參數具有對應的實體標識。其中,在本發明的實施例中,具有實體標識的屬性參數可包括作者姓名和/或發表處坐寸ο
[0065]第二生成模塊30可用於在搜索結果中的屬性參數被觸發時,根據屬性參數對應的實體標識生成新的搜索結果並提供。具體而言,在本發明的一個實施例中,第二生成模塊30可具體用於:當搜索結果中的屬性參數被觸發時,根據屬性參數對應的實體標識和屬性參數生成新的搜索結果並提供。更具體地,當檢測到用戶點擊搜索結果中的屬性參數(標題、或作者姓名、或發表處等)時,第二生成模塊30可先根據屬性參數查找到對應的實體標識,之後根據該實體標識進行搜索,得到與該實體標識對應的搜索結果,並將搜索結果提供給用戶。
[0066]可以理解,屬性參數如作者姓名、作者所處機構和發表處等可稱為實體,實體標識可理解為是作者姓名、作者所處機構和發表處等實體的唯一標識。由於不同實體之間會存在重名的問題、全稱和簡稱表達不一致的問題。為了解決實體存在的上述問題,可通過消歧策略根據實體(如作者姓名、作者所處機構或發表處等)以生成與實體對應的實體標識,從而通過實體標識使得實體既能區別於其他實體又能盡最大程序包含自己的信息。下面可通過兩個實施例對實體標識的生成過程進行具體描述。
[0067]進一步的,在本發明的一個實施例中,如圖8所示,在接收模塊10接收搜索詞之前,該論文的搜索裝置還可包括第一獲取模塊40、抽取模塊50和第三生成模塊60。即通過上述幾個模塊可生成實體標識。
[0068]具體地,第一獲取模塊40可用於獲取多個論文。
[0069]抽取模塊50可用於從多個論文中分別抽取每個論文對應的作者姓名和作者所處機構。更具體地,抽取模塊50可先對每個論文進行結構解析,以得到每個論文的結構化信息,如論文標題、摘要、關鍵詞、作者姓名、作者所處機構、論文正文內容等,之後可從結構化信息中抽取出每個論文對應的作者姓名和作者所處機構。然後,可以作者姓名為主鍵將每個論文中的所有作者姓名匯集在一起,得到作者姓名的聚簇。最後,可對作者姓名進行判斷,判斷作者姓名是否為唯一,即該作者姓名是否存在重名。
[0070]第三生成模塊60可用於在論文對應的作者姓名為唯一時,根據作者姓名生成實體標識,並在論文對應的作者姓名不為唯一時,根據作者姓名和作者所處機構生成實體標識。更具體地,當判斷該論文對應的作者姓名為唯一,即該作者姓名不存在重名時,第三生成模塊60可通過預設的編碼規則將作者姓名進行編碼以生成與作者姓名對應的實體標識;當判斷該論文對應的作者姓名不為唯一,即該作者姓名存在重名時,第三生成模塊60可通過預設的編碼規則將作者姓名和作者所處機構進行編碼以生成與作者姓名和作者所處機構對應的實體標識。這是由於在同一個機構中不一定具有相同姓名的作者,由此,解決了不同實體之間會存在重名的問題。
[0071]其中,在本發明的實施例中,預設的編碼規則可以是一個預先約定的編碼規則,可以按以下兩種方式產出:
[0072]方式1:將消歧後的作者姓名(或作者姓名+作者所處機構)賦予連續遞增的整數,這個整數就是作者姓名(或作者姓名+作者所處機構)的實體標識例如,論文具有兩個不同的作者,作者姓名分別為「張三」、「李四」,則可將這兩個作者姓名賦予連續遞增的整數,如「張三」對應的實體標識為「 14268442」、「李四」對應的實體標識為「 14268443」。
[0073]方式2:對作者姓名(或作者姓名+作者所處機構)做數字籤名,籤名結果作為作者姓名(或作者姓名+作者所處機構)的實體標識。也就是說,作者姓名對應的實體標識可通過對作者姓名進行籤名獲得。其中,籤名算法可採用標準的64或128位的MD5 (MessageDigestAlgorithm,消息摘要算法-第五版)籤名算法。例如,作者姓名為「李明」,作者所處機構為「中國科學院水土保持與生態環境研究中心」,則可通過MD5籤名算法將「李明」+ 「中國科學院水土保持與生態環境研究中心」做數字籤名,得到對應的實體標識為「57d2b4212e5ba064」。
[0074]由此,根據作者姓名(或作者姓名+作者所處機構)生成與其對應的實體標識,由於實體標識具有唯一性,因此實現了重名作者的消歧的目的。
[0075]在本發明的另一個實施例中,如圖9所示,該接收模塊10接收搜索詞之前,該論文的搜索裝置還可包括第一獲取模塊40、第二獲取模塊70和第四生成模塊80。即通過上述幾個模塊可生成實體標識。
[0076]具體地,第一獲取模塊40可用於獲取多個論文。
[0077]第二獲取模塊70可用於從多個論文中分別獲取每個論文對應的發表處。更具體地,第二獲取模塊70可先對每個論文進行結構解析,以得到每個論文的結構化信息,如論文發表處、作者姓名、作者所處機構、論文標題等,之後可從結構化信息中獲取每個論文對應的發表處,即可以理解為獲取每個論文在哪個期刊、或會議、或學校(即學位論文)上進行了發表。
[0078]第四生成模塊80可用於根據論文對應的發表處生成發表處對應的實體標識。更具體地,在第二獲取模塊70獲取到每個論文對應的發表處之後,第四生成模塊80可通過預設的編碼規則將論文對應的發表處進行編碼以生成與發表處對應的實體標識。應當理解,在本步驟中,預設的編碼規則的實現方式與上述實施例中預設的編碼規則的實現方式相同,即可將發表處賦予連續遞增的整數,該整數就是發表處對應的實體標識;或者,可通過對發表處進行籤名以獲取發表處對應的實體標識。
[0079]由此,根據發表處生成與其對應的實體標識,由於實體標識具有唯一性,因此解決了由於全稱和簡稱表達不一致而可能導致根據全稱或簡稱檢索出來的結果不一致的問題,即解決了長搜索詞的部分匹配的問題。
[0080]在本發明的一個實施例中,作者姓名或發表處對應的實體標識可通過對作者姓名或發表處進行籤名獲得。
[0081]需要說明的是,在本發明的一個實施例中,在生成實體標識之後,可對實體標識建立倒排索引。具體地,對實體標識進行建立倒排索引的過程主要可分為兩步,下面可結合實例說明:例如,假設論文A、B、C分別具有兩個作者姓名,論文A的兩個作者姓名對應的實體標識分別是al、a2,論文B的兩個作者姓名實體標識分別是bl、b2,論文C的兩個作者姓名實體標識分別是al、b2,S1:可生成論文的DocID(論文編號)到實體標識對應的正排數據得到如下正排數據「A->al、a2、B->bl、b2、C_>al、b2」;S2:將正排數據轉換為以作者姓名實體標識為key (主鍵)的到排數據,如「al->A、C ;a2_>A ;bl_>B ;b2_>A、C」。由此,通過對實體標識建立倒排索引,使得只要通過作者姓名實體標識即可知道該作者撰寫過哪些論文。
[0082]還需要說明的是,在本發明的一個實施例中,可將實體標識添加到摘要中,即將實體標識記錄到實體展現內容的相同欄位中,以實現人名或機構名與實體的對應。其中,在本發明的實施例中,摘要可理解為就是最終用戶可見的搜索結果以及不可見的輔助信息,如圖5所示,「標題」、「作者」、「摘要」、「關鍵詞」等均是通過摘要最終呈現給用戶。
[0083]應當理解,在將實體標識進行建立倒排索引時,由於索引存儲時考慮空間和性能因素不會存儲作者姓名的明文字符串,而是存儲的作者姓名實體標識,因此,通過將作者姓名和作者姓名的實體標識同時寫入摘要中,以實現通過摘要將作者姓名的實體標識與最終展現的作者姓名對應起來。
[0084]為了使得本領域的技術人員更加地了解本發明,下面可舉例說明。
[0085]舉例而言,以屬性參數為作者姓名「李明」為例,如圖6(a)所示,當第一生成模塊20根據搜索詞「南瓜組培根根系分泌物的化感效應研究」生成多個搜索結果並提供給用戶之後,用戶可點擊作者欄「李明」,當檢測到用戶點擊「李明」時,第二生成模塊30可先根據「李明」從摘要中讀取其對應的實體標識「57d2b4212e5ba064」。之後通過該實體標識「57d2b4212e5ba064」發起檢索,根據該實體標識「57d2b4212e5ba064」搜索其對應的倒排索弓丨,以查出命中實體標識「57d2b4212e5ba064」的搜索結果,讀取摘要並將其展現給用戶,如圖6(b)所示,是通過作者姓名「李明」對應的實體標識「57d2b4212e5ba064」檢索後的最終效果。由於實體標識具有唯一性,因此兩篇論文一定都是同一個作者「李明」所撰寫。由此,最終發起的檢索請求通過使用實體標識進行查詢「authorur1: (57d2b4212e5ba064) 」,代替了普通的作者姓名查詢「author:(李明)」,從而從根本上避免了歧義問題。
[0086]本發明實施例的論文的搜索裝置,可通過接收模塊接收搜索詞,第一生成模塊根據搜索詞生成多個搜索結果並提供,其中,每個搜索結果包括多個屬性參數,多個屬性參數中至少有部分屬性參數具有對應的實體標識,第二生成模塊在搜索結果中的屬性參數被觸發時,根據屬性參數對應的實體標識生成新的搜索結果並提供,即由於屬性參數可作為一個實體,通過將實體轉換為實體標識,根據實體標識的唯一性,獲得與其對應的搜索結果,徹底解決了實體重名、長搜索詞的部分匹配等的問題,提高了搜索結果的精確度,提升了用戶體驗。
[0087]在本說明書的描述中,參考術語「一個實施例」、「一些實施例」、「示例」、「具體示例」、或「一些示例」等的描述意指結合該實施例或示例描述的具體特徵、特點包含於本發明的至少一個實施例或示例中。在本說明書中,對上述術語的示意性表述不必須針對的是相同的實施例或示例。而且,描述的具體特徵、特點可以在任一個或多個實施例或示例中以合適的方式結合。此外,在不相互矛盾的情況下,本領域的技術人員可以將本說明書中描述的不同實施例或示例以及不同實施例或示例的特徵進行結合和組合。
[0088]此外,術語「第一」、「第二」僅用於描述目的,而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術特徵的數量。由此,限定有「第一」、「第二」的特徵可以明示或者隱含地包括至少一個該特徵。在本發明的描述中,「多個」的含義是至少兩個,例如兩個,三個等,除非另有明確具體的限定。
[0089]流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個或更多個用於實現特定邏輯功能或過程的步驟的可執行指令的代碼的模塊、片段或部分,並且本發明的優選實施方式的範圍包括另外的實現,其中可以不按所示出或討論的順序,包括根據所涉及的功能按基本同時的方式或按相反的順序,來執行功能,這應被本發明的實施例所屬【技術領域】的技術人員所理解。
[0090]在流程圖中表示或在此以其他方式描述的邏輯和/或步驟,例如,可以被認為是用於實現邏輯功能的可執行指令的定序列表,可以具體實現在任何計算機可讀介質中,以供指令執行系統、裝置或設備(如基於計算機的系統、包括處理器的系統或其他可以從指令執行系統、裝置或設備取指令並執行指令的系統)使用,或結合這些指令執行系統、裝置或設備而使用。就本說明書而言,"計算機可讀介質"可以是任何可以包含、存儲、通信、傳播或傳輸程序以供指令執行系統、裝置或設備或結合這些指令執行系統、裝置或設備而使用的裝置。計算機可讀介質的更具體的示例(非窮盡性列表)包括以下:具有一個或多個布線的電連接部(電子裝置),可攜式計算機盤盒(磁裝置),隨機存取存儲器(RAM),只讀存儲器(R0M),可擦除可編輯只讀存儲器(EPR0M或閃速存儲器),光纖裝置,以及可攜式光碟只讀存儲器(⑶ROM)。另外,計算機可讀介質甚至可以是可在其上列印所述程序的紙或其他合適的介質,因為可以例如通過對紙或其他介質進行光學掃描,接著進行編輯、解譯或必要時以其他合適方式進行處理來以電子方式獲得所述程序,然後將其存儲在計算機存儲器中。
[0091]應當理解,本發明的各部分可以用硬體、軟體或它們的組合來實現。在上述實施方式中,多個步驟或方法可以用存儲在存儲器中且由合適的指令執行系統執行的軟體來實現。例如,如果用硬體來實現,和在另一實施方式中一樣,可用本領域公知的下列技術中的任一項或他們的組合來實現:具有用於對數據信號實現邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(PGA),現場可編程門陣列(FPGA)等。
[0092]本【技術領域】的普通技術人員可以理解實現上述實施例方法攜帶的全部或部分步驟是可以通過程序來指令相關的硬體完成,所述的程序可以存儲於一種計算機可讀存儲介質中,該程序在執行時,包括方法實施例的步驟之一或其組合。
[0093]此外,在本發明各個實施例中的各功能單元可以集成在一個處理模塊中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個模塊中。上述集成的模塊既可以採用硬體的形式實現,也可以採用軟體功能模塊的形式實現。所述集成的模塊如果以軟體功能模塊的形式實現並作為獨立的產品銷售或使用時,也可以存儲在一個計算機可讀取存儲介質中。
[0094]上述提到的存儲介質可以是只讀存儲器,磁碟或光碟等。儘管上面已經示出和描述了本發明的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本發明的限制,本領域的普通技術人員在本發明的範圍內可以對上述實施例進行變化、修改、替換和變型。
【權利要求】
1.一種論文的搜索方法,其特徵在於,包括以下步驟: 51、接收搜索詞; 52、根據所述搜索詞生成多個搜索結果並提供,其中,每個搜索結果包括多個屬性參數,其中,所述多個屬性參數中至少有部分屬性參數具有對應的實體標識;以及 53、當搜索結果中的屬性參數被觸發時,根據所述屬性參數對應的實體標識生成新的搜索結果並提供。
2.如權利要求1所述的論文的搜索方法,其特徵在於,具有所述實體標識的屬性參數包括作者姓名和/或發表處。
3.如權利要求1所述的論文的搜索方法,其特徵在於,在所述步驟SI之前,還包括: 511、獲取多個論文; 512、從所述多個論文中分別抽取每個論文對應的作者姓名和作者所處機構; 513、如果論文對應的作者姓名為唯一,則根據所述作者姓名生成所述實體標識;以及 513、如果論文對應的作者姓名不為唯一,則根據所述作者姓名和所述作者所處機構生成所述實體標識。
4.如權利要求1所述的論文的搜索方法,其特徵在於,在所述步驟SI之前,還包括: 514、獲取多個論文; 515、從所述多個論文中分別獲取每個論文對應的發表處;以及 516、根據所述論文對應的發表處生成所述發表處對應的實體標識。
5.如權利要求3或4所述的論文的搜索方法,其特徵在於,所述作者姓名或發表處對應的實體標識通過對所述作者姓名或發表處進行籤名獲得。
6.如權利要求1所述的論文的搜索方法,其特徵在於,所述步驟S3具體包括: 當搜索結果中的屬性參數被觸發時,根據所述屬性參數對應的實體標識和所述屬性參數生成新的搜索結果並提供。
7.一種論文的搜索裝置,其特徵在於,包括: 接收模塊,用於接收搜索詞; 第一生成模塊,用於根據所述搜索詞生成多個搜索結果並提供,其中,每個搜索結果包括多個屬性參數,其中,所述多個屬性參數中至少有部分屬性參數具有對應的實體標識;以及 第二生成模塊,用於在搜索結果中的屬性參數被觸發時,根據所述屬性參數對應的實體標識生成新的搜索結果並提供。
8.如權利要求7所述的論文的搜索裝置,其特徵在於,具有所述實體標識的屬性參數包括作者姓名和/或發表處。
9.如權利要求7所述的論文的搜索裝置,其特徵在於,在所述接收模塊接收搜索詞之前,所述裝置還包括: 第一獲取模塊,用於獲取多個論文; 抽取模塊,用於從所述多個論文中分別抽取每個論文對應的作者姓名和作者所處機構; 第三生成模塊,用於在論文對應的作者姓名為唯一時,根據所述作者姓名生成所述實體標識,並在論文對應的作者姓名不為唯一時,根據所述作者姓名和所述作者所處機構生成所述實體標識。
10.如權利要求7所述的論文的搜索裝置,其特徵在於,在所述接收模塊接收搜索詞之前,所述裝置還包括: 第一獲取模塊,用於獲取多個論文; 第二獲取模塊,用於從所述多個論文中分別獲取每個論文對應的發表處;以及 第四生成模塊,用於根據所述論文對應的發表處生成所述發表處對應的實體標識。
11.如權利要求9或10所述的論文的搜索裝置,其特徵在於,所述作者姓名或發表處對應的實體標識通過對所述作者姓名或發表處進行籤名獲得。
12.如權利要求7所述的論文的搜索裝置,其特徵在於,所述第二生成模塊具體用於: 當搜索結果中的屬性參數被觸發時,根據所述屬性參數對應的實體標識和所述屬性參數生成新的搜索結果並提供。
【文檔編號】G06F17/30GK104239570SQ201410519986
【公開日】2014年12月24日 申請日期:2014年9月30日 優先權日:2014年9月30日
【發明者】馬晉, 薛洪賀, 汪洋, 張博, 張揚, 苑雪冉, 曹冰, 張曉婧 申請人:百度在線網絡技術(北京)有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀