新四季網

面向用戶的信息搜尋引擎系統及方法

2023-06-12 04:58:16


專利名稱::面向用戶的信息搜尋引擎系統及方法
技術領域:
:本發明涉及一種面向用戶的信息搜尋引擎系統及方法,屬於信息搜索
技術領域:
。技術背景當前,搜尋引擎已成為信息查詢的主要工具。隨著信息的海量爆炸式增長,智能、高效的搜索方法可增大大加查詢速度,提高查全率與查準率,使用戶在儘可能短的時間內獲取儘可能多的關注信息,為用戶帶來極大的便利。根據對象控制著手點的不同,目前對搜尋引擎設計的改進方法主要分為兩類面向擴展搜索詞語義的方法和面向推斷用戶興趣的方法。面向擴展搜索詞語義的方法通過本體技術解析搜索詞的語義網,以達到擴展搜索詞、擴大查詢範圍的效果。但使用這種方法存在兩方面的缺點,一是僅僅對搜索詞進行語義分析,未考慮搜索結果全文中可能存在著聚合語義的關鍵信息;二是往往關注於搜索詞本身的語義而忽略了用戶的意圖,難以使搜索結果符合用戶的要求。向推斷用戶興趣的方法通過記錄並用戶對歷史搜索結果的操作,分析用戶感興趣的信息,從而推斷用戶的關注領域。使用這種方法的缺點在於僅僅考慮了用戶的興趣點,未從語義本身層面進行擴展,由於用戶對自己真正意圖的把握往往存在局限性和不準確性,此種方法往往也使用戶難以獲得真正符合意圖的搜索結果。此外,現有的搜尋引擎系統均需要用戶手動輸入關鍵詞,即便提供搜索提示,也僅僅按順序羅列了用戶以往的歷史搜索結果,未能通過相應的解析,按使用頻率進行推送,並運行用戶對單個詞進行選擇及排序,一定程度上增加了用戶交互的繁瑣性。
發明內容本發明的技術解決問題彌補現有技術的不足,提供一種使查詢結果範圍更全、精度更高的搜尋引擎系統及方法。該方法在推斷用戶興趣的基礎上實現了搜索詞的重構,並且在搜索詞的重構中綜合考慮了參照權威敘詞表進行語義的擴展,擴大了搜索範圍,此外,用戶通過該系統可實現搜索詞的選擇輸入、自主排序,並可通過交互操作提高後續查詢結果的精準性,為用戶執行信息搜索提供了一種靈活、便利、智能的交互接口。本發明的技術解決方案面向用戶的信息搜尋引擎系統,如圖I所示,由客戶端和伺服器構成,在伺服器負責客戶端所傳遞數據的後端解析及處理工作,在伺服器端部署搜索詞推送模塊、用戶關注點更新模塊、初次搜索模塊、用戶興趣推斷模塊、搜索詞重構查塊及二次搜索模塊;客戶端主機通過B/S方式與伺服器進行交互,在客戶口端部署用戶發起搜索模塊、初次搜索模塊;其中上述各模塊實現如下搜索詞推送模塊伺服器根據當前用戶的身份信息,查詢用戶關注庫,所述的用戶關注庫由本人歷史關注點以及同興趣用戶歷史關注點兩部分組成,所述的本人歷史關注點以及同興趣用戶歷史關注點均由歷史搜索詞和搜索詞的使用頻率組成,首先解析用戶本人歷史搜索詞,按照搜索詞使用頻率由高到低進行排序,選擇使用頻率超過一定閾值的歷史搜索詞,按序寫入用戶本人歷史關注詞集合,即searchVoc_past集,之後遍歷searchVoc_past集,獲取各歷史搜索詞除當前用戶之外的其他歷史用戶,寫入同興趣用戶集合,即user_samelnt集,依次獲取user_samelnt集中各用戶的歷史搜索詞,分別查詢各歷史搜索詞的使用頻率,按照使用頻率由高到低寫入同興趣用戶歷史關注詞集合,即SearChV0C_past_other集,對searchVoc_past_other集遍歷,在避免重複的前提下,將其中的詞順序加入searchVoc_past集,根據searchVoc_past集形成搜索詞推送列表,輸出至客戶端,供用戶發起搜索模塊調用;用戶發起搜索模塊接收搜索詞推送模塊輸出的搜索詞推送列表,解析其中的搜索詞,按順序顯示在客戶端,並提供複選按鈕及排序按鈕,允許用戶對各搜索詞進行選擇或取消,以及設置搜索詞的優先級,根據用戶的選擇結果動態更改搜索詞集合,同時支持用戶對搜索詞集合進行人工補充或修改,以形成最終提交的搜索申請,供用戶關注點更新模塊以及初次搜索模塊調用;用戶關注點更新模塊接收搜索申請,對用戶發起的搜索行為進行記錄,所述的搜索行為由用戶輸入的搜索詞及搜索詞的順序組成,將用戶輸入的搜索詞按序寫入搜索詞用戶選擇集合,即searchVoc_select集,遍歷searchVoc_select集,判斷其中的搜索詞是否存在於用戶關注庫中,如果已存在,則更新該詞當前使用頻率,否則,則將該詞寫入用戶關注庫中的本人歷史關注點集合,同時設置當前使用頻率為初始值;初次搜索模塊根據用戶發起的搜索行為執行初次搜索,首先按照搜索詞的優先級對searchVoc_select集中的全部搜索詞進行全排列組合,將排列組合後的searchVoc_select集記作searchVoc_select重組集,其中包括獨立詞及組合詞,遍歷searchVoc_select重組集,依次查詢與其中各個詞相匹配的搜索結果,與獨立詞匹配即表示搜索結果中包含該獨立詞,與組合詞匹配即表示搜索結果包含每一個組成要素,對於每一個搜索詞的匹配結果,統計全文中與搜索詞的匹配頻率,按匹配頻率由高到低排序,按searchVoc_select重組集的詞序將所有匹配的搜索結果列表組合,寫入初始搜索結果集合,即reSult_firSt集,所述的搜索結果列表由結果信息標題、摘要、來源組成,其中,摘要為結果全文中與搜索詞匹配最多的一段文字,將形成的result_first集輸出至客戶端,供用戶查看;用戶興趣推斷模塊記錄用戶對reSult_firSt集的操作,將用戶篩選行為寫入初次搜索結果用戶篩選集,即result_userSelect集。所述的用戶篩選行為由用戶選擇結果ID、結果點擊次數以及結果查看時間組成。對於各條結果,對「結果點擊次數X結果查看時間」進行求和計算,得到用戶對各條結果的關注程度,按照關注程度值從高到低進行排序,分別解析出各結果的摘要信息,將摘要信息按順序寫入用戶篩選結果摘要集,即result_abstract集,輸出至用戶關注結果分詞模塊;用戶關注結果分詞模塊遍歷result_abstract集,依次解析出用戶關注結果的摘要信息,對照字典集,採用逆向匹配算法分詞,所述的字典集為哈希表,即HashMap組成的數組,數組長度為字典中可作為首字的漢字個數,數組索引為該漢字的區位碼,數組各元素為該首字對應的所有詞組成的HashMap,其中詞本身作為HashMap的key,詞頻作為HashMap的value,分詞完畢後,對照無義詞庫,將無義詞剔除,將各篇摘要的分詞結果作為獨立數組,寫入摘要分詞結果離散集,即abstraCt_CUt_apart集,同時提取出分詞結果的併集,即不存在重複詞的最大集合,寫入摘要分詞結果組合集,即abStraCt_CUt_Unit集,將abstract_cut_apart集和abstract_cut_unit集兩個集合均輸出至搜索詞重構模塊;搜索詞重構模塊遍歷abstract_cut_unitt集中的詞語,比對abstract_cut_apart集,解析各詞語在不同摘要中出現的次數,所述的各詞語在不同摘要中出現的次數不包括該詞語在同一摘要中出現的次數,將出現次數與摘要篇數相同的詞語,即各篇摘要中均出現的詞語彙集並寫入摘要分詞結果交集,即abstract_cut—same集,對照中文分類主題詞表,分析abstract_cut_same集,對於與其中詞語具有用代關係及相關關係的詞,寫入摘要分詞結果重組集,即abstract_cut_reorg集,將abstract_cut_same集及abstract_cut_reorg集兩個集合均輸出至二次搜索模塊;二次搜索模塊首先解析abstract_cut_same集,按照初次搜索模塊中的方法對集合中的詞進行排列組合,遍歷abstract_cut_same集中的各搜索詞,依次獲取全文中與之匹配的文檔、標題中與之匹配的圖片以及視頻,其中,對組合詞而言,與之匹配表示滿足其中每一個組成要素,之後,解析abstract_cut_reorg集,獲取與其中每個獨立詞匹配的文檔、圖片以及視頻,將所有的文檔文件按搜索順序寫入二次搜索文檔結果集,即result_second_doc集,將所有的圖片文件按搜索順序寫入二次搜索圖片結果集,即result_second_image集,將所有的視頻文件按搜索順序寫入二次搜索視頻結果集,即result_second_vedio集,返回result_second_doc集、result_second_image集及result_second_vedio集三個集合至客戶端,按類別將搜索結果展示給用戶,提示用戶本次搜索結果可能更符合其意圖,供用戶深入查看。所述的搜索詞推送模塊實現過程如下(I)捕獲用戶信息,根據用戶登錄時存儲身份信息的session,獲得當前登錄者的用戶名、用戶編號,即ID;(2)根據用戶ID查詢用戶關注庫,提取出與該ID匹配的歷史搜索詞以及搜索詞使用頻率,搜索詞記為V,使用頻率記為F,將結果按F值的降序排列;(3)設預設的詞頻閾值為E,比使用頻率F與設定閾值E的大小;c.如果F>=E,則將F對應的V寫入用戶本人歷史關注詞集,記作searchVoc_past集;d.如果F<E,則不做處理;(4)解析searchVoc_past集,依次遍歷其中的搜索詞V,查詢用戶關注庫,獲得與V匹配的除當前用戶之外的其他用戶ID,寫入同興趣用戶集合,即uSer_SameInt集;(5)根據user_samelnt集中各用戶ID,查詢用戶關注庫,分別獲取與各用戶ID匹配的歷史搜索詞記錄,遍歷記錄中的歷史搜索詞,分別統計各搜索詞用戶關注庫中的使用頻率,按頻率從高到底寫入同興趣用戶歷史關注詞集合,即searchVoc_past_other集;(6)遍歷searchVoc_past_other集,依次判斷該詞是否已存在於searchVoc_past集中;c.如果已經存在,則對本詞不作處理,繼續解析下一個詞;d.如果不存在,則將該詞加入到searchVoc_past集中;(7)將SearChV0C_paSt集作為數組存儲在緩存中,作為搜索詞推送列表輸出至客戶端,供用戶發起搜索模塊調用。所述的搜索詞重構模塊實現過程如下(I)遍歷用戶篩選結果摘要集,即result_abstract集,依次解析出用戶關注結果的摘要信息,對照字典集,採用逆向匹配算法分詞,各篇摘要的分詞結果作為獨立數組,寫入摘要分詞結果離散集,即abstract_cut_apart集,數組個數記為N;(2)提取出分詞結果的併集,即不存在重複詞的最大集合,寫入摘要分詞結果組合集,即absrtact_cut_unit集;(3)對abstract_cut_unit集進行遍歷,對其中每個搜索詞,執行以下操作;(3.I)初始化當前搜索詞的出現頻率Fabs=O;(3.2)遍歷abstract_cut_apan集中的各個數組元素,判斷該數組元素中是否包含當前搜索詞;c.如果包含,則Fabs=Fabs+1,繼續判斷下一條數組元素;d.如果不包含,Fabs值不變。(3.3)將當前搜索詞對應的Fabs值與abstract_cut_apart集中的數組個數進行比較;c.如果Fabs=N,將當前搜索詞寫入摘要分詞結果交集,即abstract_cut_same;d.如果Fabs=E,則將F對應的V寫入用戶關注的歷史詞集,記作searchVoc_past集;b.如果F0,則(3.I)以L為循環邊界依次讀取搜索詞推送列表中的搜索詞,包括搜索詞ID以及搜索詞內容,將搜索詞內容顯示在客戶端,並在每個搜索詞前方生成複選框按鈕,複選框按鈕的ID即為當前讀取的搜索詞的ID;(3.2)遍歷結束後,生成排序按鈕,顯示在客戶端;(4)將搜索框中的內容存儲為字符串,記作strjearchVoc;(5)判斷str_searchVoc是否為空,如果為空,貝U初始化str_searchVoc為一個至格字符;(6)解析用戶的操作,(6.I)選中某搜索詞複選框,判斷str_searchVoc中是否包含被選中的搜索詞,如果包含,不做任何操作;如果不包含,則將該搜索詞附加在srt_searchVoc之後,同時附加空格分隔符;(6.2)取消選中某搜索詞複選框,判斷str_searchVoc中是否包含被選中的搜索詞;如果包含,則去除該搜索詞以及其後的空格分隔符;如果不包含,不做任何操作;(6.3)排序上移/下移,判斷是否有選中的搜索詞,(6.3.I)如果沒有,提示用戶進行選擇;(6.3.2)如果選中的搜索詞大於一個,提示用戶只能選擇一個搜索詞進行操作;(6.3.3)如果選中了一個搜索詞,則a.將該搜索詞順序上移/下移一個排列位,並按照當前的排序次序將各搜索詞組成一個字符串,記作str_searchVoc_newSeq,詞與詞之間以空格分隔;b.比對分析str_searchVoc和str_searchVoc_newSeq,依次解析str_searchVoc_newSeq中的搜索詞,並判斷是否存在於str_searchVoc中,如果不存在於str_searchVoc中,在str_searchVoc_newSeq中進行剔除;c.將處理完畢的字符串替換str_searchVoc,並將str_searchVoc中的詞重新寫入客戶端的搜索框;(6.4)用戶確認操作後,提交搜索請求,將str_searchVoc提交到伺服器。3.用戶關注點更新及初次搜索模塊用戶關注點更新及初次搜索模塊由用戶關注點更新模塊及初次搜索模塊兩個子模塊構成,其執行過程如圖4所示(I)接收搜索申請,即str_searchVoc,並存入緩衝區;(2)解析str_searchVoc,按分隔符將str_searchVoc中的搜索詞分隔為數組,依次寫入searchVoc_select集;(3)遍歷searchVoc_select集,判斷其中的搜索詞是否存在於用戶關注庫中的用戶關注表,即searchVoc_past_table,a.如果已存在,則讀取該詞的當前使用頻率,記為f,將f值轉換為整型後加I;b.如果不存在,則將該詞寫入用戶關注庫中的用戶關注表,插入值包括用戶ID、搜索詞內容和搜索詞使用頻率,搜索詞使用頻率設定為初始值。(4)解析searchVoc_select集,由於搜索詞過多會造成搜索結果的大量冗餘,因此只從前向後提取一定數量的搜索詞;(5)形成所提取的搜索詞的所有排列組合,形成重排字符串,組合詞之間以分號(「分隔,組合詞的元素(即組成組合詞的各獨立詞)之間以逗號(「,」)分隔;(6)按分號分隔符(「;,,)對重排字符串進行分隔,寫入searchVoc^select重組集,記作searchVoc_select_reArr;(7)遍歷searchVoc_select_reArr,對其中的每一個元素進行如下操作(7.I)按逗號分隔符(「,」)對每一個元素進行分隔,生成arr_COnVOC數組;(7.2)判斷arr_conVoc數組的長度L,(7.2.I)如果L=1,則說明該元素為獨立詞,對該詞進行匹配搜索,對於每一項搜索結果,執行如下操作a.解析搜索結果全文,以回車為分隔符分隔出各自然段落,記作arr_result_para數組;b.遍歷arr_result_para數組,依次統計各元素中包含該獨立詞的個數,將個數最多的一段提取出來,作為摘要;c.將標題、摘要、來源組合為搜索結果列表,寫入初始搜索結果集,即resullfirst集;(7.2.2)如果L>1,則說明該元素為組合詞,依次提取出該元素的arr_ConVoC數組中的子元素,即獨立詞,按照(4.2.I)中的步驟執行搜索,獲得滿足所有獨立詞的結果,將(8)遍歷結束後,形成最終的result_first集,輸出至客戶端,供用戶查看4.用戶興趣推斷模塊用戶興趣推斷模塊的實現過程如圖5所示(I)初始化初次搜索結果用戶篩選集,即result_userSelect集;(2)對於用戶的操作,記錄下所選擇結果的ID;(3)判斷該ID是否已存在於result_userSelect集中,(3.I)如果不存在,則a.該初始化該搜索結果ID的順序號P為I,點擊次數N為I,記錄下當前操作時間Tcurrent,寫人result_userSelect集中;b.取出result_userSelect集中最大的T值,記為Tmaxljast,如果T值不存在,貝U取TmaxLast;C.通過Teiment-Tniajiast算出Tniajiast對應的搜索結果的瀏覽時間,寫入result_userSelect集中;(3.2)如果已經存在,則取出該ID當前對應的點擊次數N,將N值增1,並更新result_userSelect集中相應數值;(4)遍歷result_userSelect集,按「結果初次點擊順序/求和(結果點擊次數x結果查看時間)」進行用戶關注度計算,求得用戶對篩選的各條結果的關注度;(5)按對應用戶關注度從高到低對result_userSelect集進行排序,提取排在前列的一定數量的信息,分別取出各ID值對應的摘要信息,寫入用戶篩選結果摘要集,即result_abstract集。5.用戶關注結果分詞、重構及二次搜索模塊用戶關注結果分詞、重構及二次搜索由用戶關注結果分詞模塊、搜索詞重構模塊以及二次搜索模塊三個子模塊構成,實現過程如圖6所示(I)遍歷result_absrtact集,依次解析出用戶關注結果的摘要信息,對照字典集,採用逆向匹配算法分詞,各篇摘要的分詞結果作為獨立數組,寫入摘要分詞結果離散集,即abstract_cut_apart集,數組個數記為N;(2)提取出分詞結果的併集,即不存在重複詞的最大集合,寫入摘要分詞結果組合集,即abstract_cut_unit集;(3)對所有摘要分詞結果組成的集合進行遍歷,對其中每個搜索詞,執行以下操作;(3.I)初始化當前搜索詞的出現頻率Fabs=O;(3.2)遍歷abstract_cut_apart集中的各個數組元素,判斷該數組元素中是否包含當前搜索詞;e.如果包含,則Fabs=Fabs+1,繼續判斷下一條數組元素;f.如果不包含,Fabs值不變。(3.3)將當前搜索詞對應的Fabs值與abstract_cut_apart集中的數組個數進行比較;a.如果Fabs=N,將當前搜索詞寫入摘要分詞結果交集,即abstract_cut_same;b.如果Fabs=E,則將F對應的V寫入用戶本人歷史關注詞集,記作searchVoc_past集;b.如果F<E,則不做處理;(4)解析searchVoc_past集,依次遍歷其中的搜索詞V,查詢用戶關注庫,獲得與V匹配的除當前用戶之外的其他用戶ID,寫入同興趣用戶集合,即USet_SameInt集;(5)根據user_samelnt集中各用戶ID,查詢用戶關注庫,分別獲取與各用戶ID匹配的歷史搜索詞記錄,遍歷記錄中的歷史搜索詞,分別統計各搜索詞用戶關注庫中的使用頻率,按頻率從高到底寫入同興趣用戶歷史關注詞集合,即searchVbc_past_other集;(6)遍歷searchVoc_past_other集,依次判斷該詞是否已存在於searchVoc_past集中;a.如果已經存在,則對本詞不作處理,繼續解析下一個詞;b.如果不存在,則將該詞加入到searchVoc_past集中;(7)將SearChV0C_paSt集作為數組存儲在緩存中,作為搜索詞推送列表輸出至客戶端,供用戶發起搜索模塊調用。3.根據權利要求I所述的面向用戶的信息搜尋引擎系統,其特徵在於所述的搜索詞重構模塊實現過程如下(1)遍歷用戶篩選結果摘要集,即reSult_abStraCt集,依次解析出用戶關注結果的摘要信息,對照字典集,採用逆向匹配算法分詞,各篇摘要的分詞結果作為獨立數組,寫入摘要分詞結果離散集,即abstract_cut_apart集,數組個數記為N;(2)提取出分詞結果的併集,即不存在重複詞的最大集合,寫入摘要分詞結果組合集,即abstract_cut_unit集;(3)對abstract_cut_unit集進行遍歷,對其中每個搜索詞,執行以下操作;(3.I)初始化當前搜索詞的出現頻率Fabs=O;(3.2)遍歷abstract_cut_apart集中的各個數組元素,判斷該數組元素中是否包含當前搜索詞;a.如果包含,則Fabs=Fabs+1,繼續判斷下一條數組元素;b.如果不包含,Fabs值不變。(3.3)將當前搜索詞對應的Fabs值與abstract_cut_apart集中的數組個數進行比較;a.如果Fabs=N,將當前搜索詞寫入摘要分詞結果交集,即abstract_cut_same;b.如果Fabs<N,不做處理,繼續判斷下一搜索詞;(4)遍歷abstract_cut_same集,對其中每個搜索詞,在中文分類主題詞表中檢索以該詞為款目敘詞的語義網;(4.I)如果語義網中有標識為「Y」的關係詞,表示該詞具有正式表達詞,將正式表達詞寫入集合abstract_cut_reorg;(4.2)如果語義網中有標識為「D」的關係詞,表示該詞具有非正式表達詞,將非正式表達詞寫入集合abstract_cut_reorg;(4.3)如果語義網中有標識為「C」的關係詞,表示該詞具有詞義與之相關的表達詞,將相關表達詞寫入集合abstract_cut_reorg;(5)將abstract_cut_same集及absrtact_cut_reorg集均作為數組輸出至二次搜索模塊。4.面向用戶的信息搜尋引擎實現方法,其特徵在於步驟如下(I)伺服器根據當前用戶的身份信息,查詢用戶關注庫,所述的用戶關注庫由本人歷史關注點以及同興趣用戶歷史關注點兩部分組成,所述的本人歷史關注點以及同興趣用戶歷史關注點均由歷史搜索詞和搜索詞的使用頻率組成,首先解析用戶本人歷史搜索詞,按照搜索詞使用頻率由高到低進行排序,選擇使用頻率超過一定閾值的歷史搜索詞,按序寫入用戶本人歷史關注詞集合,即searchVoc_past集,之後遍歷searchVoc_past集,獲取各歷史搜索詞除當前用戶之外的其他歷史用戶,寫入同興趣用戶集合,即user_samelnt集,依次獲取user_samelnt集中各用戶的歷史搜索詞,分別查詢各歷史搜索詞的使用頻率,按照使用頻率由高到低寫入同興趣用戶歷史關注詞集合,即searchVoc_past_other集,對searchVoc_past_other集遍歷,在避免重複的前提下,將其中的詞順序加入searchVoc_past集,根據searchVoc_past集形成搜索詞推送列表,輸出至客戶端,供用戶發起搜索模塊調用;(2)接收搜索詞推送列表,解析其中的搜索詞,按順序顯示在客戶端,並提供複選按鈕及排序按鈕,允許用戶對各搜索詞進行選擇或取消,以及設置搜索詞的優先級,根據用戶的選擇結果動態更改搜索詞集合,同時支持用戶對搜索詞集合進行人工補充或修改,以形成最終提交的搜索申請;(3)接收搜索申請,對用戶發起的搜索行為進行記錄,所述的搜索行為由用戶輸入的搜索詞及搜索詞的順序組成,將用戶輸入的搜索詞按序寫入搜索詞用戶選擇集合,即searchVoc_select集,遍歷searchVoc_select集,判斷其中的搜索詞是否存在於用戶關注庫中,如果已存在,則更新該詞當前使用頻率,否則,則將該詞寫入用戶關注庫中的本人歷史關注點集合,同時設置當前使用頻率為初始值,為後續的搜索詞推送提供數據基礎;(4)根據用戶發起的搜索行為執行初次搜索,首先按照搜索詞的優先級對SearChV0C_select集中的全部搜索詞進行全排列組合,將排列組合後的searchVoc_select集記作searchVoc_select重組集,其中包括獨立詞及組合詞,遍歷searchVoc_select重組集,依次查詢與其中各個詞相匹配的搜索結果,與獨立詞匹配即表示搜索結果中包含該獨立詞,與組合詞匹配即表示搜索結果包含每一個組成要素,對於每一個搜索詞的匹配結果,統計全文中與搜索詞的匹配頻率,按匹配頻率由高到低排序,按searchVoc_select重組集的詞序將所有匹配的搜索結果列表組合,寫入初始搜索結果集合,即result_first集,所述的搜索結果列表由結果信息標題、摘要、來源組成,其中,摘要為結果全文中與搜索詞匹配最多的一段文字,將形成的result_first集輸出至客戶端,供用戶查看;(5)記錄用戶對reSult_firSt集的操作,將用戶篩選行為寫入初次搜索結果用戶篩選集,即resultjserSelect集;所述的用戶篩選行為由用戶選擇結果ID、結果點擊次數以及結果查看時間組成;對於各條結果,對「結果點擊次數X結果查看時間」進行求和計算,得到用戶對各條結果的關注程度,按照關注程度值從高到低進行排序,分別解析出各結果的摘要信息,將摘要信息按順序寫入用戶篩選結果摘要集,即reSult_abStraCt集,供分詞使用;(6)遍歷result_abstract集,依次解析出用戶關注結果的摘要信息,對照字典集,採用逆向匹配算法分詞,所述的字典集為哈希表,即HashMap組成的數組,數組長度為字典中可作為首字的漢字個數,數組索引為該漢字的區位碼,數組各元素為該首字對應的所有詞組成的HashMap,其中詞本身作為HashMap的key,詞頻作為HashMap的value,分詞完畢後,對照無義詞庫,將無義詞剔除,將各篇摘要的分詞結果作為獨立數組,寫入摘要分詞結果離散集,即abstract_cut_apart集,同時提取出分詞結果的併集,即不存在重複詞的最大集合,寫入摘要分詞結果組合集,即abstract_cut_unit集;(7)遍歷abstract_cut_unitt集中的詞語,比對abstract_cut_apart集,解析各詞語在不同摘要中出現的次數,所述的各詞語在不同摘要中出現的次數不包括該詞語在同一摘要中出現的次數,將出現次數與摘要篇數相同的詞語,即各篇摘要中均出現的詞語彙集並寫入摘要分詞結果交集,即abstract_cut_same集,對照中文分類主題詞表,分析abstract_cut_same集,對於與其中詞語具有用代關係及相關關係的詞,寫入摘要分詞結果重組集,即abstract_cut_reorg集,供二次搜索使用;(8)首先解析absrtact_cut_same集,按照初次搜索模塊中的方法對集合中的詞進行排列組合,遍歷abstract_cut_same集中的各搜索詞,依次獲取全文中與之匹配的文檔、標題中與之匹配的圖片以及視頻,其中,對組合詞而言,與之匹配表示滿足其中每一個組成要素,之後,解析abstract_cut_reorg集,獲取與其中每個獨立詞匹配的文檔、圖片以及視頻,將所有的文檔文件按搜索順序寫入二次搜索文檔結果集,即result_second_doc集,將所有的圖片文件按搜索順序寫入二次搜索圖片結果集,即result_second_image集,將所有的視頻文件按搜索順序寫入二次搜索視頻結果集,即result_second_vedio集,返回result_second_doc集、result_second_image集及result_second_vedio集三個集合至客戶端,按類別將搜索結果展示給用戶,為用戶提供更精準的搜索結果。全文摘要面向用戶的信息搜尋引擎系統及方法,由8個模塊組成搜索詞推送模塊、用戶發起搜索模塊、用戶關注點更新模塊、初次搜索模塊、用戶興趣推斷模塊、用戶關注結果分詞模塊、搜索詞重構模塊以及二次搜索模塊。該方法通過對用戶可選搜索詞解析並推送、用戶發起搜索、更新用戶關注點、執行初次搜索、推斷用戶興趣、對用戶關注結果分詞、對搜索詞重構以及執行二次搜索8個過程實現,使該系統具有查詢範圍全、查詢精度高的優點。此外,用戶通過該系統可實現搜索詞的選擇輸入、自主排序,並可通過交互操作提高後續查詢結果的精準性,為用戶執行信息搜索提供了一種靈活、便利、智能的交互接口。文檔編號G06F17/30GK102930022SQ20121043373公開日2013年2月13日申請日期2012年10月31日優先權日2012年10月31日發明者賈倩,張巍,楊秋皓,許怡婷,張冶,王志勇,章樂平,楊玉堃,畢經元,王立偉,杜俊鵬,褚厚斌申請人:中國運載火箭技術研究院

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀