新四季網

一種眾搜資源搜索方法

2023-05-11 03:25:46

一種眾搜資源搜索方法
【專利摘要】本發明公開了一種眾搜資源搜索方法,以眾搜模型為架構,以資源描述和用戶描述的相關度匹配技術為技術手段並融入用戶評價機制;所述的眾搜模型主要由開放Web資源庫、用戶行為資源庫、設備資源庫、過濾與評價、眾搜系統接口、眾搜系統資源庫、眾搜系統用戶庫構成;用戶通過一次搜索將資源引入眾搜系統中,眾搜系統通過對資源的二次搜索將Top-k資源提供給用戶;該眾搜搜索方法及系統具有高效、通用、準確和可信等優點。
【專利說明】一種眾搜資源搜索方法

【技術領域】
[0001 ] 本發明涉及一種眾搜資源搜索方法。

【背景技術】
[0002]網際網路的飛速發展、傳感設備的普及及圖像與視頻的高清晰化,使得數據正在呈指數增長,大數據時代已經到來。關於數據規模到底有多大,業內專家做了這樣的比喻,2011年,全球數據規模為1.8ZB,可以填滿575億個32GB的iPad,這些iPad可以在中國修建兩座長城。到2020年,全球數據將達到40ZB,如果把它們全部存入藍光光碟,這些光碟和424艘尼米茲號航母重量相當。2012年3月,美國歐巴馬政府發布了 「大數據研究與開發計劃」,並宣布先期投資超過2億美元的資金,用於研發大數據關鍵技術,以搶佔數據資源開發利用的制高點。2012年5月,聯合國「全球脈動」計劃發布了《大數據開發:機遇與挑戰》報告,英國、德國、法國、日本、加拿大等發達國家積極響應。2012年10月,中國通信學會大數據專家委員會成立,推動了我國大數據的研究與發展。2012年11月,「Hadoop與大數據技術大會」以「大數據共享與開放技術」總結了數據中的八個熱點問題,大會還成立了 「大數據共享聯盟」,旨在搜集大數據、展示大數據,促進大數據的研究與開發。種種跡象表明,世界各國特別是發達國家都把大數據的發展擺到國家戰略層面加以推動,使大數據正在成為世界新的戰略資源爭奪的一個新焦點。
[0003]隨著大數據時代的到來,人們開始關心從各種類型的巨量數據中快速獲取有價值信息的手段,大數據搜索成為其中的重要技術之一。搜尋引擎經過近二十年的發展,在文本分析、關係發掘、圖譜構造、用戶語義理解等方面已有豐富的積累,可以作為挖掘大數據這塊金礦所依賴的工具。在大數據的利用上,主要有以下幾種結合傳統搜尋引擎的方式。第一種是個性化搜索。傳統的搜尋引擎很少或者基本沒有考慮用戶的個性化,每個用戶的搜索結果都是相同的。當用戶行為數據很少時,提供一致的搜索結果可能是相對較好的方案,避免了給用戶提供過多冗餘的信息。然而,當用戶行為數據上升到一定階段,通過對用戶偏好進行建模,為用戶提供個性化的搜索結果,就很有必要。因為對用戶有了深層次的了解,其個性化的效果就明顯了。第二種是社會化搜索。隨著Facebook,Twitter,微博等社交網絡的廣泛流行,用戶已經將其與自身生活緊密結合起來,社會化搜索有著廣闊的發展前景。一方面,利用社交網絡上用戶的好友關係,結合傳統的搜尋引擎,可以為用戶提供更加讓人信服的搜索結果。另一方面,社會網絡中有大量UGC(User Generated Content),如用戶發布自己每天吃了什麼東西、買了什麼衣服以及去了哪些地方旅遊等,將這些用戶生成的內容與傳統的搜尋引擎結合起來,使得搜索結果與用戶更加貼切。第三種是大數據環境下的眾包。在大數據中,85%的是非結構化數據,而傳統的搜尋引擎只善於處理結構化的數據。例如,相對於計算機,人更容易區分兩張圖片是否相似。眾包是一種全新的、分布式的組織勞動力的生產模式,基於眾包的搜索指的是將那些計算機很難處理的問題通過網際網路發布出去,那些具有完成任務能力的志願軍通過完成這種任務獲取小額報酬或者無報酬。現實生活中利用眾包進行搜索並為人們所熟知的案例是美國衛星運營商DigitalGlobe啟動眾包平臺尋找離奇消失的馬來西亞航空MH370班機的蹤跡吸引上百萬人協助進行「地毯式」搜索。現有的搜索方式主要關注於對資源進行建模,隨著大數據時代的到來,以用戶為中心對搜索者進行建模以準確把握用戶需求變得極其重要,但目前的傳統搜尋引擎無法檢索到用戶自身行為所生成的資源,也就是包括用戶日常生活中通過社交軟體、論壇、空間等生成的資源,例如說微博說說,留言,日誌,聊天記錄,圖片日誌等等。這些數據都保存在運營商或用戶終端上,無法被搜尋引擎檢索。同時傳統搜尋引擎搜索資源的時候考慮的都是資源和資源之間的相似性,沒有考慮到不同用戶個體之間的偏好,不能為用戶提供準確的具有個人偏好性質的搜索結果。
[0004]因此,有必要設計一種高效、通用、準確和可信的用於大數據的資源搜索方法及系統。


【發明內容】

[0005]為了解決目前搜尋引擎不能準確把握不同搜索個體的需求來提供搜索結果的技術問題,本發明提供一種具有高效、通用、準確、可信,能針對不同個體用戶的特點來提供相應搜索結果的眾搜資源搜索方法。
[0006]為了實現上述技術目的,本發明的技術方案是,
[0007]一種眾搜資源搜索方法,包括以下步驟:
[0008]步驟一:建立眾搜模型,以眾搜模型為架構進行搜索;
[0009]所述的眾搜模型包括開放Web資源庫、用戶行為資源庫、設備資源庫、過濾與評價模塊,以及由眾搜系統接口、眾搜系統資源庫和眾搜系統用戶庫組成的眾搜系統平臺;
[0010]所述的開放Web資源庫為通過搜尋引擎能夠檢索到的Web資源,且用戶可由共享的檢索接口進行檢索;
[0011]用戶行為資源庫為通過用戶自身行為所生成的資源,且無法被搜尋引擎所檢索;
[0012]設備資源庫為接入網際網路的設備,且每個設備均有唯一的標誌以區分;
[0013]過濾與評價模塊用於各用戶根據自身需要對開放Web資源庫、用戶行為資源庫、設備資源庫中的資源進行過濾,並在用戶與用戶之間設置相互評價的可信度機制;
[0014]眾搜系統接口用於用戶導入和搜索資源;
[0015]眾搜系統資源庫儲存有用戶導入至眾搜系統平臺的所有資源的資源描述文件,資源描述文件隨著用戶的使用情況不斷更新;
[0016]眾搜系統用戶庫儲存有眾搜系統平臺中所有用戶的用戶描述文件,用戶描述文件隨著用戶的使用情況不斷更新;
[0017]步驟二:用戶執行一次搜索,一次搜索為用戶將從開放Web資源庫、用戶行為資源庫和設備資源庫中收集到的資源由過濾與評價模塊進行過濾後,通過眾搜系統接口導入至眾搜系統平臺中,然後眾搜系統平臺設置該用戶的用戶描述文件和導入資源的資源描述文件;
[0018]步驟三:眾搜系統平臺基於一次搜索的資源、用戶描述文件和資源描述文件,為用戶返回二次搜索的結果,二次搜索為用戶在眾搜系統中進行資源檢索,系統將最佳的k個結果作為檢索結果返回用戶,用戶對資源進行評價。
[0019]所述的一種眾搜資源搜索方法,用戶在首次使用眾搜系統平臺前,眾搜系統平臺為該用戶分配唯一的用戶標識,並建立相應的用戶描述文件。
[0020]所述的一種眾搜資源搜索方法,所述的一次搜索中,首先根據資源自身存儲地址來檢查所導入的資源是否已存儲在眾搜系統平臺中,若存在,則更新資源描述文件,將導入該資源的用戶記錄至資源描述文件中,否則,為資源建立唯一的資源標識,並根據所導入的資源自身的特徵,通過眾搜系統接口為資源添加資源描述文件。
[0021]所述的一種眾搜資源搜索方法,所述的二次搜索中,用戶輸入需要檢索的關鍵詞或者輸入空白的關鍵詞並設置檢索結果的相關屬性作為檢索請求,眾搜系統平臺將該用戶的檢索請求與系統中其它用戶的檢索進行相似度匹配並得到相似度匹配結果,如果未能匹配到相似結果,則根據關鍵詞對平臺內的資源進行檢索並得到初始的資源匹配庫,如得到了相似結果,則通過用戶設置的屬性進行初始過濾得到初始的資源匹配庫,然後通過資源描述文件與用戶描述文件之間的匹配度計算資源相關度,通過其它用戶對資源的整體評價結果計算資源評價度,結合資源相關度和資源評價度對初始化的資源庫進行排序;眾搜系統將排序之後最靠前的k個結果推送給用戶;用戶收到檢索結果之後,對其進行相應的評價,眾搜系統記錄用戶的反饋信息,這裡的反饋信息包括用戶的評分和瀏覽;然後將評分記錄寫入相應資源的資源描述文件和相應用戶的用戶描述文件中,將瀏覽記錄寫入相應用戶的用戶描述文件中。
[0022]所述的一種眾搜資源搜索方法,所述的用戶描述文件中記錄的內容包括用戶ID、擁有資源、搜索歷史、評價歷史和瀏覽歷史;搜索歷史中記錄了用戶歷次搜索的關鍵字,用戶在系統中的反饋信息,包括評分和點擊,都會被眾搜系統平臺所記錄,並更新到用戶描述文件中。
[0023]所述的一種眾搜資源搜索方法,所述的資源描述文件內記載有相應資源的典型特徵,包括來源、所屬主題、所適用的用戶描述、用戶使用次數、歷史評價和可擴展項;所述的來源是系統中某註冊用戶,所屬主題是該用戶上傳此資源時填寫的關鍵詞或文本分析時提取的關鍵詞;所適用的用戶描述是上傳此資源的用戶所設置的描述或者是綜合使用記錄後的描述;用戶使用次數主要是指系統註冊用戶的總共的有效使用次數,歷史評價是資源被用戶評價的歷史記錄;可擴展項是根據系統和算法優化的需要而預留;用戶對資源的搜索行為以及資源的評價情況都會被眾搜系統所記錄,並更新到資源描述文件中。
[0024]所述的一種眾搜資源搜索方法,所述的用戶與用戶之間設置相互評價的可信度機制為用戶之間進行相互評價,用戶之間的評價表示用戶之間相互信任的程度;眾搜系統中的用戶對其它用戶給定一個評分,表示用戶的信任值;用戶之間的信任值互相傳遞並計算,信任值的計算取加權平均值Y,Y = xl*wl+x2*w2+…+xn*wn,其中xl, x2,…,xn是信任鏈上的 η 個信任值,wl,w2,"'wn 是權重,取值依次為 1,0.9,0.7,0.4,0.1,0.1,...,0.I。
[0025]所述的一種眾搜資源搜索方法,用戶對資源進行評價的過程包括用戶對眾搜系統中的資源根據自身使用體驗,給出預設的最低評分和最高評分之間的一個評分;在給出用戶評分時,眾搜系統給出用戶評分對總體評分的偏差值,反映用戶整體的資源體驗情況。
[0026]所述的一種眾搜資源搜索方法,資源排序過程包括:
[0027]I)對眾搜系統中的資源,計算資源描述文件與用戶描述文件的相似度;
[0028]2)取所有用戶評分的平均值,得到資源的整體評價得分;
[0029]3)計算用戶之間的信任值;
[0030]4)通過Y = Y1+Y2+Y3,計算最終的資源得分,其中Yl是相似度,Y2是評價得分,Y3是信任值;
[0031]5)根據最終得分進行降序排序,將排序最前的k個資源製成資源列表推送給用戶。
[0032]所述的一種眾搜資源搜索方法,所述的步驟三中最佳的k個結果中,所述的k =Va8to,其中η表示系統中用戶的數量,Vi表示系統中第i個用戶查看的平均結果數,用戶排序按照其查看的平均結果數升序排列,0.8*n的結果向上取整數。
[0033]本發明著眼於資源搜索方式的高效性和通用性及資源搜索結果的準確性和可信性,並非資源存儲方法。
[0034]本發明將大數據環境中的實體分為兩種類型:用戶實體和資源實體。其中,用戶實體是搜索的發起者,資源實體是搜索的對象,例如用戶生成內容,網頁,設備等。本發明以用戶為中心,研究如何結合用戶智能和計算機的處理能力,提供面向大數據環境下的智能搜索服務。現有的研究工作主要是對搜索資源進行建模,因此搜索結果主要衡量的是資源的相關度,很少考慮到資源與用戶真實需求的匹配,也沒有考慮到資源的可信性。隨著大數據時代的到來,對用戶進行建模是十分必要的,用戶行為數據的累積可以很好地對用戶進行表示。該模型可以有效地匹配搜索資源和用戶的真實意圖,同時保證搜索資源的可信性,並且能夠提供高效通用的搜索方式。
[0035]本發明的目標是提供高效、通用的搜索方式和準確、可信的搜索結果,並且形成一套完整的理論體系。我們提出眾搜模型的全新理念,希望結合用戶智能和計算機的處理能力,實現智能搜索服務。如圖1所示,系統中有U,Ul, U2和U3四個用戶,其中Ul進行了搜索searchl,U2進行了搜索search2,U3進行了搜索search3,當用戶U需要進行搜索時,其搜索結果search則是整合其它用戶的searchl, search2和search3三個搜索結果。在眾搜理論中,每一個用戶的搜索行為都對其他用戶的搜素產生影響,單個用戶的影響力較小,但一群用戶的搜索行為則能為個體用戶提供準確、可信的搜索結果,同時每一個個體用戶的搜索行為能夠不斷加強群體的搜索能力。
[0036]本發明的眾搜資源搜索方法及系統,以眾搜模型為架構,以資源描述和用戶描述的相關度匹配技術為技術手段並融入用戶評價機制;所述的眾搜模型主要由開放Web資源庫、用戶行為資源庫、設備資源庫、過濾與評價、眾搜系統接口、眾搜系統資源庫、眾搜系統用戶庫構成;用戶通過一次搜索將資源引入眾搜系統中,眾搜系統通過對資源的二次搜索將Top-k資源提供給用戶;該眾搜搜索方法及系統具有高效、通用、準確和可信等優點。
[0037]眾搜理論包括一次搜索和二次搜索兩個全新的概念,以及用戶評價機制和排序算法有機結合,實現搜索結果的準確性和可信性。用戶通過一次搜索將收集到的資源導入到眾搜系統庫中,眾搜系統庫建立用戶描述文件和資源描述文件。其中一次搜索指用戶從開放Web資源庫、用戶行為資源庫和設備資源庫獲取資源,根據自身的原則進行資源過濾,然後使用眾搜系統接口導入系統中這一過程。基於一次搜索的資源,眾搜系統基於用戶描述文件和資源描述文件,根據相關度匹配技術為用戶提供二次搜索服務。其中二次搜索指用戶在眾搜系統中進行資源檢索,系統以Top-k形式返回檢索結果,用戶對資源進行評價這一過程。
[0038]目前相關研究工作中,個性化搜索、社會化搜索和基於眾包的搜索,也以用戶為重要研究對象。傳統的搜尋引擎很少或者基本沒有考慮用戶的個性化,每個用戶的搜索結果都是相同的。當用戶行為數據很少時,提供一致的搜索結果可能是相對較好的方案,避免了給用戶提供過多冗餘的信息。然而,當用戶行為數據上升到一定階段,通過對用戶偏好進行建模,為用戶提供個性化的搜索結果,就很有必要。因為對用戶有了深層次的了解,其個性化的效果就明顯了。隨著Facebook, Twitter,微博等社交網絡的廣泛流行,用戶已經將其與自身生活緊密結合起來,社會化搜索有著廣闊的發展前景。一方面,利用社交網絡上用戶的好友關係,結合傳統的搜尋引擎,可以為用戶提供更加讓人信服的搜索結果。另一方面,社會網絡中有大量UGC(User Generated Content),如用戶發布自己每天吃了什麼東西、買了什麼衣服以及去了哪些地方旅遊等,將這些用戶生成的內容與傳統的搜尋引擎結合起來,使得搜索結果與用戶更加貼切。在大數據環境中,85%的是非結構化數據,而傳統的搜尋引擎只善於處理結構化的數據。例如,相對於計算機,人更容易區分兩張圖片是否相似。眾包是一種全新的、分布式的組織勞動力的生產模式,基於眾包的搜索指的是將那些計算機很難處理的問題通過網際網路發布出去,那些具有完成任務能力的志願軍通過完成這種任務獲取小額報酬或者無報酬。本發明面向大數據環境,結合用戶智能和計算機處理能力,從資源導入、評價到資源的檢索和排序,構建高效、通用的搜索方式和準確、可信的搜索結果。
[0039]本發明的眾搜資源搜索方法及系統,研究如何定義眾搜模型中的用戶實體和資源實體,研究用戶實體的行為模式和實體之間的交互方式,通過用戶實體的一次搜索和二次搜索為用戶提供豐富、貼切的搜索結果。研究如何設置用戶描述和資源描述,研究如何根據用戶搜索行為的變化對用戶描述進行更新,研究如何將用戶描述與資源實體之間的描述進行匹配,從而將最佳的搜索資源提供給用戶。研究用戶實體之間的協作方式,研究用戶實體對資源實體之間的使用方式,通過綜合資源描述和用戶描述之間的相關性以及用戶的使用情況,對搜索的資源實體進行合理排序,從而將最優的top-k個資源實體推薦給用戶。
[0040]本發明一方面彌補了傳統搜尋引擎的不足,另一面,通過群體智能,建立起一個良性循環,不僅保證了搜索的質量,而且使得搜索源更加開放。從學術的角度出發,本發明的眾搜理論能夠帶來一些新的研究課題並推動大數據的研究步伐。從社會發展的角度出發,五年或者十年後,眾搜引擎能夠像百度和谷歌一樣普及,每個參與其中的用戶都能獲得滿意的搜索結果,從而帶動用戶的學習積極性,使得全體大眾受益,帶來廣泛的社會效益。
[0041]下面結合附圖對本專利作進一步說明。

【專利附圖】

【附圖說明】
[0042]圖1為眾搜模型用戶搜索交互示意圖;
[0043]圖2為眾搜模型示意圖;
[0044]圖3為資源設置示意圖;
[0045]圖4為檢索過程示意圖;
[0046]圖5為用戶描述示意圖;
[0047]圖6為資源描述示意圖;
[0048]圖7為用戶描述與資源描述相似度計算示意圖;
[0049]圖8為資源排序示意圖。

【具體實施方式】
[0050]本發明實施例包括以下步驟:
[0051]步驟一:建立眾搜模型,以眾搜模型為架構進行搜索;
[0052]眾搜模型包括開放Web資源庫、用戶行為資源庫、設備資源庫、過濾與評價模塊,以及由眾搜系統接口、眾搜系統資源庫和眾搜系統用戶庫組成的眾搜系統平臺;
[0053]開放Web資源庫為通過搜尋引擎能夠檢索到的Web資源,且用戶可由共享的檢索接口進行檢索;
[0054]用戶行為資源庫為通過用戶自身行為所生成的資源,且無法被搜尋引擎所檢索;這裡提到的用戶產生的資源,包括用戶日常生活中通過社交軟體、論壇、空間等生成的資源,例如說微博說說,留言,日誌,聊天記錄,圖片日誌等等。這些數據都保存在運營商或用戶終端上,無法被搜尋引擎檢索。
[0055]設備資源庫為接入網際網路的設備,且每個設備均有唯一的標誌以區分;
[0056]過濾與評價模塊用於各用戶根據自身需要對開放Web資源庫、用戶行為資源庫、設備資源庫中的資源進行過濾,並在用戶與用戶之間設置相互評價的可信度機制;用戶一次搜索的資源首先會由用戶自己進行過濾,保留用戶覺得好的資源導入到系統中,導入的過程中用戶可以對資源做出評價。
[0057]眾搜系統接口用於用戶導入和搜索資源;
[0058]眾搜系統資源庫儲存有用戶導入至眾搜系統平臺的所有資源的資源描述文件,資源描述文件隨著用戶的使用情況不斷更新;
[0059]眾搜系統用戶庫儲存有眾搜系統平臺中所有用戶的用戶描述文件,用戶描述文件隨著用戶的使用情況不斷更新;
[0060]步驟二:用戶執行一次搜索,一次搜索為用戶將從開放Web資源庫、用戶行為資源庫和設備資源庫中收集到的資源由過濾與評價模塊進行過濾後,通過眾搜系統接口導入至眾搜系統平臺中,然後眾搜系統平臺設置該用戶的用戶描述文件和導入資源的資源描述文件;所提到的一次搜索泛指在平臺外檢索資源導入平臺中的過程,用戶執行一次搜索的具體操作是:在資源導入界面設置好資源的各個屬性,然後點擊導入按鈕,資源屬性的格式見圖3。
[0061]步驟三:眾搜系統平臺基於一次搜索的資源、用戶描述文件和資源描述文件,為用戶返回二次搜索的結果,二次搜索為用戶在眾搜系統中進行資源檢索,系統將最佳的k個結果作為檢索結果返回用戶,用戶對資源進行評價。這裡的k的大小與系統本身的處理能力相關,k越大,檢索速度慢,k越小,用戶看到的結果越少,很可能無法滿足用戶需求。一般來說,這個k應達到滿足用戶需求的上限。例如,80%的人做搜索時只查看200個結果,那麼k取值1000就能滿足大多數人的需求。k = V0.8*n,其中η表示系統中用戶的數量,Vi表示系統中第i個用戶查看的平均結果數,按升序排列,例如,系統中有三個用戶,ul,u2,u3 ;U1執行了兩次搜索,結果查看數目是4和5,U2執行了三次搜索,結果查看數目是8,9,10,U3執行了三次搜索,結果查看數目是6,8,9,那麼ul,u2,u3查看的平均結果數分別是(4+5)/2=5,(8+9+10)/3 = 9,(6+8+9)/3 = 8,三個用戶平均查看結果數的升序列表V是5,8,9。K=V0.8*3 = V3 = 9。
[0062]用戶在首次使用眾搜系統平臺前,眾搜系統平臺為該用戶分配唯一的用戶標識,並建立相應的用戶描述文件。
[0063]一次搜索中,首先根據資源自身存儲地址來檢查所導入的資源是否已存儲在眾搜系統平臺中,若存在,則更新資源描述文件,將導入該資源的用戶記錄至資源描述文件中,因為這個資源又被新的用戶(資源重複導入者)所訪問了,否則,為資源建立唯一的資源標識,並根據所導入的資源自身的特徵,通過眾搜系統接口為資源添加資源描述文件。由於每個資源都有一個唯一來源,例如,web頁面都有一個唯一的網址,其他包括用戶行為資源,也是通過其存儲地址來分辨來源,來源相同則視為同一個資源。
[0064]二次搜索中,用戶輸入需要檢索的關鍵詞或者輸入空白的關鍵詞並設置檢索結果的相關屬性作為檢索請求,這裡提到的檢索結果的相關屬性是檢索結果的類別屬性,例如ppt, doc, txt, video等。眾搜系統平臺將該用戶的檢索請求與系統中其它用戶的檢索進行相似度匹配並得到相似度匹配結果,相似度的計算可以採用現有的相似度計算公式,例如餘弦相似度、Jaccard相似度計算等。如果未能匹配到相似結果,則根據關鍵詞對平臺內的資源進行檢索並得到初始的資源匹配庫,如得到了相似結果,則通過用戶設置的屬性進行初始過濾得到初始的資源匹配庫,然後通過資源描述文件與用戶描述文件之間的匹配度計算資源相關度,通過其它用戶對資源的整體評價結果計算資源評價度,結合資源相關度和資源評價度對初始化的資源庫進行排序;眾搜系統將排序之後最靠前的k個結果推送給用戶;用戶收到檢索結果之後,對其進行相應的評價,眾搜系統記錄用戶的反饋信息,這裡的反饋信息包括用戶的評分和瀏覽;然後將評分記錄寫入相應資源的資源描述文件和相應用戶的用戶描述文件中,將瀏覽記錄寫入相應用戶的用戶描述文件中。例如用戶u搜「推薦系統」這個關鍵詞的時候,眾搜系統平臺收到這個搜索請求,從平臺中所有的搜索請求中進行匹配,發現Ul和u2也搜索了這個關鍵詞,並對其中的搜索結果進行了操作(評分或者瀏覽),那麼這些被操作了的的結果則作為初始的資源匹配庫返回給用戶。
[0065]用戶描述文件中記錄的內容包括用戶ID、擁有資源、搜索歷史、評價歷史和瀏覽歷史;搜索歷史中記錄了用戶歷次搜索的關鍵字,用戶在系統中的反饋信息,包括評分和點擊,都會被眾搜系統平臺所記錄,並更新到用戶描述文件中。
[0066]資源描述文件內記載有相應資源的典型特徵,包括來源、所屬主題、所適用的用戶描述、用戶使用次數、歷史評價和可擴展項;來源是系統中某註冊用戶,所屬主題是該用戶上傳此資源時填寫的關鍵詞或文本分析時提取的關鍵詞;所適用的用戶描述是上傳此資源的用戶所設置的描述或者是綜合使用記錄後的描述;用戶使用次數主要是指系統註冊用戶的總共的有效使用次數,歷史評價是資源被用戶評價的歷史記錄;可擴展項是根據系統和算法優化的需要而預留;用戶對資源的搜索行為以及資源的評價情況都會被眾搜系統所記錄,並更新到資源描述文件中。資源描述中的各個特徵子項由用戶編輯或文本分析而得來。
[0067]用戶與用戶之間設置相互評價的可信度機制為用戶之間進行相互評價,用戶之間的評價表示用戶之間相互信任的程度;眾搜系統中的用戶對其它用戶給定一個評分,表示用戶的信任值;用戶之間的信任值互相傳遞並計算,信任值的計算取加權平均值Y,Y =xl*wl+x2*w2+…+xn*wn,其中xl, x2,…,xn是信任鏈上的η個信任值,wl, w2,…,wn是權重,取值依次為 1,0.9,0.7,0.4,0.1,0.1,-,0.1。
[0068]用戶對資源進行評價的過程包括用戶對眾搜系統中的資源根據自身使用體驗,給出預設的最低評分和最高評分之間的一個評分;在給出用戶評分時,眾搜系統給出用戶評分對總體評分的偏差值,反映用戶整體的資源體驗情況。
[0069]一種眾搜資源搜索方法,資源排序過程包括:
[0070]I)對眾搜系統中的資源,計算資源描述文件與用戶描述文件的相似度;
[0071]2)取所有用戶評分的平均值,得到資源的整體評價得分;
[0072]3)計算用戶之間的信任值;
[0073]4)通過Y = Y1+Y2+Y3,計算最終的資源得分,其中Yl是相似度,Y2是評價得分,Y3是信任值;
[0074]5)根據最終得分進行降序排序,將排序最前的k個資源製成資源列表推送給用戶。
[0075]一種眾搜資源搜索方法,步驟三中最佳的k個結果中,k = Vtl 8ftl,其中η表示系統中用戶的數量,Vi表示系統中第i個用戶查看的平均結果數,用戶排序按照其查看的平均結果數升序排列,0.8*n的結果向上取整數。
[0076]模型
[0077]眾搜模型由開放Web資源庫、用戶行為資源庫、設備資源庫、過濾與評價、眾搜系統接口、眾搜系統資源庫、眾搜系統用戶庫構成,如圖2所示。其中,開放Web資源庫是指搜尋引擎能夠檢索到的Web資源,並且其為用戶提供了共享的檢索接口 ;用戶行為資源庫是指用戶生成的與用戶自身行為相關的資源,其部分或者總體無法被搜尋引擎所檢索;設備資源庫即接入網際網路的設備,設備之間有一個唯一的標誌進行區分;過濾與評價模塊指用戶根據自身的原則對收集的資源進行過濾,用戶與用戶之間建立了相互評價的可信度機制;眾搜系統接口指的是用戶與眾搜系統之間的橋梁,負責指引用戶導入和搜索資源;眾搜系統資源庫指眾搜系統中所有資源的描述,其描述文件隨著用戶的使用情況不斷更新;眾搜系統用戶庫指眾搜系統中所有用戶的描述,其描述文件隨著用戶的使用情況不斷更新。
[0078]眾搜模型解決大數據環境下資源搜索的基本思路是:用戶通過一次搜索將收集到的資源導入到眾搜系統庫中,眾搜系統庫建立用戶描述文件和資源描述文件。其中一次搜索指用戶從開放Web資源庫、用戶行為資源庫和設備資源庫獲取資源,根據自身的原則進行資源過濾,然後使用眾搜系統接口導入系統中這一過程。基於一次搜索的資源,眾搜系統基於用戶描述文件和資源描述文件,根據相關度匹配技術為用戶提供二次搜索服務。其中二次搜索指用戶在眾搜系統中進行資源檢索,系統以Top-k形式返回檢索結果,用戶對資源進行評價這一過程。
[0079]一次搜索
[0080]對一次搜索資源,通過眾搜系統接口,按照預先設定的格式設置好資源的各個屬性,然後導入到眾搜系統中。眾搜系統接口設定的資源格式如圖3所示,其中,來源指的是資源的的出處,擁有者指的是資源的上傳者,主題是描述資源屬性的關鍵詞集合,文本描述指的是一段摘要性質的對資源的簡短描述。對每一個資源,眾搜系統中保存的只是該資源的索引信息,並不保存實際的數據。每一個資源在眾搜系統中都有一個唯一的標識並且有相應的資源描述文件進行描述。同時對眾搜系統中的每一個用戶,也有相應的用戶描述文件進行描述;
[0081]眾搜系統中的每一個用戶首先要通過眾搜系統接口進行註冊,系統分配唯一的用戶標識UserID,並建立相應用戶描述文件UserProfile ;
[0082]開放Web資源、用戶行為資源和設備資源導入眾搜系統的過程中,對每一個資源,系統首先檢查是否已經存在該資源。若存在,則更新該資源的描述文件ResourceProfile,並更新上傳該資源用戶的描述文件UserProfile,若不存在,則建立該資源的描述文件ResourceProfile,同時更新上傳該資源用戶的描述文件UserProfile。
[0083]二次搜索
[0084]對於眾搜系統中的資源,用戶通過眾搜系統接口進行檢索。眾搜系統接口檢索格式如圖4所示,其中類別指需要搜索的結果分類屬性,關鍵詞指的是檢索的關鍵詞集合,檢索結果是點擊檢索按鈕之後提供的Top-k排序結果。具體檢索過程如下:
[0085]I)用戶通過眾搜系統接口輸入需要檢索的關鍵詞或者輸入空白的關鍵詞,若輸入關鍵詞為空,則自動將用戶描述文件作為檢索的輸入,設置檢索結果的相關屬性,點擊檢索按鈕開始檢索;
[0086]2)眾搜系統收到用戶的檢索請求,將該用戶的檢索請求與系統中其它用戶的檢索進行匹配,並通過用戶設置的屬性進行初始過濾得到初始的資源匹配庫,通過資源描述文件與用戶描述文件之間的匹配度計算資源的相關度,通過其它用戶對資源的整體評價結果計算資源的評價度,結合資源相關度和用戶評價結果對初始化的資源庫進行排序;
[0087]3)眾搜系統將排序之後最佳的Top-k個結果推送給用戶;
[0088]4)用戶收到檢索結果之後,對其進行相應的評價,眾搜系統記錄用戶的反饋信息。這裡的反饋包括用戶的顯示評價和隱式的點擊等;
[0089]5)眾搜系統對用戶描述文件和資源描述文件進行更新;
[0090]用戶描述與資源描述的設置
[0091]為了更好的理解用戶偏好並將用戶真正需要的資源與用戶的搜索進行匹配,需要對用戶描述和資源描述進行設置。用戶描述如圖5所示,其中用戶ID是用戶的唯一標識,擁有資源指用戶上傳的資源集合,搜索歷史指用戶搜素歷史集合,評價歷史指用戶評價歷史集合,擴展項為了系統擴展需要而設定。其具體設置過程如下:
[0092]I)對每一個用戶,在加入眾搜系統時建立用戶描述文件UserProfile,用戶描述文件代表用戶發出資源查詢請求時的原因、狀態及期待;
[0093]2)用戶的每一次搜索請求都會被眾搜系統所記錄,並更新到用戶描述文件中;
[0094]3)用戶在系統中的反饋信息(顯示的評分和隱式的點擊等)都會被眾搜系統所記錄,並更新到用戶描述文件中;
[0095]資源描述如圖6所示,其中資源ID是資源唯一標識,來源指資源的出處,擁有者指資源的上傳者,主題指資源上傳時設置的主題集合,使用次數指資源使用計數,歷史評價指資源被用戶評價歷史集合,文本描述指資源的摘要性文本介紹,擴展項是系統擴展需要而設定。其具體設置過程如下:
[0096]I)對一次搜索的每一個資源,導入眾搜系統時建立資源描述文件ResourceProfile,資源描述代表了某個資源的典型特徵,包含其來源、所屬主題、所適用的用戶描述、用戶使用次數、歷史評價等基本信息及可擴展的其它信息。資源描述中的子項由用戶編輯或文本分析而得來且各個子項之間有一定的依賴關係。其來源是系統中某註冊用戶,所屬主題是該用戶上傳此資源時填寫的關鍵詞,或者是文本分析時提取的關鍵詞。所適用的用戶描述是上傳此資源的用戶所設置的描述或者是綜合使用記錄後的描述。用戶使用次數主要是指;系統註冊用戶的總共的有效使用次數,歷史評價是資源被用戶評價的歷史記錄。可擴展項是根據系統和算法優化的需要而預留。
[0097]2)用戶對資源的搜索行為以及資源的評價情況都會被眾搜系統所記錄,並更新到資源描述文件中。
[0098]用戶評價與排序
[0099]以用戶為中心,從用戶使用資源的角度對眾搜系統中的資源進行評價和排序,並融入用戶評價機制。用戶之間評價的設置過程:
[0100]I)眾搜系統中的用戶之間可以進行相互評價,用戶之間的評價表示用戶之間相互信任的程度;
[0101]2)眾搜系統中的用戶對其它用戶可以給定一個評分,表示用戶的信任值;
[0102]3)用戶之間的信任值是可以傳遞並計算的;
[0103]用戶對資源的評價設置過程:
[0104]I)對眾搜系統中的資源,用戶根據自身使用體驗,給出[min, max]之間的一個評分,類似於淘寶或者亞馬遜系統中[1,5]的評分;
[0105]2)在給出用戶評分時,眾搜系統給出用戶評分對總體評分的偏差值,反映用戶整體的資源體驗情況;
[0106]資源排序過程:
[0107]I)對眾搜系統中的資源,計算資源描述文件與用戶描述文件的相似度,其計算過程如圖7所示,UserProfile和ResourceProfile分別用兩個特徵集合表示,相似度計算採用Jaccard相似度計算,Jaccard是公認的計算集合之間相似度的公式,為現有技術;
[0108]2)計算資源的整體評價得分;
[0109]3)計算用戶之間的信任值;
[0110]4)通過線性加權計算最終的資源得分;
[0111]5)根據最終得分進行降序排序,將Top-k資源列表即排序最前的k個資源列表推送給用戶,排序過程如圖8所示,其中排序過程綜合考慮了用戶評價和資源相似度,用戶評價包括用戶之間的評價及用戶對資源的評價,計算最後得分進行降序排列將最前面的Top-k個資源推送給用戶。
【權利要求】
1.一種眾搜資源搜索方法,其特徵在於,包括以下步驟: 步驟一:建立眾搜模型,以眾搜模型為架構進行搜索; 所述的眾搜模型包括開放Web資源庫、用戶行為資源庫、設備資源庫、過濾與評價模塊,以及由眾搜系統接口、眾搜系統資源庫和眾搜系統用戶庫組成的眾搜系統平臺; 所述的開放Web資源庫為通過搜尋引擎能夠檢索到的Web資源,且用戶可由共享的檢索接口進行檢索; 用戶行為資源庫為通過用戶自身行為所生成的資源,且無法被搜尋引擎所檢索; 設備資源庫為接入網際網路的設備,且每個設備均有唯一的標誌以區分; 過濾與評價模塊用於各用戶根據自身需要對開放Web資源庫、用戶行為資源庫、設備資源庫中的資源進行過濾,並在用戶與用戶之間設置相互評價的可信度機制; 眾搜系統接口用於用戶導入和搜索資源; 眾搜系統資源庫儲存有用戶導入至眾搜系統平臺的所有資源的資源描述文件,資源描述文件隨著用戶的使用情況不斷更新; 眾搜系統用戶庫儲存有眾搜系統平臺中所有用戶的用戶描述文件,用戶描述文件隨著用戶的使用情況不斷更新; 步驟二:用戶執行一次搜索,一次搜索為用戶將從開放Web資源庫、用戶行為資源庫和設備資源庫中收集到的資源由過濾與評價模塊進行過濾後,通過眾搜系統接口導入至眾搜系統平臺中,然後眾搜系統平臺設置該用戶的用戶描述文件和導入資源的資源描述文件;步驟三:眾搜系統平臺基於一次搜索的資源、用戶描述文件和資源描述文件,為用戶返回二次搜索的結果,二次搜索為用戶在眾搜系統中進行資源檢索,系統將最佳的k個結果作為檢索結果返回用戶,用戶對資源進行評價。
2.根據權利要求1所述的一種眾搜資源搜索方法,其特徵在於,用戶在首次使用眾搜系統平臺前,眾搜系統平臺為該用戶分配唯一的用戶標識,並建立相應的用戶描述文件。
3.根據權利要求1所述的一種眾搜資源搜索方法,其特徵在於,所述的一次搜索中,首先根據資源自身存儲地址來檢查所導入的資源是否已存儲在眾搜系統平臺中,若存在,則更新資源描述文件,將導入該資源的用戶記錄至資源描述文件中,否則,為資源建立唯一的資源標識,並根據所導入的資源自身的特徵,通過眾搜系統接口為資源添加資源描述文件。
4.根據權利要求1所述的一種眾搜資源搜索方法,其特徵在於,所述的二次搜索中,用戶輸入需要檢索的關鍵詞或者輸入空白的關鍵詞並設置檢索結果的相關屬性作為檢索請求,眾搜系統平臺將該用戶的檢索請求與系統中其它用戶的檢索進行相似度匹配並得到相似度匹配結果,如果未能匹配到相似結果,則根據關鍵詞對平臺內的資源進行檢索並得到初始的資源匹配庫,如得到了相似結果,則通過用戶設置的屬性進行初始過濾得到初始的資源匹配庫,然後通過資源描述文件與用戶描述文件之間的匹配度計算資源相關度,通過其它用戶對資源的整體評價結果計算資源評價度,結合資源相關度和資源評價度對初始化的資源庫進行排序;眾搜系統將排序之後最靠前的k個結果推送給用戶;用戶收到檢索結果之後,對其進行相應的評價,眾搜系統記錄用戶的反饋信息,這裡的反饋信息包括用戶的評分和瀏覽;然後將評分記錄寫入相應資源的資源描述文件和相應用戶的用戶描述文件中,將瀏覽記錄寫入相應用戶的用戶描述文件中。
5.根據權利要求2所述的一種眾搜資源搜索方法,其特徵在於,所述的用戶描述文件中記錄的內容包括用戶ID、擁有資源、搜索歷史、評價歷史和瀏覽歷史;搜索歷史中記錄了用戶歷次搜索的關鍵字,用戶在系統中的反饋信息,包括評分和點擊,都會被眾搜系統平臺所記錄,並更新到用戶描述文件中。
6.根據權利要求1所述的一種眾搜資源搜索方法,其特徵在於,所述的資源描述文件內記載有相應資源的典型特徵,包括來源、所屬主題、所適用的用戶描述、用戶使用次數、歷史評價和可擴展項;所述的來源是系統中某註冊用戶,所屬主題是該用戶上傳此資源時填寫的關鍵詞或文本分析時提取的關鍵詞;所適用的用戶描述是上傳此資源的用戶所設置的描述或者是綜合使用記錄後的描述;用戶使用次數主要是指系統註冊用戶的總共的有效使用次數,歷史評價是資源被用戶評價的歷史記錄;可擴展項是根據系統和算法優化的需要而預留;用戶對資源的搜索行為以及資源的評價情況都會被眾搜系統所記錄,並更新到資源描述文件中。
7.根據權利要求1所述的一種眾搜資源搜索方法,其特徵在於,所述的用戶與用戶之間設置相互評價的可信度機制為用戶之間進行相互評價,用戶之間的評價表示用戶之間相互信任的程度;眾搜系統中的用戶對其它用戶給定一個評分,表示用戶的信任值;用戶之間的信任值互相傳遞並計算,信任值的計算取加權平均值Y,Y = xl*wl+x2*w2+…+xn*wn,其中xl,x2,...311是信任鏈上的11個信任值,《1,《2,…,wn是權重,取值依次為1,0.9,0.7,0.4,0.1,0.1,…,0.1。
8.根據權利要求1所述的一種眾搜資源搜索方法,其特徵在於,用戶對資源進行評價的過程包括用戶對眾搜系統中的資源根據自身使用體驗,給出預設的最低評分和最高評分之間的一個評分;在給出用戶評分時,眾搜系統給出用戶評分對總體評分的偏差值,反映用戶整體的資源體驗情況。
9.根據權利要求1所述的一種眾搜資源搜索方法,其特徵在於,資源排序過程包括: 1)對眾搜系統中的資源,計算資源描述文件與用戶描述文件的相似度; 2)取所有用戶評分的平均值,得到資源的整體評價得分; 3)計算用戶之間的信任值; 4)通過Y= Y1+Y2+Y3,計算最終的資源得分,其中Y1是相似度,Y2是評價得分,Y3是?目任值; 5)根據最終得分進行降序排序,將排序最前的k個資源製成資源列表推送給用戶。
10.根據權利要求1所述的一種眾搜資源搜索方法,其特徵在於,所述的步驟三中最佳的k個結果中,所述的k = ,其中η表示系統中用戶的數量,\表示系統中第i個用戶查看的平均結果數,用戶排序按照其查看的平均結果數升序排列,0.8*n的結果向上取整數。
【文檔編號】G06F17/30GK104298785SQ201410632889
【公開日】2015年1月21日 申請日期:2014年11月12日 優先權日:2014年11月12日
【發明者】王國軍, 劉湘勇, 姜文君, 尹鵬飛, 鄭瑾, 張堯學 申請人:中南大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀