基於標籤的推薦數據挖掘方法及裝置製造方法
2023-05-22 03:24:21 4
基於標籤的推薦數據挖掘方法及裝置製造方法
【專利摘要】本發明提供一種基於標籤的推薦數據挖掘方法及裝置。本發明實施例通過確定至少一個與評論信息相關的標籤,以作為目標標籤,使得能夠根據所述目標標籤,獲得與所述目標標籤相關的目標推薦數據,由於採用與評論信息相關的標籤所描述的特徵維度較多,且數量很多,因此,能夠避免現有技術中由於推薦數據的標籤都是一些只描述推薦數據的固定特徵的詞語而導致的該標籤所描述的特徵維度比較單一,且數量有限的問題,從而提高了推薦數據的準確率、利用率和點擊率。
【專利說明】基於標籤的推薦數據挖掘方法及裝置
【【技術領域】】
[0001]本發明涉及推薦技術,尤其涉及一種基於標籤的推薦數據挖掘方法及裝置。
【【背景技術】】
[0002]隨著通信技術的發展,終端集成了越來越多的功能,從而使得終端的系統功能列表中包含了越來越多相應的應用程式。有些應用程式中會涉及一些推薦服務,例如,百度地圖中的附近美食推薦等。這些應用程式的客戶端可以利用推薦數據的標籤(tag),還可以稱其為標註,進行一些基於標籤的推薦等。現有技術中,具體可以基於預先設置的標準詞語,提取推薦數據的標籤,這些標準詞語都是一些描述推薦數據的固定特徵的詞語,例如,中餐館、川菜或燒烤等標準詞語。
[0003]然而,由於推薦數據的標籤都是一些只描述推薦數據的固定特徵的詞語,例如,中餐館、川菜或燒烤等標準詞語,因此,該標籤所描述的特徵維度比較單一,且數量有限,從而導致了基於標籤所挖掘的推薦數據的準確率、利用率和點擊率的降低。
【
【發明內容】
】
[0004]本發明的多個方面提供一種基於標籤的推薦數據挖掘方法及裝置,用以提高推薦數據的準確率、利用率和點擊率。
[0005]本發明的一方面,提供一種基於標籤的推薦數據挖掘方法,包括:
[0006]確定至少一個與評論信息相關的標籤,以作為目標標籤;
[0007]根據所述目標標籤,獲得與所述目標標籤相關的目標推薦數據。
[0008]如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述根據所述目標標籤,獲得與所述目標標籤相關的目標推薦數據,包括:
[0009]根據所述目標標籤,利用基於項目的協同過濾算法,獲得與所述目標標籤相關的目標推薦數據。
[0010]如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述根據所述目標標籤,利用基於項目的協同過濾算法,獲得與所述目標標籤相關的目標推薦數據,包括:
[0011]根據所述目標標籤,利用基於項目的協同過濾算法,在待推薦的全部推薦數據或部分推薦數據的標籤中進行匹配,以獲得與所述目標標籤一致或相近似的匹配標籤;
[0012]根據所述匹配標籤,獲得與所述匹配標籤對應的推薦數據,以作為所述目標推薦數據。
[0013]如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述確定至少一個與評論信息相關的標籤,以作為目標標籤之前,還包括:
[0014]通過與至少一個伺服器進行交互,獲得待推薦的全部推薦數據或部分推薦數據的評論息;
[0015]根據每個所述推薦數據的評論信息,提取每個所述推薦數據的標籤。
[0016]如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述根據每個所述推薦數據的評論信息,提取每個所述推薦數據的標籤,包括:
[0017]在每個所述推薦數據的評論信息中進行挖掘,以獲得每個所述推薦數據的評論索弓I ;
[0018]根據每個所述推薦數據的評論索引,提取每個所述推薦數據的標籤。
[0019]如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述標籤包括環境信息、服務信息和推薦項目信息中的至少一項。
[0020]本發明的另一方面,提供一種基於標籤的推薦數據挖掘裝置,包括:
[0021]確定單元,用於確定至少一個與評論信息相關的標籤,以作為目標標籤;
[0022]獲得單元,用於根據所述目標標籤,獲得與所述目標標籤相關的目標推薦數據。
[0023]如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述獲得單元,具體用於
[0024]根據所述目標標籤,利用基於項目的協同過濾算法,獲得與所述目標標籤相關的目標推薦數據。
[0025]如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述獲得單元,具體用於
[0026]根據所述目標標籤,利用基於項目的協同過濾算法,在待推薦的全部推薦數據或部分推薦數據的標籤中進行匹配,以獲得與所述目標標籤一致或相近似的匹配標籤;以及根據所述匹配標籤,獲得標籤為所述匹配標籤的推薦數據,以作為所述目標推薦數據。
[0027]如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述裝置還包括提取單元,用於
[0028]通過與至少一個伺服器進行交互,獲得待推薦的全部推薦數據或部分推薦數據的評論信息;以及根據每個所述推薦數據的評論信息,提取每個所述推薦數據的標籤。
[0029]如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述提取單元,具體用於
[0030]在每個所述推薦數據的評論信息中進行挖掘,以獲得每個所述推薦數據的評論索引;以及根據每個所述推薦數據的評論索引,提取每個所述推薦數據的標籤。
[0031]如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述標籤包括環境信息、服務信息和推薦項目信息中的至少一項。
[0032]由上述技術方案可知,本發明實施例通過確定至少一個與評論信息相關的標籤,以作為目標標籤,使得能夠根據所述目標標籤,獲得與所述目標標籤相關的目標推薦數據,由於採用與評論信息相關的標籤所描述的特徵維度較多,且數量很多,因此,能夠避免現有技術中由於推薦數據的標籤都是一些只描述推薦數據的固定特徵的詞語而導致的該標籤所描述的特徵維度比較單一,且數量有限的問題,從而提高了推薦數據的準確率、利用率和點擊率。
【【專利附圖】
【附圖說明】】
[0033]為了更清楚地說明本發明實施例中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發明的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。
[0034]圖1為本發明一實施例提供的基於標籤的推薦數據挖掘方法的流程示意圖;
[0035]圖2為本發明另一實施例提供的基於標籤的推薦數據挖掘裝置的結構示意圖;
[0036]圖3為本發明另一實施例提供的基於標籤的推薦數據挖掘裝置的結構示意圖。
【【具體實施方式】】
[0037]為使本發明實施例的目的、技術方案和優點更加清楚,下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都屬於本發明保護的範圍。
[0038]需要說明的是,本發明實施例中所涉及的終端可以包括但不限於手機、個人數字助理(Personal Digital Assistant, PDA)、無線手持裝置、無線上網本、個人電腦、便攜電腦、MP3播放器、MP4播放器等。
[0039]另外,本文中術語「和/或」,僅僅是一種描述關聯對象的關聯關係,表示可以存在三種關係,例如,A和/或B,可以表示:單獨存在A,同時存在A和B,單獨存在B這三種情況。另外,本文中字符「/」,一般表示前後關聯對象是一種「或」的關係。
[0040]圖1為本發明一實施例提供的基於標籤的推薦數據挖掘方法的流程示意圖,如圖1所示。
[0041]101、確定至少一個與評論信息相關的標籤,以作為目標標籤。
[0042]具體地,具體可以根據目標用戶歷史訪問的全球資訊網(World Wide Web, Web)頁面、歷史點擊的推薦數據、當前所在的位置數據和歷史發表的用戶評論等相關信息,確定該目標用戶可能感興趣的興趣點(Point of Interest,Ρ0Ι)。然後,則可以根據所確定的興趣點,確定至少一個與評論信息相關的標籤,以作為目標標籤,本實施例對此不進行限定。
[0043]例如,目標用戶昨天剛剛點擊過「江邊城外(上地店)」,那麼,根據目標用戶對「江邊城外(上地店)」所發表的用戶評論即「環境優雅,適合帶寶寶用餐」,則可以確定該目標用戶可能感興趣的興趣點為「環境優雅」;然後,則可以根據所確定的興趣點「環境優雅」,確定「環境優雅」作為目標標籤。
[0044]102、根據所述目標標籤,獲得與所述目標標籤相關的目標推薦數據。
[0045]需要說明的是,101?102的執行主體可以是推薦引擎,可以位於本地的客戶端中,以進行離線推薦,或者還可以位於網絡側的伺服器中,以進行在線推薦,本實施例對此不進行限定。
[0046]可以理解的是,在102之後,推薦引擎則可以進一步將目標推薦數據發送給客戶端,以供該客戶端將所述目標推薦數據展現給目標用戶。
[0047]可以理解的是,所述客戶端可以是安裝在終端上的應用程式,或者還可以是瀏覽器的一個網頁,只要能夠實現推薦,以提供推薦服務的客觀存在形式都可以,本實施例對此不進行限定。
[0048]這樣,通過確定至少一個與評論信息相關的標籤,以作為目標標籤,使得能夠根據所述目標標籤,獲得與所述目標標籤相關的目標推薦數據,由於採用與評論信息相關的標籤所描述的特徵維度較多,且數量很多,因此,能夠避免現有技術中由於推薦數據的標籤都是一些只描述推薦數據的固定特徵的詞語而導致的該標籤所描述的特徵維度比較單一,且數量有限的問題,從而提高了推薦數據的準確率、利用率和點擊率。
[0049]另外,採用本發明提供的技術方案,能夠挖掘到更多的推薦數據,從而能夠進一步提高推薦數據的利用率和點擊率。
[0050]可選地,在本實施例的一個可能的實現方式中,在102中,推薦引擎具體可以根據所述目標標籤,利用基於項目(Item-based)的協同過濾算法,獲得與所述目標標籤相關的目標推薦數據。
[0051]具體地,在本實施例中「項目」可以理解為標籤,基於項目的協同過濾算法,也就是說,基於標籤的協同過濾算法,是根據用戶對相似項目的評分數據預測目標項目的評分,它是建立在如下假設基礎上的:如果大部分用戶對某些項目的打分比較相近,則當前用戶對這些項的打分也會比較接近。基於項目的協同過濾算法主要對目標用戶所評價的一組項目進行研究,並計算這些項目與目標項目之間的相似性,然後從選擇前K個最相似度最大的項目輸出。
[0052]例如,所述推薦引擎具體可以根據所述目標標籤,利用基於項目的協同過濾算法,在待推薦的全部推薦數據或部分推薦數據的標籤中進行匹配,以獲得與所述目標標籤一致或相近似的匹配標籤;然後,所述推薦引擎則可以根據所述匹配標籤,獲得與所述匹配標籤對應的推薦數據,以作為所述目標推薦數據。
[0053]可選地,在本實施例的一個可能的實現方式中,在101之前,推薦引擎還可以進一步通過與至少一個伺服器進行交互,獲得待推薦的全部推薦數據或部分推薦數據的評論信息。例如,大眾點評、飯統網、百度身邊等應用所涉及的伺服器,該伺服器中存儲有用戶關於待推薦的全部推薦數據或部分推薦數據的點評。然後,所述推薦引擎則可以根據每個所述推薦數據的評論信息,提取每個所述推薦數據的標籤。
[0054]具體地,具體可以利用分詞處理、停用詞過濾等方法,從每個所述推薦數據的評論信息中,提取每個所述推薦數據的標籤。
[0055]其中,分詞處理是指,對目標文本進行切分,例如,字符串匹配分詞、詞義分詞、統計分詞等方法。
[0056]其中,停用詞過濾是指,對一些出現頻率太高,且沒有太大搜索含義的詞,例如,的、是、太、非常、of、the和is等,進行過濾。
[0057]例如,所述評論信息可以為如下形式:
[0058]環境優雅,非常適合帶寶寶用餐,讚一個。
[0059]其中,採用逗號等分隔符進行分隔,不同的輸入法分隔符可以不相同,本實施例對此不進行限定,只要能夠需要根據評論信息具體情況進行分隔設置即可。具體可以先通過分隔符,將評論信息分割成一個一個的部分,然後對每個部分進行分詞處理。「非常適合帶寶寶用餐」這一位置信息,如果直接成為一個tag,是不合理的,因為長度過長了,需要對其進行分詞處理。分詞處理技術當前是成熟的,會將其分隔為「非常」、「帶」、「寶寶」和「用餐」等 tag。
[0060]但是,明顯「非常」這個tag對於讀者了解這家商戶沒有任何幫助,因此需要進一步進行停用詞過濾。例如,使用一個停用詞列表來進行過濾,該列表所包含的tag為一些出現頻率太高,且沒有太大搜索含義的詞,例如,的、是、太、非常、Of、the和is等,進行過濾,得到標籤。
[0061]具體地,所述推薦引擎具體可以在每個所述推薦數據的評論信息中進行挖掘,以獲得每個所述推薦數據的評論索引。然後,所述推薦引擎則可以根據每個所述推薦數據的評論索弓I,提取每個所述推薦數據的標籤。
[0062]可選地,在本實施例的一個可能的實現方式中,本發明所涉及的所述標籤可以包括但不限於環境信息、服務信息和推薦項目信息中的至少一項。例如,環境嘈雜、環境優雅等環境信息;或者再例如,服務員態度太差、門口等位設置娛樂設備等服務信息;或者再例如,推薦魚香味烤魚、水煮魚味道鮮美等推薦項目信息,本實施例對此不進行限定。
[0063]本實施例中,通過確定至少一個與評論信息相關的標籤,以作為目標標籤,使得能夠根據所述目標標籤,獲得與所述目標標籤相關的目標推薦數據,由於採用與評論信息相關的標籤所描述的特徵維度較多,且數量很多,因此,能夠避免現有技術中由於推薦數據的標籤都是一些只描述推薦數據的固定特徵的詞語而導致的該標籤所描述的特徵維度比較單一,且數量有限的問題,從而提高了推薦數據的準確率、利用率和點擊率。
[0064]另外,採用本發明提供的技術方案,能夠挖掘到更多的推薦數據,從而能夠進一步提高推薦數據的利用率和點擊率。
[0065]需要說明的是,對於前述的各方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本發明並不受所描述的動作順序的限制,因為依據本發明,某些步驟可以採用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬於優選實施例,所涉及的動作和模塊並不一定是本發明所必須的。
[0066]在上述實施例中,對各個實施例的描述都各有側重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關描述。
[0067]圖2為本發明另一實施例提供的基於標籤的推薦數據挖掘裝置的結構示意圖,如圖2所示。本實施例的基於標籤的推薦數據挖掘裝置可以包括確定單元21和獲得單元22。其中,確定單元21,用於確定至少一個與評論信息相關的標籤,以作為目標標籤;獲得單元22,用於根據所述目標標籤,獲得與所述目標標籤相關的目標推薦數據。
[0068]具體地,所述確定單元21具體可以根據目標用戶歷史訪問的全球資訊網(World WideWeb, Web)頁面、歷史點擊的推薦數據、當前所在的位置數據和歷史發表的用戶評論等相關信息,確定該目標用戶可能感興趣的興趣點(Point of Interest, Ρ0Ι)。然後,所述確定單元21則可以根據所確定的興趣點,確定至少一個與評論信息相關的標籤,以作為目標標籤,本實施例對此不進行限定。
[0069]例如,目標用戶昨天剛剛點擊過「江邊城外(上地店)」,那麼,所述確定單元21根據目標用戶對「江邊城外(上地店)」所發表的用戶評論即「環境優雅,適合帶寶寶用餐」,則可以確定該目標用戶可能感興趣的興趣點為「環境優雅」;然後,所述確定單元21則可以根據所確定的興趣點「環境優雅」,確定「環境優雅」作為目標標籤。
[0070]需要說明的是,本實施例提供的裝置可以是推薦引擎,可以位於本地的客戶端中,以進行離線推薦,或者還可以位於網絡側的伺服器中,以進行在線推薦,本實施例對此不進行限定。
[0071]可以理解的是,在獲得單元22執行根據所述目標標籤,獲得與所述目標標籤相關的目標推薦數據的操作之後,推薦引擎則可以進一步將目標推薦數據發送給客戶端,以供該客戶端將所述目標推薦數據展現給目標用戶。
[0072]可以理解的是,所述客戶端可以是安裝在終端上的應用程式,或者還可以是瀏覽器的一個網頁,只要能夠實現推薦,以提供推薦服務的客觀存在形式都可以,本實施例對此不進行限定。
[0073]這樣,通過確定單元確定至少一個與評論信息相關的標籤,以作為目標標籤,使得獲得單元能夠根據所述目標標籤,獲得與所述目標標籤相關的目標推薦數據,由於採用與評論信息相關的標籤所描述的特徵維度較多,且數量很多,因此,能夠避免現有技術中由於推薦數據的標籤都是一些只描述推薦數據的固定特徵的詞語而導致的該標籤所描述的特徵維度比較單一,且數量有限的問題,從而提高了推薦數據的準確率、利用率和點擊率。
[0074]另外,採用本發明提供的技術方案,能夠挖掘到更多的推薦數據,從而能夠進一步提高推薦數據的利用率和點擊率。
[0075]可選地,在本實施例的一個可能的實現方式中,所述獲得單元22,具體可以用於根據所述目標標籤,利用基於項目(Item-based)的協同過濾算法,獲得與所述目標標籤相關的目標推薦數據。
[0076]具體地,在本實施例中「項目」可以理解為標籤,基於項目的協同過濾算法,也就是說,基於標籤的協同過濾算法,是根據用戶對相似項目的評分數據預測目標項目的評分,它是建立在如下假設基礎上的:如果大部分用戶對某些項目的打分比較相近,則當前用戶對這些項的打分也會比較接近。基於項目的協同過濾算法主要對目標用戶所評價的一組項目進行研究,並計算這些項目與目標項目之間的相似性,然後從選擇前K個最相似度最大的項目輸出。
[0077]例如,所述獲得單元22,具體可以根據所述目標標籤,利用基於項目的協同過濾算法,在待推薦的全部推薦數據或部分推薦數據的標籤中進行匹配,以獲得與所述目標標籤一致或相近似的匹配標籤;以及根據所述匹配標籤,獲得標籤為所述匹配標籤的推薦數據,以作為所述目標推薦數據。
[0078]可選地,在本實施例的一個可能的實現方式中,如圖3所示,本實施例提供的基於標籤的推薦數據挖掘裝置還可以進一步包括提取單元31,用於通過與至少一個伺服器進行交互,獲得待推薦的全部推薦數據或部分推薦數據的評論信息,例如,大眾點評、飯統網、百度身邊等應用所涉及的伺服器,該伺服器中存儲有用戶關於待推薦的全部推薦數據或部分推薦數據的點評;以及根據每個所述推薦數據的評論信息,提取每個所述推薦數據的標籤。
[0079]具體地,所述提取單元31具體可以利用分詞處理、停用詞過濾等方法,從每個所述推薦數據的評論信息中,提取每個所述推薦數據的標籤。
[0080]其中,分詞處理是指,對目標文本進行切分,例如,字符串匹配分詞、詞義分詞、統計分詞等方法。
[0081]其中,停用詞過濾是指,對一些出現頻率太高,且沒有太大搜索含義的詞,例如,的、是、太、非常、of、the和is等,進行過濾。
[0082]例如,所述評論信息可以為如下形式:
[0083]環境優雅,非常適合帶寶寶用餐,讚一個。
[0084]其中,採用逗號等分隔符進行分隔,不同的輸入法分隔符可以不相同,本實施例對此不進行限定,只要能夠需要根據評論信息具體情況進行分隔設置即可。所述提取單元31具體可以先通過分隔符,將評論信息分割成一個一個的部分,然後對每個部分進行分詞處理。「非常適合帶寶寶用餐」這一位置信息,如果直接成為一個tag,是不合理的,因為長度過長了,需要對其進行分詞處理。分詞處理技術當前是成熟的,會將其分隔為「非常」、「帶」、「寶寶」和「用餐」等tag。
[0085]但是,明顯「非常」這個tag對於讀者了解這家商戶沒有任何幫助,因此需要進一步進行停用詞過濾。例如,使用一個停用詞列表來進行過濾,該列表所包含的tag為一些出現頻率太高,且沒有太大搜索含義的詞,例如,的、是、太、非常、of、the和is等,進行過濾,得到標籤。
[0086]具體地,所述提取單元31,具體可以用於在每個所述推薦數據的評論信息中進行挖掘,以獲得每個所述推薦數據的評論索引;以及根據每個所述推薦數據的評論索引,提取每個所述推薦數據的標籤。
[0087]可選地,在本實施例的一個可能的實現方式中,本發明所涉及的所述標籤包括環境信息、服務信息和推薦項目信息中的至少一項。例如,環境嘈雜、環境優雅等環境信息;或者再例如,服務員態度太差、門口等位設置娛樂設備等服務信息;或者再例如,推薦魚香味烤魚、水煮魚味道鮮美等推薦項目信息,本實施例對此不進行限定。
[0088]本實施例中,通過確定單元確定至少一個與評論信息相關的標籤,以作為目標標籤,使得獲得單元能夠根據所述目標標籤,獲得與所述目標標籤相關的目標推薦數據,由於採用與評論信息相關的標籤所描述的特徵維度較多,且數量很多,因此,能夠避免現有技術中由於推薦數據的標籤都是一些只描述推薦數據的固定特徵的詞語而導致的該標籤所描述的特徵維度比較單一,且數量有限的問題,從而提高了推薦數據的準確率、利用率和點擊率。
[0089]另外,採用本發明提供的技術方案,能夠挖掘到更多的推薦數據,從而能夠進一步提高推薦數據的利用率和點擊率。
[0090]所屬領域的技術人員可以清楚地了解到,為描述的方便和簡潔,上述描述的系統,裝置和單元的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。
[0091]在本發明所提供的幾個實施例中,應該理解到,所揭露的系統,裝置和方法,可以通過其它的方式實現。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如多個單元或組件可以結合或者可以集成到另一個系統,或一些特徵可以忽略,或不執行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機械或其它的形式。
[0092]所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位於一個地方,或者也可以分布到多個網絡單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。
[0093]另外,在本發明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以採用硬體的形式實現,也可以採用硬體加軟體功能單元的形式實現。
[0094]上述以軟體功能單元的形式實現的集成的單元,可以存儲在一個計算機可讀取存儲介質中。上述軟體功能單元存儲在一個存儲介質中,包括若干指令用以使得一臺計算機裝置(可以是個人計算機,伺服器,或者網絡裝置等)或處理器(processor)執行本發明各個實施例所述方法的部分步驟。而前述的存儲介質包括:U盤、移動硬碟、只讀存儲器(Read-Only Memory, ROM)、隨機存取存儲器(Random Access Memory, RAM)、磁碟或者光碟等各種可以存儲程序代碼的介質。
[0095]最後應說明的是:以上實施例僅用以說明本發明的技術方案,而非對其限制;儘管參照前述實施例對本發明進行了詳細的說明,本領域的普通技術人員應當理解:其依然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分技術特徵進行等同替換;而這些修改或者替換,並不使相應技術方案的本質脫離本發明各實施例技術方案的精神和範圍。
【權利要求】
1.一種基於標籤的推薦數據挖掘方法,其特徵在於,包括: 確定至少一個與評論信息相關的標籤,以作為目標標籤; 根據所述目標標籤,獲得與所述目標標籤相關的目標推薦數據。
2.根據權利要求1所述的方法,其特徵在於,所述根據所述目標標籤,獲得與所述目標標籤相關的目標推薦數據,包括: 根據所述目標標籤,利用基於項目的協同過濾算法,獲得與所述目標標籤相關的目標推薦數據。
3.根據權利要求2所述的方法,其特徵在於,所述根據所述目標標籤,利用基於項目的協同過濾算法,獲得與所述目標標籤相關的目標推薦數據,包括: 根據所述目標標籤,利用基於項目的協同過濾算法,在待推薦的全部推薦數據或部分推薦數據的標籤中進行匹配,以獲得與所述目標標籤一致或相近似的匹配標籤; 根據所述匹配標籤,獲得與所述匹配標籤對應的推薦數據,以作為所述目標推薦數據。
4.根據權利要求1?3任一權利要求所述的方法,其特徵在於,所述確定至少一個與評論信息相關的標籤,以作為目標標籤之前,還包括: 通過與至少一個伺服器進行交互,獲得待推薦的全部推薦數據或部分推薦數據的評論信息; 根據每個所述推薦數據的評論信息,提取每個所述推薦數據的標籤。
5.根據權利要求4所述的方法,其特徵在於,所述根據每個所述推薦數據的評論信息,提取每個所述推薦數據的標籤,包括: 在每個所述推薦數據的評論信息中進行挖掘,以獲得每個所述推薦數據的評論索引; 根據每個所述推薦數據的評論索引,提取每個所述推薦數據的標籤。
6.根據權利要求1?5任一權利要求所述的方法,其特徵在於,所述標籤包括環境信息、服務信息和推薦項目信息中的至少一項。
7.一種基於標籤的推薦數據挖掘裝置,其特徵在於,包括: 確定單元,用於確定至少一個與評論信息相關的標籤,以作為目標標籤; 獲得單元,用於根據所述目標標籤,獲得與所述目標標籤相關的目標推薦數據。
8.根據權利要求7所述的裝置,其特徵在於,所述獲得單元,具體用於 根據所述目標標籤,利用基於項目的協同過濾算法,獲得與所述目標標籤相關的目標推薦數據。
9.根據權利要求8所述的裝置,其特徵在於,所述獲得單元,具體用於 根據所述目標標籤,利用基於項目的協同過濾算法,在待推薦的全部推薦數據或部分推薦數據的標籤中進行匹配,以獲得與所述目標標籤一致或相近似的匹配標籤;以及根據所述匹配標籤,獲得標籤為所述匹配標籤的推薦數據,以作為所述目標推薦數據。
10.根據權利要求7?9任一權利要求所述的裝置,其特徵在於,所述裝置還包括提取單元,用於 通過與至少一個伺服器進行交互,獲得待推薦的全部推薦數據或部分推薦數據的評論信息;以及根據每個所述推薦數據的評論信息,提取每個所述推薦數據的標籤。
11.根據權利要求10所述的裝置,其特徵在於,所述提取單元,具體用於 在每個所述推薦數據的評論信息中進行挖掘,以獲得每個所述推薦數據的評論索引;以及根據每個所述推薦數據的評論索引,提取每個所述推薦數據的標籤。
12.根據權利要求7?11任一權利要求所述的裝置,其特徵在於,所述標籤包括環境信息、服務信息和推薦項目信息中的至少一項。
【文檔編號】G06F17/30GK104166648SQ201310182148
【公開日】2014年11月26日 申請日期:2013年5月16日 優先權日:2013年5月16日
【發明者】劉凱奎 申請人:百度在線網絡技術(北京)有限公司