新四季網

一種基於領域本體的多源個性化新聞網頁推薦方法

2023-05-24 19:39:16 3

一種基於領域本體的多源個性化新聞網頁推薦方法
【專利摘要】本發明公開了一種基於領域本體的多源個性化新聞網頁推薦方法,其特徵是按如下步驟進行:1建立新聞語料庫;2抓取新聞;3建立用戶初始興趣模型;4建立新聞分類模型;5個性化新聞推薦;6更新興趣模型。本發明能挖掘用戶的興趣度,使得推薦結果的準確性和召回率都有明顯的提升,並提高用戶的滿意度。
【專利說明】一種基於領域本體的多源個性化新聞網頁推薦方法

【技術領域】
[0001] 本發明屬於個性化推薦領域,具體地說是一種基於領域本體的多源個性化新聞推 薦方法。

【背景技術】
[0002] 隨著網際網路規模的迅速發展,人們獲取信息的方式越來越多,信息呈爆炸式增長, 用戶逐漸由信息匱乏走向了信息過載時代一一海量信息使得用戶難以尋找到各自所需的 信息。為了方便用戶從海量信息中尋找其所需的內容,出現了很多解決方案:包括分類目錄 和搜尋引擎。分類目錄是把常用熱門網站分門別類,便於用戶查找信息。但是,隨著網際網路 規模的擴大,分類目錄只能覆蓋少量熱門網站。搜尋引擎使得用戶只需把自己的需求轉換 成關鍵詞的不同組合,再在網絡中尋找其所需的需求。然而,由於成本、版面等原因的限制, 往往只能將網站或信息分為數個或十數個類別,這樣的分類粒度往往並不能滿足用戶的需 求。搜尋引擎則是只需用戶把自己的需求轉換成關鍵詞的組合在網絡中查找所需的信息。 然而由於搜尋引擎面向的是所有用戶,它返回的結果往往具有通用性,不能滿足出於不同 維度上的查詢要求。
[0003] 個性化推薦技術正是在這樣的背景下應運而生的,它是今後網站發展的整體趨 勢,同時也是網際網路領域的一個研宄熱點。所謂個性化新聞推薦就是將個性化推薦技術應 用於新聞資訊領域的推薦。它可以幫助用戶從海量的新聞資訊中輕鬆快速地發掘自己可能 感興趣的資訊,為用戶節省了大量的時間和精力。著名電子商務網站Amazon銷售額中的 35%是來自推薦系統。由此可見,推薦系統在提高了用戶的滿意度的同時,也提高了網站的 黏性,增加了網站訪問量,為網站帶來巨大的商業利益。
[0004] 在個性化推薦領域中,網頁這類文本內容的推薦又是一個非常重要的領域,如何 從海量的信息中計算得到海量用戶可能感興趣的內容推薦給用戶,是一個極具挑戰性的技 術領域。現有的技術主要有兩種技術方案比較流行,具體來說,包括:
[0005] (1)基於協同過濾的個性化推薦方法
[0006] 基於協同過濾的推薦算法(CollaborativeFilteringRecommendation)是通過 一組用戶的偏好來向其他用戶進行推薦的。這種方法的推薦對象可以是新聞、圖書、音樂、 視頻以及實物等任意對象。根據機器學習理論,基於協同過濾的推薦算法隸屬於實例的學 習範疇。同時,該推薦方法對於一些特殊品味的用戶不能給予很好的推薦。這類用戶首先 具有特殊性,其次,其想要獲得新聞、圖書等也具有特殊性。
[0007] (2)基於內容的個性化推薦算法
[0008] 基於內容的推薦(Content-basedRecommendation)主要是根據分析用戶已經讀 取過的內容與待推薦內容之間的相似性進行推薦的。隨著機器學習等技術的不斷完善,基 於內容的推薦方法又可以對用戶和內容分別建立對應的配置文件,通過分析用戶已經讀取 過的內容,建立或更新用戶的配置文件。基於內容的推薦算法的根本在於信息獲取和信息 過濾。因為在文本信息獲取與過濾方法的研宄較為成熟,現有很多基於內容的推薦系統都 是通過分析產品的文本信息進行推薦。該方法的不足之處是:如何對新用戶的推薦,因為新 用戶沒有歷史信息,無法構建其對應的配置文件。
[0009] 與此同時,在研宄如何根據用戶興趣偏好進行個性化推薦的過程中,構建語義概 念網絡就顯得十分重要,本體(Ontology)是目前應用十分廣泛的方法。
[0010] 本體的構成主要包括實例(Instance/Individual)、概念(Concept/Class)、屬 性(Attribute)和關係(Relation),更完整的本體還會包括限制(Restriction)和定理 (Axioms)等。實例描述領域中的相關個體;概念則是實例的類別和集合,歸類領域中的 個體類別;屬性是用戶描述實例和類別的特徵;而關係用於描述實例或類別與其他實例 或類別之間的關聯。廣義的本體包括從簡單到複雜多種形式的知識描述系統。分類系統 (Taxonomy)是一種最簡單的本體,所有的概念依據is-a關係構成一個樹狀(或者森林) 結構,比如生物的分類系統,門綱目屬種中的生物類別根據is-a構成所有已知生物的關係 樹。在構建不同領域的本體時,可能出現非常複雜的推理規則,而這往往也是構建本體需要 領域專家的原因之一。本體的構建為計算和聯想提供邏輯上的支持,因為聯想具有關聯性。 考慮到本體自身的特點,通過本體(Ontology)去尋找這種關聯更加符合語義邏輯關係和 聯想的過程。


【發明內容】

[0011] 本發明為解決現有技術存在的不足之處,提出一種基於領域本體的多源個性化新 聞推薦方法,以期能挖掘用戶的興趣度,從而提高推薦結果的準確性和召回率,提升用戶的 滿意度。
[0012] 本發明為達到上述發明目的所採用如下技術方案:
[0013] 本發明基於領域本體庫的個性化中文新聞推薦方法,所述中文新聞的領域本體庫 中包含由一級主題、二級主題和三級主題構成的新聞主題,所述一級主題中包含若干個一 級主題詞,所述二級主題中包含若干個二級主題詞,所述三級主題中包含若干個三級主題 詞,所述一級主題是所述二級主題的父類,所述二級主題是三級主題的父類,一個一級主題 詞中包含若干個二級主題詞,一個二級主題詞中包含若干個三級主題詞,從而構成樹形結 構;由所述一級主題、二級主題和三級主題中所有不同類別的主題詞構成所述領域本體庫 的查詢字典;
[0014] 其特點是按如下步驟進行:
[0015] 步驟1、建立新聞語料庫:
[0016] 根據所述領域本體庫中所有一級主題詞,分別從網絡上獲得類別與所述一級主題 詞對應的若干新聞,從而構成新聞語料庫;所述新聞語料庫包括一級主題詞和其相應主題 詞下的若干新聞;
[0017] 步驟2、抓取新聞:
[0018] 步驟2. 1、利用新聞門戶網站提供的新聞聚合器RSS獲得原始新聞;所述原始新聞 包括新聞標題、新聞時間和統一資源定位符URL;
[0019] 步驟2. 2、利用HTML解析器解析所述統一資源定位符URL,獲得與所述統一資源定 位符URL對應的新聞網頁DOM樹;所述新聞網頁DOM樹中包含有節點標籤;
[0020] 步驟2. 3、根據所述新聞網頁DOM樹的節點標籤獲得與所述統一資源定位符URL相 對應的正文標籤路徑特徵序列;
[0021] 步驟2. 4、根據正文標籤路徑特徵序列抓取所述原始新聞的正文內容;由原始新 聞的正文內容,新聞標題、新聞時間和統一資源定位符URL作為原始新聞集並存儲於本地 資料庫;
[0022] 步驟3、建立初始用戶興趣模型:
[0023] 根據用戶從所述領域本體庫中選出的新聞主題作為用戶興趣主題,建立初始用戶 興趣模型

【權利要求】
1. 一種基於領域本體庫的個性化中文新聞推薦方法,所述中文新聞的領域本體庫中包 含由一級主題、二級主題和三級主題構成的新聞主題,所述一級主題中包含若干個一級主 題詞,所述二級主題中包含若干個二級主題詞,所述三級主題中包含若干個三級主題詞,所 述一級主題是所述二級主題的父類,所述二級主題是三級主題的父類,一個一級主題詞中 包含若干個二級主題詞,一個二級主題詞中包含若干個三級主題詞,從而構成樹形結構;由 所述一級主題、二級主題和三級主題中所有不同類別的主題詞構成所述領域本體庫的查詢 字典; 其特徵是按如下步驟進行: 步驟1、建立新聞語料庫: 根據所述領域本體庫中所有一級主題詞,分別從網絡上獲得類別與所述一級主題詞對 應的若干新聞,從而構成新聞語料庫;所述新聞語料庫包括一級主題詞和其相應主題詞下 的若干新聞; 步驟2、抓取新聞: 步驟2. 1、利用新聞門戶網站提供的新聞聚合器RSS獲得原始新聞;所述原始新聞包括 新聞標題、新聞時間和統一資源定位符URL; 步驟2. 2、利用HTML解析器解析所述統一資源定位符URL,獲得與所述統一資源定位符URL對應的新聞網頁DOM樹;所述新聞網頁DOM樹中包含有節點標籤; 步驟2. 3、根據所述新聞網頁DOM樹的節點標籤獲得與所述統一資源定位符URL相對應 的正文標籤路徑特徵序列; 步驟2. 4、根據正文標籤路徑特徵序列抓取所述原始新聞的正文內容;由原始新聞的 正文內容,新聞標題、新聞時間和統一資源定位符URL作為原始新聞集並存儲於本地數據 庫; 步驟3、建立初始用戶興趣模型: 根據用戶從所述領域本體庫中選出的新聞主題作為用戶興趣主題,建立初始用戶興趣
F=的上,…?」表示用戶選擇的二級主題詞;集合G= {Gi,G2,…GY}表示用戶選擇的三 級主題詞;集合a= {a。a2,…aY}表示用戶的感興趣程度;初始化所述感興趣程度集合a 中的每個元素值為S;y表示所述用戶興趣主題的個數;0
作為用戶第j個興趣;以
作為用戶第j個興趣類別Aj;l彡j彡y; 步驟4、建立新聞分類模型: 步驟4. 1、將所述原始新聞集中的正文內容進行分詞處理獲得已分詞新聞; 步驟4. 2、根據所述一級主題詞、二級主題詞和三級主題詞,利用樸素貝葉斯的文本分 類方法將所述已分詞新聞進行分類處理獲得待推薦新聞集X={Xpx2,…Xi,…xm},Xi表示 第i個待推薦新聞; 利用式(1)獲得所述第i個待推薦新聞\的屬於第j個興趣類別^概率P(A」Xi):
式(1)中,tk表示所述第i個待推薦新聞x 含有所述查詢字典中的任一詞語;n表 示所述第i個推薦新聞\中含有所述查詢字典中的詞語總數;1彡k彡n,TF(tk,Ap表示 任一詞語tk在新聞語料庫中類別為一級主題詞h的新聞中出現次數:
表示 所述第i個待推薦新聞\中所有詞語在新聞語料庫中分類為一級主題Ej勺新聞中出現的 次數之和; 步驟5、個性化推薦: 步驟5. 1、利用式(2)獲得第i個待推薦新聞Xi的推薦分值S(x^,從而獲得所有待推 薦新聞的分值:
式(2)中,P(A」Xi)表示第i個待推薦新聞Xi屬於用戶第j個興趣類別、的概率;a」 表示所述用戶第j個興趣類別?的感興趣程度; 步驟5. 2、將所述所有待推薦新聞的推薦分值進行降序排序,選出前S個待推薦新聞推 薦給用戶; 步驟6、更新興趣模型: 利用式⑶更新所述初始用戶興趣模型,從而獲得用戶興趣動態模型
式⑶中,E廣示用戶第j個興趣類別^的一級主題詞;yw表示推薦給用戶與所 述一級主題詞&對應的任一推薦新聞;A表示推薦給用戶的新聞總條數,1 <y<入; W(yw|Ep表示用戶對推薦新聞的滿意程度;當用戶瀏覽推薦新聞yw,但未表示滿意,則 W(yjEp=x;當用戶瀏覽推薦新聞yw,並表示滿意,則WCvA|晃)=供;當用戶未瀏覽推薦
間距離瀏覽日期的時間間隔。
【文檔編號】G06F17/27GK104484431SQ201410797816
【公開日】2015年4月1日 申請日期:2014年12月19日 優先權日:2014年12月19日
【發明者】吳信東, 謝飛, 胡學鋼, 宮雪, 郭建波 申請人:合肥工業大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀