新四季網

圖書交叉閱讀方法

2023-10-04 08:40:39

圖書交叉閱讀方法
【專利摘要】本發明公開了一種圖書交叉閱讀方法。圖書交叉閱讀推薦技術本質上是一種基於文檔的檢索,即將一個文檔作為查詢,去檢索語義相似的其他文檔,圖書交叉閱讀推薦技術首先將每個圖書章節通過語義相似敏感哈希算法生成文檔指紋,並保證兩個語義相似的圖書章節的文檔指紋其海明距離也相近,然後將文檔指紋和圖書元數據、章節標題等異構信息統一建立索引,最後基於用戶的訪問日誌和圖書元數據信息,重排序候選推薦文檔。本發明將圖書章節投影到語義相關的文檔指紋中,並將文檔指紋、元數據信息、章節標題、用戶點擊等異構信息融入到統一索引中,基於用戶的閱讀章節,快速有效地推薦語義相關的其他章節,輔助用戶對圖書內容的理解、實現交叉閱讀。
【專利說明】圖書交叉閱讀方法
【技術領域】
[0001]本發明涉及圖書內容檢索方法,尤其涉及一種圖書交叉閱讀方法。
【背景技術】
[0002]隨著數字圖書館的日益發展,用戶在閱讀圖書時,希望能夠閱讀與當前內容相關的其他圖書章節,迫切希望數字圖書館中能夠提供一種圖書交叉閱讀推薦服務。
[0003]圖書交叉閱讀本質上是一種基於文檔的查詢(query by document),即將一個文檔作為查詢(query),去檢索內容相似的其他文檔。傳統的文本檢索系統一般設計為基於關鍵詞的檢索,也就是查詢詞一般較短。如果直接採用傳統的文本檢索方法,則性能會下降。比如,如果採用倒排索引的方法,那麼由於查詢文檔中含有較多的詞彙,於是合併每個詞彙的檢索結果需要耗費較長的時間。
[0004]文檔也可以表達成高維向量,於是query by document可以轉化為高維向量的檢索問題。哈希方法已在高維向量的檢索中被廣泛使用。比如,相似度哈希算法可以將相似的文檔投影為相似的指紋(即,壓縮的二進位碼),可用於文檔相似檢測和檢索。然而,在相似度哈希算法中,所有的單詞被同等看待,而不考慮單詞的語義信息。然而,文檔的單詞可以被分為文檔相關單詞、主題相關單詞以及背景單詞。一般而言,越能反映文檔語義的單詞越重要,所以需要把這些信息也融入到文檔指紋中,使得文檔指紋更加能反映主題。
[0005]此外,即使把圖書章節都轉化為了二進位碼形式的文檔指紋,從海量的文檔指紋中查找相似的文檔也是個極大的挑戰。假設每本書有50個章節(以小節為單位),則100萬冊圖書可形成5000萬個指紋,傳統採用線性掃描的文檔指紋檢索方式將不再適用。另外,除了文檔內容外,圖書的元數據信息、章節標題、用戶的點擊等信息在文檔相似檢索中也非常有用。但是很難將這些異構的信息融入到同一個索引中進行統一檢索。
[0006]在圖書交叉閱讀中,不僅需要將圖書章節投影到語義相關的指紋中,還需要將文檔指紋、元數據信息、章節標題、用戶點擊等信息融入到了同一個索引中。

【發明內容】

[0007]本發明的目的是為克服上述現有方法未能考慮文檔單詞的語義性,不能有效檢索海量哈希編碼等缺點,提供一種圖書交叉閱讀方法。
[0008]本發明解決其技術問題採用的技術方案如下:
[0009]圖書交叉閱讀方法的步驟如下:
[0010](I)構建圖書章節指紋:融合圖書章節特徵向量和圖書類別特徵向量,為圖書的每個章節構建主題敏感向量,然後再用相似度哈希算法構建圖書章節指紋;
[0011](2)構建統一索引:將圖書章節指紋轉變為語義單詞集合,並用全文檢索方法為語義單詞集合、圖書章節名稱、圖書分類信息建立統一索引;
[0012](3)圖書章節推薦:依據圖書章節間的距離,為用戶推薦相關圖書章節,並基於用戶的訪問行為,利用流形排序算法進行重排序。[0013]所述的步驟(1)包括:[0014]2.1對於所有的圖書,根據目錄將一本圖書拆分為章節集合,每個章節作為一個文檔進行保存,同時將章節的名稱、圖書的名稱、圖書的分類信息作為章節的元數據保存;
[0015]2.2對所有的章節進行自然語言處理,通過分詞、詞性標註、停用詞去除和詞組檢測步驟提取章節包含的名詞和名詞短語,將章節轉變為單詞的集合;
[0016]2.3根據章節所在圖書的分類,構建每個分類的章節集合,分別計算每個章節中所有單詞的tfidf (t, d)值和每個分類中所有單詞的tfidf (t, c)值:
[0017]tfidf (t, d) =tf (t, d) *idf (t, D), d e D
[0018]tfidf (t, c) =tf (t, c) *idf (t, C), c e C
[0019]其中tf(t,d)是指單詞t在文檔d中出現的次數,idf(t,D)被稱為逆文檔頻率,可以由總文檔數目|d|除以包含單詞t的文檔的數目,再將得到的商取對數,tf(t, c)是指單詞t在分類c中出現的次數,idf(t,C)則可以由總分類數|c|除以包含單詞t的分類的數目,再將得到的商取對數,當tfidf (t,c)大時,表示單詞t在分類c中常出現,而在其他的分類中則不常出現,此時單詞t被認為是分類C的主題相關詞,當tfidf (t, d)大而tfidf (t, c)小時,則單詞t被認為是文檔d的文檔相關詞,而tfidf (t,d)小時,則單詞t被認為是背景單詞或停用詞;選擇tfidf (t,c)大於閾值δ的單詞作為類別的主題相關詞,即T(c) = {t|tfidf(t,c)>S,cec},其中δ e [O, I);
文檔特徵向量用d = (W1Cd), W2(Cl)l表示,其中Wi (d)表示文檔主題
相關詞的tfidf (t, d)值,類別特徵向量用5 = (W1(C)iW2Cc), ,,,,Wn(C)1:表示,其中Wi (C)表示類別主題相關詞的tfidf (t,c)值,最後根據I和g ,調節文檔向量為...................> 1-
d* = {w\(d), w'2(d),…,w^Cd)},其中vv丨(d) = Wi(Ci) * wj(c);
[0020]2.4構建圖書章節指紋F的相似度哈希算法的步驟包括:首先輸入文檔d的特徵向量王,並初始化向量V,向量V每個元素置為零,然後對於文檔d中的每個單詞Wi,
應用哈希函數Θ,得到向量M= θ (Wi),對於M中的每個元素如果= I,那麼
Vj = Vj + Wi' (d),否則Vj ~ —- yy (d), 最後處理完文檔d中的所有單詞後,對於所
有的U=I……1},I是向量V的長度,如果ViX),那麼Fi=I,否則Fi=0。
[0021]所述的步驟(2)包括:
[0022]3.1對一個長度為z的文檔指紋F,分割為m個子串,每個子串的長度是z/m,每個子串標識為P1, P2,…,Pm ;
[0023]3.2通過翻Rpi的第j位,獲得新的子串Pi^,其中 '是第j位的位置,子串的權重是^ =會』其中τ e [O, I);
[0024]3.3 通過公式 I (Pi) += ν(ρ.?)+ (j^ | * 2i/m^子串Pi和卩〃轉換為整數,其中V (Pi)和ν(ρ/?)分別是二進位子串PjP Pi11*的相應的十進位數值;
[0025]3.4返回語義單詞及其權重:
【權利要求】
1.一種圖書交叉閱讀方法,其特徵在於包括它的步驟如下: (1)構建圖書章節指紋:融合圖書章節特徵向量和圖書類別特徵向量,為圖書的每個章節構建主題敏感向量,然後再用相似度哈希算法構建圖書章節指紋; (2)構建統一索引:將圖書章節指紋轉變為語義單詞集合,並用全文檢索方法為語義單詞集合、圖書章節名稱、圖書分類信息建立統一索引; (3)圖書章節推薦:依據圖書章節間的距離,為用戶推薦相關圖書章節,並基於用戶的訪問行為,利用流形排序算法進行重排序。
2.根據權利要求1所述的圖書交叉閱讀方法,其特徵在於所述的步驟(1)包括: 2.1對於所有的圖書,根據目錄將一本圖書拆分為章節集合,每個章節作為一個文檔進行保存,同時將章節的名稱、圖書的名稱、圖書的分類信息作為章節的元數據保存; 2.2對所有的章節進行自然語言處理,通過分詞、詞性標註、停用詞去除和詞組檢測步驟提取章節包含的名詞和名詞短語,將章節轉變為單詞的集合; 2.3根據章節所在圖書的分類,構建每個分類的章節集合,分別計算每個章節中所有單詞的tfidf(t, d)值和每個分類中所有單詞的tfidf (t, c)值:tf idf (t, d) =tf (t, d) *idf (t, D), d e Dtfidf (t, c) =tf (t, c) *idf (t, C), c e C 其中tf(t,d)是指單詞t在文檔d中出現的次數,idf(t,D)被稱為逆文檔頻率,可以由總文檔數目|D|除以包含單詞t的文檔的數目,再將得到的商取對數,tf(t, c)是指單詞t在分類C中出現的次數,idf(t,c)則可以由總分類數Icl除以包含單詞t的分類的數目,再將得到的商取對數,當tfidf (t,C)大時,表示單詞t在分類C中常出現,而在其他的分類中則不常出現,·此時單詞t被認為是分類c的主題相關詞,當tfidf (t,d)大而tfidf (t, c)小時,則單詞t被認為是文檔d的文檔相關詞,而tfidf (t, d)小時,則單詞t被認為是背景單詞或停用詞;選擇tfidf(t,c)大於閾值δ的單詞作為類別的主題相關詞,即T(c) = {t|tfidf (t, c)> δ,c e C},其中δ e [O, I);文檔特徵向量用d = (W1Cd)., Wli((I ),.,.., Wn ((I)}表示,其中 Wi (d)表示文檔主題相關詞的 tfidf (t, d)值,類別特徵向量用? = (W1(C)j W2(C),..., Wn(C))表示,其中Wi(C)表示類別主題相關詞的tfidf (t,c)值,最後根據 3 和g ,調節文檔向量為 Cf = (Wi1 (d),Wf2(d), , W^Cd)}?其中 w; (d) = W| (d) * Wi (C); 2.4構建圖書章節指紋F的相似度哈希算法的步驟包括:首先輸入文檔d的特徵向量S7,並初始化向量V,向量V每個元素置為零,然後對於文檔d中的每個單詞Wi,應用哈希函數Θ,得到向量M= Θ (Wi),對於.M中的每個元素關〗,如果滅丨=那麼Vj = V〗+W;漢),否則Vl = Vj-Wi (d),最後處理完文檔d中的所有單詞後,對於所有的U=I……1},I是向量V的長度,如果ViX),那麼Fi=I,否則Fi=0。
3.根據權利要求1所述的圖書交叉閱讀方法,其特徵在於所述的步 驟(2)包括:. 3.1對一個長度為z的文檔指紋F,分割為m個子串,每個子串的長度是z/m,每個子串標識為P1, P2,…,Pm ; .3.2通過翻Rpi的第j位,獲得新的子串Pp,其中 '是第j位的位置,子串的權重是 W(PiN) = 5,其中 τ e [O, I); . 3.3 通過公式
4.根據權利要求1所述的圖書交叉閱讀方法,其特徵在於所述步驟 (3)包括: . 4.1系統從統一索引中返回K個相似文檔,記為候選文檔D=W1, d2,…dK},其中Cl1是查詢文檔,兩個文檔間的距離用
【文檔編號】G06F17/30GK103714118SQ201310601627
【公開日】2014年4月9日 申請日期:2013年11月22日 優先權日:2013年11月22日
【發明者】魯偉明, 楊善松, 魏寶剛, 莊越挺 申請人:浙江大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀