新四季網

重複信息識別方法和設備的製作方法

2023-06-15 06:05:16 1

專利名稱:重複信息識別方法和設備的製作方法
重複信息識別方法和設備技術領域
本申請涉及通信技術領域,特別涉及一種重複信息識別方法和設備。
技術背景
電子商務(Electronic Commerce, EC)通常是指在全球各地廣泛的商業貿易活動中,在網際網路開放的網絡環境下,基於瀏覽器/伺服器應用方式,買賣雙方不謀面地進行各種商貿活動,實現消費者的網上購物、商戶之間的網上交易和在線電子支付以及各種商務活動、交易活動、金融活動和相關的綜合服務活動的一種新型的商業運營模式。
電子商務涵蓋的範圍很廣,一般可分為企業對企業(Business-to-Business, B2B),或企業對消費者(Business-to-Customer, B2C)兩種。另外還有消費者對消費者 (Customer-to-Customer, C2C)這種大步增長的模式。隨著國內Internet (網際網路)使用人數的增加,利用^ternet進行網絡購物並以銀行卡付款的消費方式已漸流行,市場份額也在迅速增長,電子商務網站也層出不窮。
隨著電子商務的高速發展,網際網路上電子商務網站中的商品數量也在高速增長, 在海量的商品信息背後,存在著大量相同或相似的商品信息,對於電子商務網站的管理者, 大量的相同或相似的商品信息的重複審核,大大降低了產品審核效率,並消耗存儲空間,浪費了商品信息的審核和存儲資源,而如果大量內容相同或相似產品在前臺展示,則對於電子商務網站的使用者來說,大量雷同信息的重複顯示也會嚴重影響使用者的商品搜索體驗和搜索效率。
因此,現有技術中,在電子商務網站的信息管理端啟動了產品信息源頭去重技術, 在產品信息進入審核前,通過技術手段自動將內容相同或相似的產品信息進行退回處理, 從而提高電子商務網站整體信息的質量。
通常,在現有的技術方案中,上述的產品信息源頭去重技術所採用的方法具體為資料庫查詢比對法即將進入審核流程的產品數據取出,訪問資料庫查詢出該產品對應用戶的所有產品信息。通過程序將該產品信息與本用戶的其它產品信息依次進行比較。如比較斷定為重複信息,則對該產品信息的審核處理進行退回操作,反之,則繼續進行其餘審核。
在實現本申請實施例的過程中,申請人發現現有技術至少存在以下問題
1、造成了資料庫訪問的巨大壓力
如果按照現有的技術方案,使用資料庫查詢比對法,則每審核一條產品信息都需要對資料庫進行一次查詢。在需要審核的信息量較小時,不會產生過大的影響,但需要審核的信息量一旦增加,便會對資料庫造成極大的訪問壓力。
如果以一個電子商務網站每天需要審核幾十萬條的產品信息的審核量來計算,那麼,對於一個電子商務網站的資料庫來講,每天至少將會增加幾十萬次的資料庫查詢操作, 系統資源浪費和資料庫的訪問流量壓力巨大。
2、產品信息的比對效率低
使用資料庫查詢比對法,在查詢資料庫信息時,需要進行SQL(S加CturedQuery Language,結構化查詢語言)解析、IO anput/Output,輸入輸出)操作、網絡傳輸等一系列操作,因此,在需要查詢的產品信息量較大時,會嚴重影響產品信息的比對效率。發明內容
本申請實施例提供一種重複信息識別方法和設備,解決在現有技術中存在大量重複數據,影響產品信息的使用體驗的問題。
為達到上述目的,本申請實施例一方面提供了一種重複信息識別方法,包括
當伺服器接收到一個信息發布者所發送的信息發布請求時,所述伺服器根據所述信息發布請求所請求發布的信息生成特徵編碼;
所述伺服器在對應保存有信息發布者的標識信息和已發布信息的特徵編碼的內存中查找獲取與所述信息發布者的標識信息所對應的已發布的信息的特徵編碼;
所述伺服器判斷所述生成的特徵編碼與在內存中獲取的已發布的信息的特徵編碼是否存在重複;
如果所述伺服器的判斷結果為重複,所述伺服器拒絕發布所述信息發布請求所請求發布的信息。
另一方面,本申請實施例還提供了一種伺服器,包括
接收模塊,用於接收信息發布請求;
生成模塊,用於在所述接收模塊接收到一個信息發布者發送的信息發布請求時, 根據所述信息發布請求所請求發布的信息生成特徵編碼;
獲取模塊,用於在對應保存有信息發布者的標識信息和已發布信息的特徵編碼的內存中查找獲取與所述信息發布者的標識信息所對應的已發布的信息的特徵編碼;
判斷模塊,用於判斷所述生成模塊所生成的特徵編碼與所述獲取模塊在內存中獲取到的已發布的各信息的特徵編碼是否存在重複;
處理模塊,用於在所述判斷模塊的判斷結果為重複時,拒絕發布所述信息發布請求所請求發布的信息。
與現有技術相比,本申請實施例具有以下優點
通過應用本申請實施例的技術方案,將已發布的信息以特徵編碼的形式存儲於內存中,在接收到新的信息發布請求時,在內存中查詢相應的特徵編碼,通過比較是否存在重複的特徵編碼判斷該信息發布者所請求發布的信息是否與已發布信息相重複,從而,在保證信息查重準確率的情況下,減少通過資料庫進行信息重複查詢所帶來的資料庫訪問流量負擔,以及提高重複信息的查詢效率,縮簡訊息發布過程的查重時間。


圖1為本申請實施例提出的一種重複信息識別方法的流程示意圖2為本申請實施例所提出的一種重複信息識別方法的主體思路的流程示意圖3為本申請實施例所提出的一種重複信息識別方法的具體的應用場景的系統結構示意圖4為本申請實施例所提出的一種重複信息識別方法的具體的應用場景的系統6結構示意圖5為本申請實施例提出的一種伺服器的結構示意圖。
具體實施方式
如背景技術所述,現有技術中的通過資料庫進行重複信息查詢的方案存在流量負擔高,信息對比效率低的缺陷,如何降低因為重複信息查詢所帶來的流量負擔,提高重複信息的查詢效率,成為信息發布領域的一個重要課題。
基於此,本申請實施例提出了一種通過內存存儲已發布信息編碼進行信息查重的方法,重複信息比對解決方案,直接從內存獲取數據進行比對,不訪問資料庫,避免了由於信息查重所帶來的資料庫的訪問流量,並且不再需要資料庫相關的操作,大大提高了比對效率。
如圖1所示,為本申請實施例提出的一種重複信息識別方法的流程示意圖,該方法具體包括以下步驟
步驟S101、當伺服器接收到一個信息發布者所發送的信息發布請求時,伺服器根據信息發布請求所請求發布的信息生成特徵編碼。
具體的特徵編碼生成過程為
首先,伺服器獲取信息發布請求所請求發布的信息中所包含的特徵數據,在實際的應用場景中,該特徵數據的項目類型可以根據信息的類型進行預設,對於大量信息類型和信息結構相類似的待發布信息可以按照此方式進行。
例如,對於請求發布待銷售的產品信息的情況,預設的特徵數據的項目類型可以為產品名稱、產品分類、圖片特徵(例如產品圖片的相似性比對參數)、產品說明、產品價格和產品生產信息等,而對於另一種情況,例如請求進行新聞發布的場景,如果應用本申請實施例所提出的技術方案,則可以設置的特徵數據的項目可以包括新聞題目、新聞發生時間、 新聞關鍵詞、新聞摘要、新聞來源、新聞多媒體資料和新聞版權資訊等,通過這樣的項目類型的設置,可以標識出所請求發布的待銷售的產品信息或新聞的特徵,以便進行後續的重複信息的識別。
具體的,上述的示例僅是以待銷售的產品信息和新聞的請求發布過程中,對於能夠表明信息差異性的特徵數據的項目類型的設置方式進行舉例說明,在實際的應用場景中,可以根據實際的場景需要進行選擇,具體的項目類型的變化並不會影響本申請的保護範圍。
在完成了上述的特徵數據的項目類型的設置後,當伺服器接收到相應的信息發布的請求後,可以根據相應的項目類型設置獲取所請求發布的信息的特徵數據,並根據預設算法,將所獲取的特徵數據轉換為信息發布請求所請求發布的信息的特徵編碼。具體的算法可以是MD5算法,消息摘要算法以及其他能夠對相應的信息數據進行編碼轉換,以達到本申請實施例中相應的技術目的的算法規則,這樣的算法類型的變化並不會影響本申請的保護範圍。
這樣進行轉換處理的目的一方面在於經過編碼後的數據可以在後續的比對過程中提高比對效率,另一方面,則在於減少所獲取的特徵數據所佔用的存儲空間資源,尤其是對於已發布的信息,通過預設算法進行編碼處理後,特徵數據所佔用的空間大小將大幅縮小,從而,使得伺服器可以存儲更多的已發布信息的特徵數據,或存儲更多項目類型的特徵數據,從而,提高重複信息識別的準確性和全面性。
步驟S102、伺服器在對應保存有信息發布者的標識信息和已發布信息的特徵編碼的內存中查找獲取與所述信息發布者的標識信息所對應的已發布的信息的特徵編碼。
其中,已發布的各信息的特徵編碼即是先前已發布的各信息的特徵信息經過預設算法轉換處理後形成的編碼信息,這部分信息在經過編碼處理後所佔用的存儲空間資源已經很少,而且,被調用和更新的頻率又會比較高,所以,伺服器將這部分數據直接在內存中進行存儲,一方面方便調用和更新,另一方面,也避免了對資料庫中的數據進行頻繁調用所帶來的數據通信負擔。
同時,內存中以信息發布者的標識信息為鍵(key),以該信息發布者所發布的各信息的特徵編碼為鍵值(value),建立信息發布者的標識信息和已發布的各信息的特徵編碼的對應關係,以便根據信息發布者的標識信息,對已發布信息進行來源分類和重複比較。
需要指出的是,根據具體應用場景的差異,在內存中存儲已發布的信息的特徵編碼及其相對應的信息發布者的標識信息的方式也存在差別
情況一、在各信息發布者所發布的信息相互獨立的情況下,即不同的發布者發布的信息之間互不幹擾,允許不同的發布者發布重複的信息的情況下,例如,網絡商店,個人博客等應用場景。
本步驟所獲取的特徵編碼範圍應該是屬於同一個信息發布者所發布的信息的特徵編碼,即判斷信息發布請求的信息發布者先前是否已發布過相同的信息。
在此種情況下,為了能夠區分內存中已存儲的特徵編碼與信息發布請求是否由相同的信息發布者所發送,便需要根據內存中與已發布的信息的特徵編碼相對應存儲的信息發布者的標識信息,因此,本步驟的執行過程,具體為
伺服器確定信息發布請求的信息發布者的標識信息;
伺服器根據該標識信息,在內存中已存儲的信息的特徵編碼中,獲取該標識信息所對應的全部特徵編碼,即在內存中查詢該標識信息所對應的信息發布者已發布的信息。
即在此種情況下,內存中存儲已發布的信息的特徵編碼時,對應性的存儲了發布該信息的信息發布者的標識信息。
情況二、在各信息發布者所發布的信息共享的情況下,即不同的發布者發布的信息彼此共享,不允許不同的發布者發布重複的信息的情況下,例如,新聞網站,資源共享平臺等應用場景。
本步驟所獲取的特徵編碼範圍除了本信息發布者所發布的信息的特徵編碼外,還要包括其他信息發布者所發布的所有信息的特徵編碼,即判斷所有已發布的所有信息中是否存在與本次信息發布請求所請求發布的信息內容相同的信息。
在此種情況下,在內存中存儲已發布的信息的特徵編碼時,可以繼續對應存儲信息發布者的標識,但在此種情況下,這個標識可以只包含真正發布此信息的信息發布者,也可以進一步包含所有請求過發布該信息的信息發布者,即在記錄成功發布該信息的信息發布者的同時,還可以記錄所有請求發布該信息,但由於識別為重複信息而被拒絕了發布請求的信息發布者,從而,使其他再請求發布該相同或相似信息的信息發布者獲知自己與哪個或哪些信息發布者請求發布了相同或相似的信息。
在實際應用中,具體應用上述哪種信息發布者的標識信息的存儲方式可以根據需要進行選擇,具體選擇內容的變化並不會影響本申請的保護範圍。
步驟S103、伺服器判斷生成的特徵編碼與在內存中獲取的已發布的各信息的特徵編碼是否存在重複。
如果伺服器的判斷結果為存在重複,執行步驟S103 ;
如果伺服器的判斷結果為不存在重複,執行步驟S104。
在實際應用中,為了實現後續的比對識別過程,上述的步驟SlOl中伺服器生成的特徵編碼,以及步驟S102中所提及的內存中所存儲的特徵編碼,必須是根據相同的預設算法所生成的相同類型的編碼信息,例如MD5編碼信息以及其他類型的編碼信息。
步驟S104、伺服器拒絕發布所請求發布的信息。
在實際應用中,為了實現對特殊業務或高級客戶所請求業務的優先處理和特殊管理,本步驟的處理還包括
伺服器判斷信息發布者是否定製了相應的特殊發布業務;
如果是,伺服器發布該信息發布請求所請求發布的信息,如果不是,伺服器拒絕發布該信息發布請求所請求發布的信息。
通過這樣的處理,可以對開通了特殊業務的用戶,以及優先級或發布權限較高的高級用戶提供區別於一般情況的高級別服務,既這樣的特殊業務和高級用戶不再受到信息重複的發布限制,或所受到的發布限制較少,從而,改善這部分用戶的使用體驗,為其提供高級別的個性化服務。
在上述的處理過程中,具體的拒絕信息發布的方式為伺服器向信息發布請求的信息發布者返回發布拒絕指示,為了使該信息發布者更多的了解自己的信息發布請求的處理情況,在發布拒絕指示中,還可以進一步攜帶拒絕發布的原因信息。
進一步的,本申請實施例所提出的技術方案還包括
伺服器根據內存中所存儲的已發布信息的特徵編碼,生成包含多個標杆信息的樣本庫。
在此過程中,內存中所存儲的每一個已發布信息的特徵編碼都會生成相應的一個標杆信息存儲到該樣本庫中,同時,該樣本庫中的標杆信息除了存儲這些特徵編碼相對應的信息外,還記錄了該特徵編碼相關的其他信息,例如其所對應的已發布信息的更新時間,更新次數,被識別重複為發布請求的次數,當前狀態等信息,通過這樣的處理,可以更加準確的記錄信息發布請求的處理情況,以及為相應的後臺維護提供記錄依據。
進一步的,由於樣本庫中的信息相對於內存中所存儲的特徵編碼被調用的頻率和調用速度要求都要更低一些,所以,樣本庫無需在內存中進行存儲,而是可以存儲在伺服器的本地磁碟或者相應的資料庫中,具體存儲位置可以根據實際的需要進行選擇。
在完成上述的樣本庫的生成操作後,如果伺服器判斷內存中所存儲的已發布信息的特徵編碼與信息發布請求所請求發布的信息的特徵編碼相重複,伺服器將更新樣本庫中該特徵編碼所對應的標杆信息的操作時間及計數,並刪除修改前的編碼信息及其對應的標杆信息。
伺服器將該標杆信息的地址信息發送給該信息發布請求的信息發布者,以使該信息發布者能夠根據所接收到的地址信息查看該標杆信息,從而,確認已發布信息與信息發布請求的重複情況,通過這樣的處理,一方面可以使信息發布者獲知準確的信息重複發布情況,另一方面,地址信息的傳輸也不會給伺服器構成過大的傳輸負擔,不會影響伺服器的業務性能。
步驟S105、伺服器繼續對信息發布請求根據預設的驗證規則進行其他驗證。
如果其他驗證通過,執行步驟S106 ;
如果其他驗證沒有通過,則停止對該信息發布請求的後續驗證過程,並記錄該信息發布請求沒有通過的原因。
步驟S106、伺服器發布所請求發布的信息,並將信息所對應的特徵編碼存儲至內存。
需要說明的是,在存儲到內存中之後,如果特徵數據的重要性較高,伺服器還可以按照相應的備份策略對內存中的特徵編碼進行備份處理,以防止伺服器遇到突發情況而不能提供服務時內存中的特徵編碼信息的丟失,例如,在伺服器本地的磁碟中建立小型資料庫,按照預設的備份周期將內存中的特徵編碼進行備份,以便在遭遇突發情況時,恢復相應的特徵編碼信息到內存中。
其中,具體的備份策略可以根據實際需要進行變化,例如,除了上述的周期備份外,還可以包括定時備份,事件觸發備份等方式觸發相應的備份操作,而備份數據的存儲位置也不僅限於伺服器的本地磁碟,也可以是與該伺服器同處於一個伺服器集群的其他伺服器,或者資料庫所對應的存儲資源中。
需要指出的是,上述的備份操作是一種可選操作,因為其會帶來存儲資源的消耗, 也會產生一定量的傳輸負載,是否需要付出這樣的資源和負載消耗可以根據內存中的特徵數據的重要性進行確定,如果系統中沒有進行這樣的備份操作,而伺服器又遭遇了突發情況,那麼,伺服器恢復工作或備份伺服器代替伺服器開始工作後,可以在前述的樣本庫,或者資料庫中重新獲取特徵編碼到內存中。
在上述技術方案實現的過程中,伺服器還可以通過以下方式進行內存中的信息整理
方式一、如果已發布的信息被刪除,則伺服器刪除內存中所存儲的被刪除信息所對應的特徵編碼。
方式二、如果已發布的信息被修改,伺服器根據修改後的信息內容,返回步驟 S103,判斷修改後的信息內容所對應的特徵編碼與內存中存儲的同一個信息發布者已發布的各信息的特徵編碼是否存在重複,如果不重複,則修改內存中存儲的被修改信息所對應的特徵編碼,如果重複,則參照前述的處理步驟來實現相應的進一步處理。
方式三、如果內存中所存儲的特徵編碼達到了預設的清理觸發條件,伺服器按照預設的策略刪除內存中存儲的信息所對應的特徵編碼。
在實際的應用場景中,上述的預設的清理觸發條件具體可以包括
1、如果內存中所存儲的特徵編碼或樣本庫中的標杆信息的總數量達到了預設的數量閾值,則對內存中所存儲的特徵編碼進行清理,同時,相應的清理樣本庫中相對應的標杆信息。
2、如果內存中所存儲的特徵編碼或樣本庫中的標杆信息所佔用的存儲空間的大小達到了預設的空間閾值,則對內存中所存儲的特徵編碼進行清理,同時,相應的清理樣本10庫中相對應的標杆信息。
3、如果內存中所存儲的特徵編碼或樣本庫中的標杆信息所對應的操作時間距離當前時間的時間長度達到了預設的時間閾值,則對內存中所存儲的特徵編碼進行清理,同時,相應的清理樣本庫中相對應的標杆信息。
在具體的清理過程中,可以根據預先定製的策略進行清理,例如,按照所對應的操作時間(生成時間或更新時間)的順序,優先清理操作時間最早的特徵信息,同時,相應的清理樣本庫中相對應的標杆信息。
具體應用的策略內容可以根據實際需要進行調整,這樣的變化並不會影響本申請的保護範圍。
這樣的清理主要目的在於對內存空間資源的釋放,避免長期不用的特徵編碼信息對內存存儲空間的佔用,當然,這會導致一部分已發布的信息所對應的特徵編碼的缺失,從而影響這部分數據的重複識別,但是,考慮到上述的清理策略所針對的特徵編碼,都是在相應的場景下被再次使用的概率較低的特徵編碼,所以,清楚這部分特徵編碼所帶來的重複識別誤差將會很小,相反,如果要避免這部分誤差,必然需要存儲更多的特徵編碼,那麼,所能採取的措施只能是增加內存容量,在具體的應用場景中,通過權衡增大內存所帶來的成本投入與上述誤差對系統運行所帶來的影響,可以確定是否應用上述的清理策略,這樣的變化同樣屬於本申請的保護範圍。
與現有技術相比,本申請實施例具有以下優點
通過應用本申請實施例的技術方案,將已發布的信息以特徵編碼的形式存儲於內存中,在接收到新的信息發布請求時,在內存中查詢相應的特徵編碼,通過比較是否存在重複的特徵編碼判斷該信息發布者所請求發布的信息是否與已發布信息相重複,從而,在保證信息查重準確率的情況下,減少通過資料庫進行信息重複查詢所帶來的資料庫訪問流量負擔,以及提高重複信息的查詢效率,縮簡訊息發布過程的查重時間。
下面,結合具體的應用場景,對本申請實施例所提出的技術方案進行說明。
本申請實施例所提出的一種重複信息識別方法的主體思路的流程示意圖如圖2 所示,其關鍵點在於
信息發布者所應用的本地客戶端設備負責整理和抽取需要比對的數據(如確定待發布的信息),例如,根據信息發布者的操作以及所輸入的指令信息,獲取相應的待發布 fn息ο
進一步的,上述的客戶端設備根據分發策略選擇相應的的伺服器,進行信息發布請求的上報,伺服器負責按照相應的算法,對相應的數據完成特徵編碼的計算,並將計算得到的特徵編碼與當前內存中已存在的特徵編碼進行比對,根據比對結果為應用該客戶端設備的信息發布者提供相應的服務。
為了應對大量的業務交互需求,上述的伺服器一般可以通過多個伺服器所組成的伺服器集群來實現,在這樣的處理過程中,客戶端設備能實現異常恢復、錯誤重試等操作, 而伺服器集群中的各伺服器則能對相應的請求實現水平擴展以及負載均衡。
在實際的應用過程中,上述的比對活動由客戶端設備發起,客戶端設備在收集好需要比對的信息後,根據一定的時間區間(如最近的1分鐘內)伺服器集群中的各伺服器所處理的信息發布請求總量,選取處理數量最小的伺服器(從而實現負載均衡),向其請求進行比對服務,如果發生異常(如該服務提供者不能接收新的比對請求),則根據上述規則從剩餘的伺服器中重新選取伺服器進行請求,在極端情況下,如果伺服器集群中全部的伺服器都存在異常,無法完成比對服務,則客戶端設備直接為信息發布者返回預設結果(例如,當前所請求發布的信息與已發布信息不重複)。
具體的,在實際應用中,如圖3所示,為本申請實施例所提出的一種重複信息識別方法的具體的應用場景的系統結構示意圖。
其中,信息發布者通過客戶端設備接入網絡,提交信息發布請求,客戶端設備根據相應的分發策略向伺服器集群中的相應伺服器提交比對請求,由相應的伺服器將待發布信息與內存中存儲的已發布信息進行比對操作,並根據相應的比對結果進行後續操作。
在實際的應用中,為了更好的進行集中調度和管理,在客戶端設備和伺服器集群之間,還可以進一步設置集中式處理伺服器,集中接收客戶端上報的比對請求,並根據伺服器集群中的各伺服器當前的請求處理情況進行相應的請求分發,交給伺服器集群中相應的伺服器進行處理操作,這樣的集中式管理可以有效的提高處理效率,避免客戶端設備直接與伺服器集群中的多臺伺服器通信所帶來的網絡流量的提高。
並且,如果訪問伺服器集群對於客戶端設備來講是遠程調用的話,集中式管理可以有效的節約網絡資源,其中,遠程調用可以使用RMI (RemoteMethod Invocation,遠程方法調用)技術。
另外,如果集中式處理伺服器對於伺服器集群中的一臺或多臺伺服器的狀態查詢或配置信息獲取失敗,則集中式處理伺服器可以沿用前次配置信息,避免硬體故障或通訊延遲對於系統穩定性的影響。
需要進一步指出的是,在上述的技術方案中,還需要通過對伺服器集群中的各伺服器同步操作,保持伺服器集群中的各臺伺服器中的樣本庫信息的一致性,從而保證比對結果的準確。
在具體的實施場景中,對於上述的本申請實施例所提出的技術方案,以下問題需要特別說明
1、比對服務採用分布式計算
通過伺服器集群中的多臺伺服器同時提供比對服務,客戶端設備或伺服器可以根據伺服器集群中各臺伺服器的狀態文件中的信息來分發信息發布請求,實現負載分擔。
通過這樣的處理,海量數據的比對服務可伸縮性強,只要動態增加伺服器就可以實現更大的吞吐量。
2、樣本數據結構的創新
樣本數據(即前述的特徵編碼)以雙向Map形式放在內存中,例如,對於待銷售的產品信息,可以分別以公司ID或信息發布者標識信息和公司對應的產品相關信息的MD5值為key和value放在雙向Map的數據結構裡。
(1)在實際應用中,因為內存中存儲的只是已發布信息的MD5值或其他編碼信息, 多以,其在內存中所佔用的存儲資源非常少,並且,可預知每個對象的內存佔用情況。
(2)對於待銷售的產品信息,將公司ID或信息發布者標識信息和產品相關信息的 MD5值或其他編碼信息存放在雙向Map數據結構中,樣本數據實現了水平拆分。可以快速定位到相同公司或相同的信息發布者的相關數據,通過檢索樣本數據的關鍵值是否存在與所請求發布信息的特徵編碼值相同的MD5值或其他編碼信息來判斷信息是否重複,從而,實現信息識別過程的高性能和高準確性。相比直接進行信息比對,通過特徵編碼進行比對的方式顯然具有更高的處理效率。
3、比對伺服器集群間的數據同步
伺服器集群中的各伺服器間的同步採用主動推送方式,即當其中一臺伺服器的內存中所存儲的樣本信息發生改變時,便直接通知伺服器集群內的其它伺服器進行相應的更新,從而,避免了伺服器集群的同步操作所需要的額外的系統開銷,而與不同的伺服器之間的數據同步工作採用異步實現,大大提高了伺服器的響應能力,增強了伺服器集群配置的靈活性。
4、伺服器集群的擴展
當伺服器的內存資源不夠用時,除了直接增加伺服器自身內存資源外,還可通過增加伺服器集群中的伺服器數量來達到擴展內存容量的目的,可以有效的提高系統的擴展性。
5、伺服器集群的可靠性
當伺服器集群中某臺伺服器出現故障,使內存數據丟失時,可通過兩種方式恢復數據
(1)通過集群其它伺服器的數據同步恢復,這種方式恢復速度較快,但需要預先配置好伺服器集群中的各伺服器之間的同步策略,並且,在平時便需要及時在各伺服器之間進行數據備份。
(2)通過資料庫持久化的比對庫數據恢復,這種方式主要是將伺服器內存中的數據進行持久化,存儲於其他設備中,恢復速度較慢,且存在數據延遲情況,但操作方便。
當然,還可以直接在已發布信息中進行重新獲取,但這樣操作的負載成本會很高。
在上述的各策略中,伺服器集群的各伺服器之間的同步策略可根據不同應用場景進行配置,在實際的應用場景中,對於同步策略的配置,可以在內存使用率和系統容災性之間進行權衡,內存使用率越高,容災性越低;容災性越高,內存使用率越低。
與現有技術相比,本申請實施例具有以下優點
通過應用本申請實施例的技術方案,將已發布的信息以特徵編碼的形式存儲於內存中,在接收到新的信息發布請求時,在內存中查詢與相應的特徵編碼,通過比較是否存在重複的特徵編碼判斷該信息發布者所請求發布的信息是否與已發布信息相重複,從而,在保證信息查重準確率的情況下,減少通過資料庫進行信息重複查詢所帶來的資料庫訪問流量負擔,以及提高重複信息的查詢效率,縮簡訊息發布過程的查重時間。
為了實現本申請實施例的技術方案,本申請實施例還提供了一種伺服器,其結構示意圖如圖5所示,具體包括
接收模塊51,用於接收信息發布請求;
生成模塊52,用於在接收模塊51接收到一個信息發布者發送的信息發布請求時, 根據信息發布請求所請求發布的信息生成特徵編碼;
獲取模塊53,用於在對應保存有信息發布者的標識信息和已發布信息的特徵編碼的內存中查找獲取與所述信息發布者的標識信息所對應的已發布的信息的特徵編碼;
判斷模塊M,用於判斷生成模塊52所生成的特徵編碼與獲取模塊53在內存中獲取到的已發布的各信息的特徵編碼是否存在重複;
處理模塊55,用於在判斷模塊M的判斷結果為重複時,拒絕發布信息發布請求所請求發布的信息。
其中,生成模塊52,具體用於
獲取接收模塊51所接收的信息發布請求所請求發布的信息中所包含的特徵數據,並根據預設算法,將特徵數據轉換為該信息發布請求所請求發布的信息的特徵編碼。
在具體的應用場景中,對應前述的步驟S102中所提及的情況一,如果需要判斷重複的信息範圍是相同信息發布者所發布的信息,那麼,獲取模塊53,具體用於
確定接收模塊51所接收的信息發布請求的信息發布者所對應的標識信息,根據標識信息,在內存中已存儲的信息的特徵編碼中,獲取標識信息所對應的全部特徵編碼,之後,判斷模塊M將獲取模塊53獲取到的特徵編碼與生成模塊52所生成的特徵編碼進行比較,判斷是否存在重複。
另一方面,對應前述的步驟S102中所提及的情況二,如果需要判斷重複的信息範圍是所有已發布信息,那麼,獲取模塊53具體用於
在內存中獲取所述信息發布請求的信息發布者的標識信息所對應的已發布的各信息的特徵編碼後,進一步獲取其他已發布的各信息的特徵編碼。
進一步的,處理模塊55,還用於
在判斷模塊M的判斷結果為不重複時,繼續對信息發布請求根據預設的驗證規則進行其他驗證,如果其他驗證通過,則發布信息發布請求所請求發布的信息,並將信息所對應的特徵編碼存儲至內存;如果其他驗證沒有通過,則停止對該信息發布請求的後續驗證過程,並記錄該信息發布請求沒有通過的原因。
不僅如此,處理模塊55,還用於
在判斷模塊M的判斷結果為重複時,判斷信息發布者是否定製了相應的特殊發布業務,如果是,發布信息發布請求所請求發布的信息,如果不是,拒絕發布信息發布請求所請求發布的信息。
當處理模塊55確定拒絕發布信息發布請求所請求發布的信息時,處理模塊55,具體用於向信息發布者返回發布拒絕指示,並攜帶拒絕發布的原因信息。
在具體的應用場景中,生成模塊52,還用於根據內存中所存儲的已發布信息的特徵編碼,生成包含多個標杆信息的樣本庫;
相應的,處理模塊55,還用於在判斷模塊M的判斷結果為重複時,更新生成模塊 52所生成的樣本庫中所述特徵編碼所對應的標杆信息的操作時間及計數,並將生成模塊 52所生成的標杆信息的地址信息發送給信息發布者,以使信息發布者根據地址信息查看標杆信息。
在實際的應用場景中,處理模塊55,還用於
在已發布的信息被刪除時,刪除內存中存儲的被刪除信息所對應的特徵編碼;和 /或,
在已發布的信息被修改時,根據修改後的信息內容,判斷修改後的信息內容所對應的特徵編碼與內存中存儲的已發布的各信息的特徵編碼是否存在重複,如果不重複,則修改內存中存儲的被修改信息所對應的特徵編碼,如果重複,則更新重複的特徵編碼所對應的相關信息,並刪除修改前的編碼信息;和/或,
在已發布的信息達到了預設的清理觸發條件時,按照預設的策略刪除內存中存儲的信息所對應的特徵編碼。
相應的預設策略的內容參照前述說明,在此不再重複敘述。
與現有技術相比,本申請實施例具有以下優點
通過應用本申請實施例的技術方案,將已發布的信息以特徵編碼的形式存儲於內存中,在接收到新的信息發布請求時,在內存中查詢相應的特徵編碼,通過比較是否存在重複的特徵編碼判斷該信息發布者所請求發布的信息是否與已發布信息相重複,從而,在保證信息查重準確率的情況下,減少通過資料庫進行信息重複查詢所帶來的資料庫訪問流量負擔,以及提高重複信息的查詢效率,縮簡訊息發布過程的查重時間。
通過以上的實施方式的描述,本領域的技術人員可以清楚地了解到本申請實施例可以通過硬體實現,也可以藉助軟體加必要的通用硬體平臺的方式來實現。基於這樣的理解,本申請實施例的技術方案可以以軟體產品的形式體現出來,該軟體產品可以存儲在一個非易失性存儲介質(可以是⑶-ROM,U盤,移動硬碟等)中,包括若干指令用以使得一臺計算機設備(可以是個人計算機,伺服器,或網絡設備等)執行本申請實施例各個實施場景所述的方法。
本領域技術人員可以理解附圖只是一個優選實施場景的示意圖,附圖中的模塊或流程並不一定是實施本申請實施例所必須的。
本領域技術人員可以理解實施場景中的裝置中的模塊可以按照實施場景描述進行分布於實施場景的裝置中,也可以進行相應變化位於不同於本實施場景的一個或多個裝置中。上述實施場景的模塊可以合併為一個模塊,也可以進一步拆分成多個子模塊。
上述本申請實施例序號僅僅為了描述,不代表實施場景的優劣。
以上公開的僅為本申請實施例的幾個具體實施場景,但是,本申請實施例並非局限於此,任何本領域的技術人員能思之的變化都應落入本申請實施例的業務限制範圍。
權利要求
1.一種重複信息識別方法,其特徵在於,包括當伺服器接收到一個信息發布者所發送的信息發布請求時,所述伺服器根據所述信息發布請求所請求發布的信息生成特徵編碼;所述伺服器在對應保存有信息發布者的標識信息和已發布信息的特徵編碼的內存中查找獲取與所述信息發布者的標識信息所對應的已發布的信息的特徵編碼;所述伺服器判斷所述生成的特徵編碼與在內存中獲取的已發布的信息的特徵編碼是否存在重複;如果所述伺服器的判斷結果為重複,所述伺服器拒絕發布所述信息發布請求所請求發布的信息。
2.如權利要求1所述的方法,其特徵在於,所述伺服器根據所述信息發布請求所請求發布的信息生成特徵編碼,具體為所述伺服器獲取所述信息發布請求所請求發布的信息中所包含的特徵數據;所述伺服器根據預設算法,將獲取的所述特徵數據轉換為所述信息發布請求所請求發布的信息的特徵編碼。
3.如權利要求1或2所述的方法,其特徵在於,當所述所請求發布的信息具體為產品類信息時,所述特徵數據,至少包括以下信息的一種或多種產品名稱、產品分類、圖片特徵、產品說明、產品價格和產品生產信息。
4.如權利要求1或2所述的方法,其特徵在於,當所述所請求發布的信息具體為新聞類信息時,所述特徵數據,至少包括以下信息的一種或多種新聞題目、新聞發生時間、新聞關鍵詞、新聞摘要、新聞來源、新聞多媒體資料和新聞版權資訊。
5.如權利要求1或2所述的方法,其特徵在於,所述伺服器生成的特徵編碼,以及所述內存中存儲的特徵編碼,具體為根據相同的預設算法生成的相同類型的編碼信息。
6.如權利要求1所述的方法,其特徵在於,所述伺服器在對應保存有信息發布者的標識信息和已發布信息的特徵編碼的內存中查找獲取與所述信息發布者的標識信息所對應的已發布的信息的特徵編碼,具體包括所述伺服器確定所述信息發布請求的信息發布者所對應的標識信息;所述伺服器根據所述標識信息,在所述內存中已存儲的信息的特徵編碼中,獲取與所述標識信息所對應的特徵編碼。
7.如權利要求1所述的方法,其特徵在於,所述伺服器判斷所述生成的特徵編碼與在內存中獲取的已發布的各信息的特徵編碼是否存在重複之後,還包括所述伺服器判斷所述特徵編碼與內存中存儲的所有已發布的各信息的特徵編碼是否存在重複。
8.如權利要求1或7所述的方法,其特徵在於,所述伺服器判斷所述特徵編碼與內存中存儲的已發布的各信息的特徵編碼是否存在重複之後,還包括如果所述伺服器的判斷結果為不重複,所述伺服器繼續對所述信息發布請求根據預設的驗證規則進行其他驗證;如果其他驗證通過,所述伺服器發布所述信息發布請求所請求發布的信息,並將所述信息所對應的特徵編碼存儲至所述內存;如果其他驗證沒有通過,則停止對所述信息發布請求的後續驗證過程,並記錄所述信息發布請求沒有通過的原因。
9.如權利要求1所述的方法,其特徵在於,如果所述伺服器的判斷結果為重複,還包括所述伺服器判斷所述信息發布者是否定製了相應的特殊發布業務;如果是,所述伺服器發布所述信息發布請求所請求發布的信息,如果不是,所述伺服器拒絕發布所述信息發布請求所請求發布的信息。
10.如權利要求1或9所述的方法,其特徵在於,所述伺服器拒絕發布所述信息發布請求所請求發布的信息,具體包括所述伺服器向所述信息發布者返回發布拒絕指示,並攜帶拒絕發布的原因信息。
11.如權利要求10所述的方法,其特徵在於,還包括所述伺服器根據內存中所存儲的已發布信息的特徵編碼,生成包含多個標杆信息的樣本庫;當所述伺服器判斷內存中所存儲的已發布信息的特徵編碼與信息發布請求所請求發布的信息的特徵編碼相重複時,所述伺服器更新樣本庫中所述特徵編碼所對應的標杆信息的操作時間及計數;所述伺服器將所述標杆信息的地址信息發送給所述信息發布者,以使所述信息發布者根據所述地址信息查看所述標杆信息。
12.如權利要求1所述的方法,其特徵在於,還包括如果已發布的信息被刪除,所述伺服器刪除所述內存中存儲的被刪除信息所對應的特徵編碼;和/或,如果已發布的信息被修改,所述伺服器根據修改後的信息內容,判斷修改後的信息內容所對應的特徵編碼與內存中存儲的已發布的各信息的特徵編碼是否存在重複,如果不重複,則修改內存中存儲的被修改信息所對應的特徵編碼,如果重複,則更新重複的特徵編碼所對應的相關信息,並刪除修改前的編碼信息;和/或,如果內存中所存儲的特徵編碼達到了預設的清理觸發條件,所述伺服器按照預設的策略刪除所述內存中存儲的特徵編碼。
13.一種伺服器,其特徵在於,包括接收模塊,用於接收信息發布請求;生成模塊,用於在所述接收模塊接收到一個信息發布者發送的信息發布請求時,根據所述信息發布請求所請求發布的信息生成特徵編碼;獲取模塊,用於在對應保存有信息發布者的標識信息和已發布信息的特徵編碼的內存中查找獲取與所述信息發布者的標識信息所對應的已發布的信息的特徵編碼;判斷模塊,用於判斷所述生成模塊所生成的特徵編碼與所述獲取模塊在內存中獲取到的已發布的各信息的特徵編碼是否存在重複;處理模塊,用於在所述判斷模塊的判斷結果為重複時,拒絕發布所述信息發布請求所請求發布的信息。
14.如權利要求13所述的伺服器,其特徵在於,所述生成模塊,具體用於獲取所述接收模塊所接收的信息發布請求所請求發布的信息中所包含的特徵數據,並根據預設算法,將所述特徵數據轉換為所述信息發布請求所請求發布的信息的特徵編碼。
15.如權利要求13所述的伺服器,其特徵在於,所述獲取模塊,具體用於確定所述接收模塊所接收的信息發布請求的信息發布者所對應的標識信息,根據所述標識信息,在所述內存中已存儲的信息的特徵編碼中,獲取與所述標識信息所對應的特徵編碼。
16.如權利要求13所述的伺服器,其特徵在於,所述獲取模塊,具體用於在內存中獲取所述信息發布請求的信息發布者的標識信息所對應的已發布的各信息的特徵編碼後,獲取其他已發布的各信息的特徵編碼。
17.如權利要求13或16所述的伺服器,其特徵在於,所述處理模塊,還用於在所述判斷模塊的判斷結果為不重複時,繼續對所述信息發布請求根據預設的驗證規則進行其他驗證,如果其他驗證通過,則發布所述信息發布請求所請求發布的信息,並將所述信息所對應的特徵編碼存儲至所述內存;如果其他驗證沒有通過,則停止對所述信息發布請求的後續驗證過程,並記錄所述信息發布請求沒有通過的原因。
18.如權利要求13所述的伺服器,其特徵在於,所述處理模塊,還用於在所述判斷模塊的判斷結果為重複時,判斷所述信息發布者是否定製了相應的特殊發布業務,如果是,發布所述信息發布請求所請求發布的信息,如果不是,拒絕發布所述信息發布請求所請求發布的信息。
19.如權利要求13或18所述的伺服器,其特徵在於,當所述處理模塊確定拒絕發布所述信息發布請求所請求發布的信息時,所述處理模塊,具體用於向所述信息發布者返回發布拒絕指示,並攜帶拒絕發布的原因信息。
20.如權利要求19所述的伺服器,其特徵在於,所述生成模塊,還用於根據內存中所存儲的已發布信息的特徵編碼,生成包含多個標杆信息的樣本庫;所述處理模塊,還用於在所述判斷模塊的判斷結果為重複時,更新所述生成模塊所生成的樣本庫中所述特徵編碼所對應的標杆信息的操作時間及計數,並將所述生成模塊所生成的標杆信息的地址信息發送給所述信息發布者,以使所述信息發布者根據所述地址信息查看所述標杆信息。
21.如權利要求13所述的伺服器,其特徵在於,所述處理模塊,還用於在已發布的信息被刪除時,刪除所述內存中存儲的被刪除信息所對應的特徵編碼;和/或,在已發布的信息被修改時,根據修改後的信息內容,判斷修改後的信息內容所對應的特徵編碼與內存中存儲的已發布的各信息的特徵編碼是否存在重複,如果不重複,則修改內存中存儲的被修改信息所對應的特徵編碼,如果重複,則更新重複的特徵編碼所對應的相關信息,並刪除修改前的編碼信息;和/或,在已發布的信息達到了預設的清理觸發條件時,按照預設的策略刪除所述內存中存儲的所述信息所對應的特徵編碼。
全文摘要
本申請實施例公開了一種重複信息識別方法和設備,通過應用本申請實施例的技術方案,將已發布的信息以特徵編碼的形式存儲於內存中,在接收到新的信息發布請求時,在內存中查詢相應的特徵編碼,通過比較是否存在重複的特徵編碼判斷該信息發布者所請求發布的信息是否與已發布信息相重複,從而,在保證信息查重準確率的情況下,減少通過資料庫進行信息重複查詢所帶來的資料庫訪問流量負擔,以及提高重複信息的查詢效率,縮簡訊息發布過程的查重時間。
文檔編號G06F17/30GK102541918SQ20101061274
公開日2012年7月4日 申請日期2010年12月30日 優先權日2010年12月30日
發明者初永光, 李樂, 林朝森, 胡懷文, 蘇磊, 陳斌, 韓靈葉 申請人:阿里巴巴集團控股有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀