電子商務搜尋引擎糾錯擴展方法
2023-05-29 23:23:06
電子商務搜尋引擎糾錯擴展方法
【專利摘要】本發明提供了一種電子商務搜尋引擎糾錯擴展方法,(1)在初始化部分,準備各種映射表,其中包括正確詞表和擴展詞表,加載解析所有的映射表文件,構建相關的數據結構和字典;(2)接收輸入,對輸入做預處理,其中包括簡繁體轉換、移除空白;(3)預處理完成之後直接查詢擴展詞表,如果擴展詞表中有相關擴展詞則直接返回結果;(4)如果擴展詞表未查到相關擴展詞,則對輸入進行切分,分別進行英文糾錯和中文糾錯,糾錯完成之後,對糾錯結果再次查詢擴展詞表,將結果輸出。本發明的優點是:對電子商務搜尋引擎進行優化,能夠對用戶的輸入進行糾錯擴展處理,改善用戶的體驗,提高商品的召回率。
【專利說明】電子商務搜尋引擎糾錯擴展方法
【技術領域】
[0001]本發明涉及電子商務搜尋引擎的優化,具體是一種電子商務搜尋引擎糾錯擴展方法。
【背景技術】
[0002]搜尋引擎系統由下載系統、分析系統、索引系統、檢索系統組成。
[0003]下載系統:對於百度等全網搜尋引擎來說,主要是從各大網際網路站爬取網頁。而對於電子商務網站來說,不需要下載系統,所需檢索的頁面都是本地存儲好的商品說明頁面。
[0004]分析系統:對網頁內容進行預處理(繁體轉簡體、大寫轉小寫、全形轉半角)、分詞、詞幹提取、停詞移除等等。
[0005]索引系統:對應於索引端,調用分詞服務,將每個商品的warename (商品名稱)切成詞項term,對每個詞項term建立倒排列表(或稱倒排記錄)。在這裡,你可以將每個商品的warename看做一個文檔。
[0006]檢索系統:對應於查詢端,調用分詞服務,將用戶搜索詞切成詞項term,逐個拉取每個詞項term的倒排列表,求交集,返回結果。
[0007]用戶在電子商務搜尋引擎中輸入搜索詞時,往往會產生錯誤,包括拼音輸入的錯誤,中文輸入法會產生同音異形字等。但是對於錯誤的搜索詞時無法返回用戶需要的商品名稱。所以對於一個搜尋引擎來說,能夠對用戶的輸入詞糾錯,往往能夠大大提高商品的召回率,也就是提高商品能夠被檢索到的概率。
【發明內容】
[0008]本發明的目的是解決用戶的錯誤或者不合理的輸入問題,提供一種電子商務搜尋引擎糾錯擴展方法,對用戶的輸入進行查詢糾錯擴展提供一種快速解決的方案,其使用方便、易於操作、效率高。
[0009]按照本發明提供的技術方案,所述的電子商務搜尋引擎糾錯擴展方法為:
(1)在初始化部分,準備各種映射表,其中包括正確詞表和擴展詞表,加載解析所有的映射表文件,構建相關的數據結構和字典;
(2)接收輸入,對輸入做預處理,其中包括簡繁體轉換、移除空白;
(3)預處理完成之後直接查詢擴展詞表,如果擴展詞表中有相關擴展詞則直接返回結
果;
(4)如果擴展詞表未查到相關擴展詞,則對輸入進行切分,分別進行英文糾錯和中文糾錯,糾錯完成之後,對糾錯結果再次查詢擴展詞表,將結果輸出。
[0010]對於擴展詞表的生成,對用戶的查詢日誌分析選取高頻且被點擊的搜索詞加入擴展詞表。所述擴展詞表中利用詞之間含義的連續性,建立相關搜索詞。
[0011]所述中文糾錯是基於拼音糾錯對用戶的中文輸入進行糾錯。
[0012]所述英文糾錯是對用戶輸入的英文或者拼音進行糾錯。[0013]本發明的優點是:對電子商務搜尋引擎進行優化,能夠對用戶的輸入進行糾錯擴展處理,改善用戶的體驗,提高商品的召回率。
【專利附圖】
【附圖說明】
[0014]圖1本發明所處的處理環節示意圖。
[0015]圖2是本發明系統模塊圖。
[0016]圖3是本發明的處理流程圖。
【具體實施方式】
[0017]下面結合附圖和實施例對本發明作進一步說明。
[0018]本發明所處的環節如圖1所示,屬於輸入查詢和提交查詢的中間環節,在提交給索引系統之前對用戶的輸入進行分析處理。在用戶輸入查詢詞的時候,假如用戶的輸入有錯誤,將無法返回相關商品,此時需要對用戶的輸入進行糾錯,提供最接近用戶意圖的商品。同時需要對用戶的查詢詞進行擴展,做相關搜索的推薦,幫助用戶快速的找到自己需要的商品。也就是對於用戶的各種未知輸入,我們不能立即交給查詢系統進行處理,首先我們需要對用戶雜亂無章的各種輸入做預處理,這樣才能更好的檢索。
[0019]對於擴展詞表的生成,不僅僅是對用戶的查詢日誌分析選取高頻的搜索詞,同時會根據查詢後用戶是否點擊,來判斷詞擴展詞是好詞還是壞詞。好詞就是可以作為擴展詞,而壞詞不能作為擴展詞。如果某個搜索詞的搜索頻率很高,但是沒有用戶點擊,所以仍然不能當作好詞,不能加入擴展詞表。
[0020]擴展詞表中使用了相關搜索的特性,利用詞之間的連續性,詞與詞之間共現,建立相關搜索詞。比如說搜索的輸入框中搜李斯德林其實是想搜索李施德林,但是用戶也可能需要搜索其他品牌的漱口水,所以詞之間具有連續性,所以漱口水就是李斯德林的相關搜索詞,同時買漱口水的情況下說明用戶比較注重個人清潔衛生和牙齒保健,所以推薦牙膏。同理還有其他的相關搜索詞比如:歐萊雅洗髮水。李斯德林的相關搜索詞是:李施德林、漱口水、牙膏、妮維雅、歐萊雅、洗髮水。
[0021]本發明採用的技術方法是:(I)採用先建立正確詞詞典和擴展詞表。在初始化的時候加載這些詞表,完成整個系統的初始化工作;(2)判斷用戶的各種輸入,決定是否需要採用查詢擴展、中文糾錯、英文糾錯等;(3)對用戶的輸入進行糾錯或者擴展,或者直接提交查詢而無需擴展和糾錯。
[0022]將系統分為四個部分,如圖2所示:第一部分為初始化和預處理部分,準備各種詞表,其中包括正確詞典和擴展詞典,加載解析所有的詞表文件,構建相關的數據結構和字典。對於正確詞典,採用了語音算法,利用英文字的讀音計算近似值。第二部分基於拼音轉換技術的拼音智能糾錯對用戶的中文輸入進行糾錯。第三部分為英文糾錯,對用戶輸入的英文或者拼音進行糾錯。第四部分為基於映射詞典的擴展部分。對用戶輸入進行擴展查詢。
[0023]首先根據相應的規則和標準,生成各種需要的映射表,包括擴展詞表、正確詞表等。系統運行過程中先加載這些映射表然後再做處理。對於用戶的輸入,首先進行簡單的預處理,其中包括簡繁體轉換移除空白等操作。然後查詢擴展詞表,如果擴展詞表中有相關的擴展詞條,則直接返回結果。如果沒有則對輸入進行切分,分別進行英文糾錯和中文糾錯。糾錯完成之後,對糾錯結果再次查詢擴展詞表,將結果輸出。具體流程如圖3所示。
[0024]本發明對用戶的輸入詞糾錯,往往能夠大大提高商品的召回率,也就是提高商品能夠被檢索到的概率。同時能夠改善用戶的搜索體驗。此外,在用戶的輸入查詢詞後可以對用戶的輸入進行查詢擴展,避免因為輸入詞本身的問題導致無法返回相關的頁面,同時起到推薦相關商品的目的。
[0025]綜上,本發明能夠對用戶的輸入進行糾錯擴展處理,結合界面人性化的設計,操作容易易懂,模塊化編程,可擴充性好,以後可以添加進一步的功能。
【權利要求】
1.電子商務搜尋引擎糾錯擴展方法,其特徵是: (1)在初始化部分,準備各種映射表,其中包括正確詞表和擴展詞表,加載解析所有的映射表文件,構建相關的數據結構和字典; (2)接收輸入,對輸入做預處理,其中包括簡繁體轉換、移除空白; (3)預處理完成之後直接查詢擴展詞表,如果擴展詞表中有相關擴展詞則直接返回結果; (4)如果擴展詞表未查到相關擴展詞,則對輸入進行切分,分別進行英文糾錯和中文糾錯,糾錯完成之後,對糾錯結果再次查詢擴展詞表,將結果輸出。
2.如權利要求1所述電子商務搜尋引擎糾錯擴展方法,其特徵是,對用戶的查詢日誌分析選取高頻且被點擊的搜索詞加入所述擴展詞表。
3.如權利要求1所述電子商務搜尋引擎糾錯擴展方法,其特徵是,所述擴展詞表中利用詞之間含義的連續性,建立相關搜索詞。
4.如權利要求1所述電子商務搜尋引擎糾錯擴展方法,其特徵是,所述中文糾錯是基於拼音糾錯對用戶的中文輸入進行糾錯。
5.如權利要求1所述電子商務搜尋引擎糾錯擴展方法,其特徵是,所述英文糾錯是對用戶輸入的英文或者拼音進行糾錯。
【文檔編號】G06F17/30GK103886094SQ201410133036
【公開日】2014年6月25日 申請日期:2014年4月3日 優先權日:2014年4月3日
【發明者】唐亮 申請人:江蘇物聯網研究發展中心