新四季網

用於確認搜索場景的數據處理方法、搜索方法及相應裝置與流程

2023-10-04 02:39:49


本發明實施例涉及數據處理以及搜索領域,更為具體而言,涉及一種用於確認搜索場景的數據處理方法、搜索方法及相應裝置。
背景技術:
:o2o電商平臺近年來在網際網路領域迅速發崛起,其中以餐飲配送為主的外賣領域發展最為迅速。用戶通過在應用軟體上搜索選擇美食來完成消費,這一過程中必然涉及的一個核心功能就是搜索。不同於百度、google等傳統的通用文本搜尋引擎,餐飲電商的搜尋引擎需要通過特定的搜索場景和專業化的數據源展開搜索任務。例如,搜索「油條」,則對應的特定場景應該為早餐以及北方等。簡單來說,搜索場景就是在挖掘用戶搜索行為背後的信息,例如搜索「小龍蝦」,對應的搜索場景就是「夏季、宵夜、多人聚會、海鮮」等一些信息,通過這些場景數據的「聯想」,可以更精準地產出用戶期待的結果。目前,基於餐飲領域知識的搜索場景識別技術在國內還處於摸索階段。在工業界,由於餐飲領域垂搜起步晚且發展迅速,搜索場景識別的技術升級未能跟上需求的提升;而學界由於難以獲得大規模高價值搜索數據,該領域研究進展也基本停滯。然而巨大的市場需求給餐飲領域搜索帶來巨大壓力。因此,精準且專業化的識別搜索場景就成了這一領域搜尋引擎技術的核心優化方向。在一種現有技術中,餐飲領域垂直電商搜索的場景識別主要採用人工標記的方式完成。這種方式具有人力成本高、標記標準主觀性強無法客觀統一等缺陷。即使現有技術支持自動化方式,也難以保證搜索場景的精準且專業化的識別。技術實現要素:為了解決現有技術所存在的缺陷,本發明實施例提供一種用於確認搜索場景的數據處理方法、搜索方法及相應裝置,能夠自動化、精準化地實現搜索場景的映射,改善搜索場景的識別準確度,提高搜索結果的精準度。第一方面,本發明實施方式中提供了一種用於確認搜索場景的數據處理方法,包括:建立第一數據集與第二數據集之間的初始數據映射,所述第一數據集包含多項第一數據,所述第二數據集包含多項第二數據;根據監督數據集調整所述初始數據映射,得到所述第一數據集與所述第二數據集之間的實際數據映射;基於所述第二數據集中的第二數據實際映射到的所述第一數據集中的第一數據,確定所述第二數據集中的第二數據對應的搜索場景。在本發明實施方式的一種實現方式中,所述第一數據集為餐飲領域的場景特徵庫,所述第二數據集包括菜品數據和商戶數據。在本發明實施方式的一種實現方式中,所述方法還包括:按照時間維度和地理維度處理第一數據源,得到所述第一數據集。或者,所述方法還包括:對監督數據源進行切詞分析、詞頻分析、詞幹提取以及語義分析,得到所述監督數據集。在本發明實施方式的一種實現方式中,所述監督數據集中的監督數據除了包括短語名稱,還包括權重和/或懲罰因子。進一步地,所述根據監督數據集調整所述初始數據映射,包括:採用文本匹配處理確定相互匹配的監督數據和第一數據;針對各項第二數據,基於與第二數據初始映射到的第一數據匹配的監督數據的權重,修改第二數據與其初始映射到的第一數據之間的映射關係,和/或,針對各項第二數據,基於與第二數據初始映射到的第一數據匹配的監督數據的懲罰因子,調整第二數據初始映射到的第一數據的權重。在本發明實施方式的一種實現方式中,所述基於所述第二數據集中的第二數據實際映射到的所述第一數據集中的第一數據,確定所述第二數據集中的第二數據對應的搜索場景,包括:針對各項第二數據,從實際映射至第二數據的第一數據中選取至少部分第一數據或所述至少部分第一數據的組合作為所述搜索場景。第二方面,本發明實施方式中提供了一種搜索場景識別方法,該方法包括:對搜索項進行切詞,得到搜索詞;通過匹配處理確定第二數據集中與所述搜索詞匹配的匹配數據;根據所述匹配數據所映射的搜索場景,確定所述搜索項對應的搜索場景;其中,所述第二數據集所映射的搜索場景採用前述數據處理方法確定。第三方面,本發明實施方式還提供一種搜索方法,包括:根據搜索項和第二數據集及所述第二數據集所映射的搜索場景,確定所述搜索項對應的搜索場景,其中,所述第二數據集所映射的所述場景採用前述數據映射方法確定(該步驟的輸出結果是識別搜索場景,其具體可以通過上述第二方面實現);加載與所述搜索場景對應的數據文件,所述數據文件配置有召回數據的優化策略;根據所述數據文件對召回數據進行優化排序。第四方面,本發明實施方式中提供一種用於確認搜索場景的數據處理裝置,包括:數據映射建立模塊,用於建立第一數據集與第二數據集之間的數據映射,所述第一數據集包含多項第一數據,所述第二數據集包含多項第二數據;數據映射調整模塊,用於根據監督數據集調整所述初始數據映射,得到所述第一數據集與所述第二數據集之間的實際數據映射;搜索場景映射模塊,用於基於所述第二數據集中的第二數據實際映射到的所述第一數據集中的第一數據,確定所述第二數據集中的第二數據對應的搜索場景。在本發明實施方式的一種實現方式中,所述第一數據集為餐飲領域的場景特徵庫,所述第二數據集包括菜品數據和商戶數據。在本發明實施方式的一種實現方式中,所述裝置還包括:第一數據處理模塊,用於按照時間維度和地理維度處理第一數據源,得到所述第一數據集。或者,所述裝置還包括:監督數據處理模塊,用於對監督數據源進行切詞分析、詞頻分析、詞幹提取以及語義分析,得到所述監督數據集。在本發明實施方式的一種實現方式中,所述監督數據集中的監督數據除了包括短語名稱,還包括權重和/或懲罰因子。進一步地,所述數據映射調整模塊包括:匹配子模塊,用於採用文本匹配處理確定相互匹配的監督數據和第一數據;第一調整子模塊,用於針對各項第二數據,基於與第二數據初始映射到的第一數據匹配的監督數據的權重,修改第二數據與其初始映射到的第一數據之間的映射關係,和/或,第二調整子模塊,用於針對各項第二數據,基於與第二數據初始映射到的第一數據匹配的監督數據的懲罰因子,調整第二數據初始映射到的第一數據的權重。在本發明實施方式的一種實現方式中,所述搜索場景映射模塊具體用於:針對各項第二數據,從實際映射到第二數據的第一數據中選取至少部分第一數據或所述至少部分第一數據的組合作為所述搜索場景。第五方面,本發明實施方式中提供一種搜索場景識別裝置,包括:切詞模塊,用於對搜索項進行切詞,得到搜索詞;匹配模塊,用於通過匹配處理確定第二數據集中與所述搜索詞匹配的匹配數據;確定模塊,用於根據所述匹配數據所映射的搜索場景,確定所述搜索項對應的搜索場景;其中,所述第二數據集所映射的場景採用前述數據映射方法確定。第六方面,本發明實施例中提供一種搜索裝置,包括:場景確定模塊,用於根據搜索項和第二數據集及所述第二數據集所映射的搜索場景,確定所述搜索項對應的搜索場景,其中,所述第二數據集所映射的場景採用前述數據映射方法確定(該模塊的輸出結果是識別搜索場景,其具體可以通過上述搜索場景識別裝置實現);加載模塊,用於加載與所述搜索場景對應的數據文件,所述數據文件配置有召回數據的優化策略;優化模塊,用於根據加載的所述數據文件對召回數據進行優化排序。所述搜索場景識別裝置和搜索裝置的功能可以通過硬體實現,也可以通過硬體執行相應的軟體實現。所述硬體或軟體包括一個或多個與上述功能相對應的模塊。在一個可能的設計中,上述搜索場景識別裝置或搜索裝置的結構中包括處理器和存儲器,所述存儲器用於存儲支持相關裝置執行前述相應處理的程序,所述處理器被配置為用於執行所述存儲器中存儲的程序。相關裝置還可以包括通信接口,用於裝置與其他設備或通信網絡通信。第七方面,本發明實施例提供了一種計算機存儲介質,用於儲存所述搜索場景識別裝置和/或搜索裝置所用的計算機軟體指令,其包含用於執行上述相應方法以使搜索場景識別裝置和/或搜索裝置實現相應數據處理所涉及的程序。本發明實施例能夠有效優化數據映射關係,改善映射的精準度,進而提高後續確定搜索場景的精準度;此外還能夠提升匹配效率,有效地提升匹配場景的廣度,進而有效提高搜索結果的準確性。本發明的這些方面或其他方面在以下實施例的描述中會更加簡明易懂。附圖說明為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發明的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。圖1是根據本發明實施例的一種用於確認搜索場景的數據處理方法的流程示意圖;圖2是根據本發明實施例的一種建立場景特徵庫的方法的流程示意圖;圖3是根據本發明實施例的一種獲取監督數據的方法的流程示意圖;圖4是根據本發明實施例的一種數據映射邏輯示意圖;圖5是根據本發明實施例的一種數據映射方法的流程示意圖;圖6是根據本發明實施例的一種搜索場景識別方法的流程示意圖;圖7是根據本發明實施例的一種搜索方法的流程示意圖;圖8是根據本發明實施例的一種用於確認搜索場景的數據處理裝置的框圖的一例;圖9是根據本發明實施例的一種搜索場景識別裝置的框圖的一例;圖10是根據本發明實施例的一種搜索裝置的框圖的一例。具體實施方式為了使本
技術領域:
的人員更好地理解本發明方案,下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述。在本發明的說明書和權利要求書及上述附圖中的描述的一些流程中,包含了按照特定順序出現的多個操作,但是應該清楚了解,這些操作可以不按照其在本文中出現的順序來執行或並行執行,操作的序號如101、102等,僅僅是用於區分開各個不同的操作,序號本身不代表任何的執行順序。另外,這些流程可以包括更多或更少的操作,並且這些操作可以按順序執行或並行執行。需要說明的是,本文中的「第一」、「第二」等描述,是用於區分不同的消息、設備、模塊等,不代表先後順序,也不限定「第一」和「第二」是不同的類型。首先,對本發明涉及或可能涉及的部分名詞進行說明。這些解釋僅為了便於理解,而並不構成對本發明各種實施例的限制。搜索技術,針對網際網路的數據資源建立信息資料庫和索引數據信息,通過各種軟體、硬體技術實現性能優化,利用相關算法策略進行搜索準確性和排序結果的功能優化。場景識別,針對搜索關鍵詞進行基於大數據和自然語言處理的深度數據挖掘,分析關鍵詞所處的搜索情景,進而從更高層次優化搜索結果。領域知識,行業領域中的專門知識與技能。領域指某個限定的專業或行業的範圍,如金融、製造、餐飲等。領域內的專家經驗、技能、管理素質構成的知識框架稱為知識領域。自然語言處理,是用計算機處理自然語言信息的過程和有關技術。自然語言指的是人類自身的書面或口頭形式的語言,如漢語、英語、日語等,它是相對於人造的形式化的計算機語言而言的。處理自然語言的關鍵是要讓計算機理解自然語言。下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都屬於本發明保護的範圍。圖1是根據本發明實施例的一種用於確認搜索場景的數據處理方法的流程示意圖,參照圖1,所述方法包括:10:建立第一數據集與第二數據集之間的初始數據映射。其中,所述第一數據集包含多項第一數據,所述第二數據集包含多項第二數據。在本發明中,第一數據集和第二數據集均包含可以直接進行數據映射處理的數據。關於如何得到特定應用環境下的第一數據集和第二數據集,將在下文進行詳細說明。可選地,在本實施例中,處理10也可以理解為利用第一數據集對第二數據集進行數據標記,從而建立第一數據集與第二數據集之間的初始映射關係。12:根據監督數據集調整所述初始數據映射,得到所述第一數據集與所述第二數據集之間的實際數據映射。可選地,在本實施例的一種實現方式中,監督數據集的作用是對處理10得到的初始映射關係進行優化,例如,防止對第一數據集的數據標記的過擬合情況,對映射強度進行限制。其中,監督數據集包含監督數據,本發明中的監督數據可以理解為一種規範化的數據樣本,用於輔助進行數據過濾、調整、優化等處理,具有數據參考意義。14:基於所述實際數據映射確定所述第二數據集所映射的搜索場景。具體而言,基於所述第二數據集中的第二數據實際映射到的所述第一數據集中的第一數據,確定所述第二數據集中的第二數據對應的搜索場景。採用本實施例提供的方法,相對於存在映射效果不足或者過擬合情況的現有映射技術而言,基於監督數據對數據映射進行調整,能夠有效優化數據映射關係,改善映射的精準度,進而提高所確定的搜索場景的精準度。可選地,在本實施例的一種實現方式中,所述監督數據集中的監督數據包含短語名稱和調整參數,所述調整參數包括權重和/或懲罰因子。此時,處理12可以通過以下方式實現:首先,採用文本匹配處理確定相互匹配的監督數據和第一數據。例如,將短語名稱和第一數據集中的第一數據進行匹配處理,確定相互匹配的監督數據和第一數據。然後,針對各項第二數據,基於與第二數據初始映射到的第一數據匹配的監督數據的權重,修改第二數據與其初始映射到的第一數據之間的映射關係,和/或,針對各項第二數據,基於與第二數據初始映射到的第一數據匹配的監督數據的懲罰因子,調整第二數據初始映射到的第一數據的權重。其中,所述修改第二數據其初始映射到的第一數據之間的映射關係,包括:刪除所匹配的監督數據的權重值不滿足預設條件的第一數據與第二數據的映射關係、根據第一數據所匹配的監督數據的權重值對第一數據與第二數據之間的映射進行排序等。可選地,在本實施例的一種實現方式中,按照時間維度和地理維度處理第一數據源得到所述第一數據集;對監督數據源進行文本處理(包括:切詞分析、詞頻分析、詞幹提取以及語義分析),得到所述監督數據集;第二數據集可以是已有的數據集。可選地,在本實施例的一種實現方式中,第一數據集、第二數據集和監督數據集是同一領域的數據。例如,以餐飲領域為例,第一數據集為餐飲領域的場景特徵庫,第二數據集包括菜品數據和商戶數據,監督數據集則基於外源挖掘的有效餐飲領域信息得到。可選地,在本實施例的一種實現方式中,針對各項第二數據,從實際映射至第二數據的第一數據中選取至少部分第一數據或所述至少部分第一數據的組合作為所述搜索場景。舉例而言,以第二數據集中的「油條」這個菜品詞為例,假設映射到的第一數據包括:「早餐」、「北方」、「主食」、「油炸食品」、「中華傳統」等。其中「早餐」出現頻次最高,最具代表性。因此,在「油條」這個菜品詞的映射數據中,可以將「早餐」排在所有特徵的首位,對應最大的權重。進而,在處理14中,可以選取「早餐」作為油條的搜索場景。當然,也可以從映射的詞語中選取至少部分詞語組合構成場景,例如將「北方的早餐」作為場景。換言之,在本實現方式中,可以根據所匹配的監督數據的權重(例如,權重排序)選取權重滿足預設條件的第一數據或第一數據的組合作為相應的搜索場景。在該實現方式中,可以採用特徵詞的頻次對「油條」所對應的特徵詞進行篩選,也可以根據特徵詞的頻次對各個特徵詞的權重進行優化,這樣,通過將特徵詞的頻次作為輔助參數對權重進行調整/修正,將權重描述可能存在的不準確的問題弱化,也保證了基於權重進行調整而得到的實際數據映射的準確性。關於特徵詞的頻次,其是指特徵詞在所述第一數據集的數據收集、統計階段所記錄到的數量。例如:假設「早餐」一詞在第一數據集的數據收集階段,一共統計到723個「早餐」或「早餐」作為主要語義的短語,那麼在所述第一數據集中,「早餐」這個特徵詞的詞頻就是723/(所有特徵詞出現的總次數)。下面,以將本發明應用於餐飲領域為例,對與本發明相關的各個細節進行詳細說明。圖2是根據本發明實施例的一種建立場景特徵庫的方法的流程示意圖。所述場景特徵庫是第一數據集的一種具體實現方式。參照圖2,所述方法包括:首先,獲取第一數據源。所述第一數據源包括用戶行為數據和外源挖掘數據。用戶行為數據主要反映用戶在時間維度上的行為,利用客戶端(例如,app客戶端)收集到的用戶點擊以及瀏覽記錄,在服務端以時間為維度,將用戶的這些行為依次整理收集,例如:用戶a在2016年11月03日11點的行為數據為「打開app->瀏覽首頁->下拉菜單至第3頁->停留2秒後選擇第三家商戶並進入->在商戶詳情頁選擇x產品->進入下單頁面->選擇付款方式以及配送地理信息」等。而外源挖掘數據包括主流專業餐飲網站的公開菜單、菜品做法、餐飲分類等信息。接著,通過數據分析子系統,對所述第一數據源進行分析,得到時間場景基本數據、節日場景基本數據、地理信息基本數據。具體而言,利用文本模式匹配技術將第一數據源劃分為早餐、午餐、晚餐以及夜宵四個基本時間場景、中西方傳統節假日等基本節日場景以及基於地理信息的用戶配送場景等基本特徵。接著,在獲得基本特徵信息後,通過擬合算法對特徵過濾模型進行訓練和擬合優化,完成特徵數據的過濾,去除錯誤的、不屬於餐飲領域的關聯信息的數據,使特徵庫的數據合理化。此處,之所以要對特徵過濾模型進行訓練,是因為未經過濾的原始特徵數據往往存在各種噪聲數據。例如:「香菸」這個搜索詞在原始的場景特徵提取中,可能產生「早餐」、「甜品」這兩個場景特徵。顯然地,這是由於髒數據造成的錯誤識別,需要被過濾掉。因此,通過人為設置模型預期的目標狀態,採用擬合過程,可以不斷地讓過濾條件更加精確,進而可以過濾掉邏輯關聯不強的特徵庫數據。通過以上處理,即可得到場景特徵庫。示例性地,場景特徵庫中的基本數據結構如下表所示:(表一)參照表一。其中,特徵id表示每個特徵的唯一識別信息,在搜索場景識別中使用該id調用相關特徵。特徵名稱方便特徵庫管理者查看以及信息展示。特徵分類代表特徵所處類別,例如,可以將特徵分為一級特徵、二級特徵以及三級子類。更具體而言,「早餐」屬於一級特徵,其中包含「減肥早餐」這個二級特徵,該二級特徵又包含「金槍魚肉製品」等三級特徵。特徵權重表示該特徵在特徵庫中的影響因子,其計算公式為:wi=θ*ci/∑j=0cj+punishment(i>=0,j從0開始)wi表示第i個特徵的權重(也稱影響因子),θ表示人為設置的正向激勵參數,這個參數用來削弱前文所提到的噪聲引起的幹擾,ci表示第i個特徵在訓練數據中經過切詞、詞頻分析以及語義分析(相關說明請參照與下文在監督數據中的說明)所得的特徵名稱,而訓練數據即前文的第一數據源。punishment為懲罰因子,用於修正過擬合問題帶來的權重因子影響過大的問題。特徵關係表示特徵之間的關係,包括近似、互斥以及包含三種關係。例如:「早餐」與「晚餐」就屬於互斥特徵。特徵關係信息對之後特徵映射部分的優化有著重要作用,通過特徵權重以及特徵關係的比較,可以較精準的過濾掉錯誤的映射結果。採用本實施例提供的方法,通過全自動化的流程進行數據處理,尤其是引入時間維度和地理信息維度來劃分海量數據,能夠有效地縮短數據挖掘處理以及人工評審帶來的無效時間成本消耗,提高整體策略評估性能。此外,為提升特徵庫的可描述性和可代表性,可採用特徵模型反向激勵的方式二次優化特徵庫。與傳統的特徵提取技術相比,準確性更高,所包含的特徵也更具代表性。圖3是根據本發明實施例的一種獲取監督數據的方法的流程示意圖。該方法針對餐飲領域信息進行文本處理,獲得監督數據,所述監督數據是指適用於監督模型(一種基本的機器學習方法)的數據。具體而言,如圖3所示,所述方法包括:30:獲取餐飲領域信息。所述餐飲領域信息可以由網絡爬蟲機器人從外源挖掘數據中提取。32:切詞分析。具體而言,可以使用切詞工具完成切詞分析。例如,採用wordseg切詞工具,其基本原理是將海量數據生成的單詞字典與一段餐飲信息進行匹配,一旦發現匹配成功的短語,則將其視為候選切詞,並依據單詞字典提供的單詞權重去挑選出匹配度最高的切詞方式,繼而可以認為這種切詞結果就是最終結果。一段餐飲信息切詞後形成由短語組成的集合,例如:「糖醋裡脊主要食材包括裡脊肉、澱粉、番茄等」這句文本被視為餐飲信息,切詞後的短語集合為{「糖醋裡脊」,「主要食材」,「裡脊肉」,「澱粉」,「番茄」}。34:詞頻分析。具體而言,在針對每一段餐飲領域信息都進行切詞分析之後,進而統計每個切詞後短語出現的次數,這個次數就是詞頻信息。詞頻分析的主要目的是過濾掉不需要的詞語,留下最具代表性的詞語。例如:針對餐飲領域信息,在切詞後形成這樣兩個詞語:「雞排」,「大雞排」。根據詞頻統計,「雞排」一共出現了12834次,而「大雞排」一共出現了231次,那麼針對這兩個具有相似文本組織結構的詞語,可以只保留「雞排」。36:詞幹提取。具體而言,使用詞幹字典與前述生成的切詞短語進行部分匹配檢查,例如:「美味的裡脊肉」會被提取為「裡脊肉」,其中的定語「美味的」會被去除。詞幹提取會識別短語的詞性,進而對短語進行二次切割,最後只留下核心的名詞部分。38:語義分析。示例性地,可以進行基於n-gram(一種語言模型)的語義分析。該分析方法基於一種假設,第n個詞的出現只與前面n-1個詞相關,而不與其他因素相關,這個短語的概率就是各個詞幹出現的概率的乘積。通過以上處理30-38,即可得到餐飲領域的監督數據。示例性地,監督數據的結構如下表所示:短語id短語名稱權重懲罰因子表二其中,短語id唯一標示該短語,用於在調用監督數據時使用。短語名稱用於與第一數據集中的數據(例如,場景特徵庫中的特徵詞)進行文本匹配。權重是指該監督數據的重要性,例如菜品「魚香肉絲」映射到「川菜」、「流行」、「時尚創意」這三個特徵詞,而系統的監督數據中「川菜」、「流行」兩個監督短語的權重明顯大於「時尚創意」這個短語,那麼過濾後留下來的特徵就是「川菜」、「流行」,同時,「魚香xx」這個短語表達方式也被系統定義為一個監督公式。當下次類似於「魚香xx」的短語被處理時,但凡出現「川菜」、「流行」或類似特徵時,監督模型將會提升這些特徵的影響因子,同時,會限制其他特徵的映射強度。懲罰因子是監督數據的修正選項,該數值通常是人為設置,通過數據採樣後的人工審核去評估監督數據對特徵的約束。圖4是根據本發明實施例的一種數據映射邏輯示意圖,其示出的是場景特徵庫與餐飲領域數據的實際數據映射邏輯。參照圖4,該數據映射邏輯包括:首先,基於餐飲領域數據(包括菜品數據和商戶數據)與場景特徵庫建立二者之間的數據映射。然後,讀取監督數據的權重和懲罰因子,進而進行提升與限制。具體而言,在將場景特徵庫映射到菜品或者商戶數據時,利用監督數據自身的權重提升與監督數據匹配上的那部分特徵詞,同時通過監督數據的懲罰因子限制映射強度(即,特徵詞的權重),生成有效映射數據(即,實際映射數據)。傳統的特徵映射技術存在映射效果不足或者過擬合的情況。而本實施例採用的數據映射邏輯,引入監督數據的概念,可以通過第三方數據構建餐飲領域知識的監督模型,進而在數據映射中基於監督數據過濾菜品、店鋪名稱的場景特徵,提升映射精確度。在本實施例中,在生成有效映射數據處理之後,可以利用特徵詞頻次對每個餐飲領域信息詞(例如,菜品和商戶名稱)映射到的特徵詞進行排序。以「油條」這個菜品詞為例,映射到的特徵詞包括:「早餐」、「北方」、「主食」、「油炸食品」、「中華傳統」等,其中「早餐」這個場景特徵出現頻次最高,最具代表性。因此在「油條」這個菜品詞的映射數據中,「早餐」排在所有特徵的首位,權重最大。可以將「早餐」作為油條的搜索場景。圖5是根據本發明實施例的一種數據映射方法的流程示意圖,其示出了場景特徵庫與餐飲領域數據(包括菜品數據和商戶數據)的實際數據映射過程。參照圖5,所述方法包括:50:建立場景特徵庫與餐飲領域數據的數據映射。52:基於監督數據優化所述數據映射。例如,通過前述的權重、懲罰因子進行優化。54:確定餐飲領域數據所對應的搜索場景。例如,針對第二數據集中的單個第二數據,根據與其映射的第一數據的出現頻次、權重或其它參數進行排序、篩選或組合,從而得到對應的搜索場景。圖6是根據本發明實施例的一種搜索場景識別方法的流程示意圖。參照圖6,所述方法包括:60:對搜索項進行切詞,得到搜索詞。所述搜索詞可以是一個或多個。可選地,在本實施例的一種實現方式中,首先針對用戶輸入的搜索項進行識別處理,該識別處理包括簡單的過濾、首次召回觸發。其中,過濾是指針對該搜索項進行異常判斷,如果發現該搜索項異常,例如:搜索詞包含非法字符、敏感信息等,搜索將不再進行下一步處理。可選地,在本實施例中,可以採用前文提及的切詞工具進行切詞。62:通過匹配處理確定第二數據集中與所述搜索詞匹配的匹配數據。其中,所述第二數據集與所述第一數據集採用如前文所述的數據映射方法建立數據映射(即,實際數據映射)。關於第一數據集和第二數據集的說明,請參見前文。可選地,在本實施例的一種實現方式中,所述匹配處理為文本匹配處理,並且優選採用部分匹配。所述部分匹配是指,如果第二數據集中的第二數據與搜索項切詞後的任意一個詞匹配,則該第二數據與搜索項匹配。例如,利用搜索項的切詞結果與特徵詞庫的詞語進行近似計算,假如搜索詞「川香回鍋肉」與特徵庫中的「回鍋」這一特徵匹配成功,其實是「川香回鍋肉」中的「回鍋」兩字與相關特徵匹配成功。採用部分匹配的方式快速匹配餐飲領域數據,一方面提升匹配效率,另一方面有效地提升匹配場景的廣度。64:根據所述匹配數據所映射的搜索場景,確定所述搜索項對應的搜索場景。可選地,在本實施例的一種實現方式中,以餐飲領域為例,第一數據集是場景特徵庫、第二數據集是餐飲領域數據。在確定搜索詞對應的搜索場景後,可以利用場景特徵庫中預計算的場景權重進行場景排序。圖7是根據本發明實施例的一種搜索方法的流程示意圖,參照圖7,所述方法包括:70:識別搜索項對應的搜索場景。例如,根據搜索項和第二數據集及所述第二數據集所映射的搜索場景,確定所述搜索項對應的搜索場景。其中,所述第二數據集所映射的搜索場景採用前文所述的數據映射方法確定。更具體而言,可以採用圖6所示的方法進行識別。72:加載與搜索場景對應的數據文件。所述數據文件配置有召回數據的優化策略。可選地,在本實施例的一種實現方式中,動態加載不同場景所對應的數據文件,繼而得到符合用戶搜索意圖的搜索結果。所述動態加載即熱加載技術,即在不重啟服務的情況下,可以實時的更換數據。而在本實施例中,將召回邏輯的排序策略構造成一個個的數據文件,通過加載這些數據文件,來構造排序算法。示例性地,這些排序策略的數據文件如下表所示:策略id策略名稱策略分類描述參數參數作用範圍擴展信息(表三)其中,描述參數和參數作用範圍旨在表示策略的影響點,例如:基於距離的排序策略中,描述參數就是「距離因子」,而參數作用範圍就是「0km–20km」。74:根據數據文件對召回數據進行優化排序。採用本實施例提供的方法,為搜索召回提供了模塊化的計算入口,可以針對不同的搜索場景設計各自的排序優化策略,實現「千人千面」的搜索個性化效果。以上結合附圖對根據本發明實施例的方法實施例進行了詳細說明。下面結合附圖對根據本發明的裝置實施例進行說明。圖8是根據本發明實施例的一種用於確認搜索場景的數據處理裝置的框圖的一例。參照圖8,數據處理裝置包括:數據映射建立模塊80,用於建立第一數據集與第二數據集之間的初始數據映射;數據映射調整模塊82,用於根據監督數據集調整所述數據映射,得到所述第一數據集與所述第二數據集之間的實際數據映射;搜索場景映射模塊84,用於基於所述第二數據集中的第二數據實際映射到的所述第一數據集中的第一數據,確定所述第二數據集中的第二數據對應的搜索場景。可選地,在本實施例的一種實現方式中,所述監督數據集中的監督數據除了包括權重和/或懲罰因子。可選地,在本實施例的一種實現方式中,數據映射調整模塊82包括:匹配子模塊,用於採用文本匹配處理確定相互匹配的監督數據和第一數據;第一調整子模塊,用於針對各項第二數據,基於與第二數據初始映射到的第一數據匹配的監督數據的權重,修改第二數據與其初始映射到的第一數據之間的映射關係,和/或,第二調整子模塊,用於針對各項第二數據,基於與第二數據初始映射到的第一數據匹配的監督數據的懲罰因子,調整第二數據初始映射到的第一數據的權重。可選地,在本實施例的一種實現方式中,所述搜索場景映射模塊84具體用於:針對各項第二數據,從實際映射到第二數據的第一數據中選取至少部分第一數據或所述至少部分第一數據的組合作為所述搜索場景。例如,基於第一數據所匹配的監督數據的權重選取所述至少部分第一數據。可選地,在本實施例的一種實現方式中,所述第一數據集為餐飲領域的場景特徵庫,所述第二數據集包括菜品數據和商戶數據。圖9是根據本發明實施例的一種搜索場景識別裝置的框圖的一例,參照圖9,該裝置包括:切詞模塊90,用於對搜索項進行切詞,得到搜索詞;匹配模塊92,用於通過匹配處理確定第二數據集中與所述搜索詞匹配的匹配數據;確定模塊94,用於根據所述匹配數據所映射的搜索場景,確定所述搜索項對應的搜索場景。其中,採用前文所述的方法為第二數據集映射搜索場景。圖10是根據本發明實施例的一種搜索裝置的框圖的一例,參照圖10,該裝置包括:場景確定模塊102,用於根據搜索項和第二數據集及所述第二數據集所映射的搜索場景,確定所述搜索項對應的搜索場景(其中,所述第二數據集所映射的場景採用前文所述的數據映射方法確定,或採用圖9所示搜索場景識別裝置確定);加載模塊104,用於加載與所述搜索場景對應的數據文件,所述數據文件配置有召回數據的優化策略;優化模塊106,用於根據加載的所述數據文件對召回數據進行優化排序。以上結合附圖對根據本發明實施例的信息推送方法及裝置進行了說明,本領域技術人員應當理解,本發明提供的方法實施例或實現方式可以相應地由本發明提供的裝置實施例或實現方式實現,而本發明的裝置實施例的處理過程/邏輯又與本發明的方法實施例相一致。因此,在本發明的裝置實施例中,關於各個模塊、子模塊所執行處理或可執行處理的詳細說明,關於特定名稱、術語、範圍的解釋,以及關於各個實施例、相關特徵所具有的有益效果的描述,請參見方法實施例中的相應說明,此處不再贅述。在與本發明相關的一種可能的設計中,前述數據處理裝置可以包括處理器和存儲器,所述存儲器用於存儲支持所述數據處理裝置執行前述相應模塊/子模塊所執行的處理的程序,所述處理器被配置為用於執行所述存儲器中存儲的程序。所述程序包括一條或多條計算機指令,其中,所述一條或多條計算機指令供所述處理器調用執行。更具體而言,所述處理器通過執行所述計算機指令以用於:建立第一數據集與第二數據集之間的初始數據映射,所述第一數據集包含多項第一數據,所述第二數據集包含多項第二數據;根據監督數據集調整所述初始數據映射,得到所述第一數據集與所述第二數據集之間的實際數據映射;基於所述第二數據集中的第二數據實際映射到的所述第一數據集中的第一數據,確定所述第二數據集中的第二數據所映射的搜索場景。可選地,所述處理器還可以通過執行所述計算機指令以用於:按照時間維度和地理維度處理第一數據源,得到所述第一數據集;對監督數據源進行切詞分析、詞頻分析、詞幹提取以及語義分析,得到所述監督數據集。可選地,所述監督數據集中的監督數據除了包括短語名稱,還包括權重和/或懲罰因子。此時,所述處理還可以通過執行所述計算機指令以用於:採用文本匹配處理確定相互匹配的監督數據和第一數據;針對各項第二數據,基於與第二數據初始映射到的第一數據匹配的監督數據的權重,修改第二數據與其初始映射到的第一數據之間的映射關係,和/或,針對各項第二數據,基於與第二數據初始映射到的第一數據匹配的監督數據的懲罰因子,調整第二數據初始映射到的第一數據的權重。可選地,所述處理還可以通過執行所述計算機指令以用於:針對各項第二數據,從實際映射至第二數據的第一數據中選取至少部分第一數據或所述至少部分第一數據的組合作為所述搜索場景。相應地,本發明實施例還提供了一種計算機存儲介質,用於儲存前述數據映射裝置所執行的計算機軟體指令,其包含用於執行上述數據映射方法的數據映射裝置所涉及的程序。在與本發明相關的另一種可能的設計中,前述搜索裝置可以包括處理器和存儲器,所述存儲器用於存儲支持所述數據處理裝置執行相應模塊/子模塊所執行的處理的程序,所述處理器被配置為用於執行所述存儲器中存儲的程序。所述程序包括一條或多條計算機指令,其中,所述一條或多條計算機指令供所述處理器調用執行。更具體而言,所述處理器通過執行所述計算機指令以用於:根據搜索項和第二數據集及所述第二數據集所映射的搜索場景,確定所述搜索項對應的搜索場景,其中,所述第二數據集所映射的搜索場景採用前述數據映射方法確定;加載與所述搜索場景對應的數據文件,所述數據文件配置有召回數據的優化策略;根據所述數據文件對召回數據進行優化排序。相應地,本發明實施例中還提供一種計算機存儲介質,用於儲存前述搜索裝置所執行的計算機軟體指令,其包含用於執行前文所述搜索方法的搜索裝置所涉及的程序。所屬領域的技術人員可以清楚地了解到,為描述的方便和簡潔,上述描述的系統,裝置和單元的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。以上所描述的裝置實施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位於一個地方,或者也可以分布到多個網絡單元上。可以根據實際的需要選擇其中的部分或者全部模塊來實現本實施例方案的目的。本領域普通技術人員在不付出創造性的勞動的情況下,即可以理解並實施。通過以上的實施方式的描述,本領域的技術人員可以清楚地了解到各實施方式可藉助軟體加必需的通用硬體平臺的方式來實現,當然也可以通過硬體。基於這樣的理解,上述技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來,該計算機軟體產品可以存儲在計算機可讀存儲介質中,如rom/ram、磁碟、光碟等,包括若干指令用以使得一臺計算機設備(可以是個人計算機,伺服器,或者網絡設備等)執行各個實施例或者實施例的某些部分所述的方法。最後應說明的是:以上實施例僅用以說明本發明的技術方案,而非對其限制;儘管參照前述實施例對本發明進行了詳細的說明,本領域的普通技術人員應當理解:其依然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分技術特徵進行等同替換;而這些修改或者替換,並不使相應技術方案的本質脫離本發明各實施例技術方案的精神和範圍。本發明公開a1、一種用於確認搜索場景的數據處理方法,包括:建立第一數據集與第二數據集之間的初始數據映射,所述第一數據集包含多項第一數據,所述第二數據集包含多項第二數據;根據監督數據集調整所述初始數據映射,得到所述第一數據集與所述第二數據集之間的實際數據映射;基於所述第二數據集中的第二數據實際映射到的所述第一數據集中的第一數據,確定所述第二數據集中的第二數據所映射的搜索場景。a2、如a1所述的方法中,所述第一數據集為餐飲領域的場景特徵庫,所述第二數據集包括菜品數據和商戶數據。a3、如a1所述的方法中,所述方法還包括:按照時間維度和地理維度處理第一數據源,得到所述第一數據集。a4、如a1所述的方法中,還包括:對監督數據源進行文本處理(包括:切詞分析、詞頻分析、詞幹提取以及語義分析),得到所述監督數據集。a5、如a1~a4中任一項所述的方法,所述監督數據集中的監督數據包括權重和/或懲罰因子。a6、如a5所述的方法中,根據監督數據集調整所述初始數據映射關係,包括:採用文本匹配處理確定相互匹配的監督數據和第一數據;針對各項第二數據,基於與第二數據初始映射到的第一數據匹配的監督數據的權重,修改第二數據與其初始映射到的第一數據之間的映射關係,和/或,針對各項第二數據,基於與第二數據初始映射到的第一數據匹配的監督數據的懲罰因子,調整第二數據初始映射到的第一數據的權重。a7、如a1-a4或a6中任一項所述的方法中,所述基於所述第二數據集中的第二數據實際映射到的所述第一數據集中的第一數據,確定所述第二數據集中的第二數據對應的搜索場景,包括:針對各項第二數據,從實際映射至第二數據的第一數據中選取至少部分第一數據或所述至少部分第一數據的組合作為所述搜索場景。本發明還公開了b8、一種搜索方法,包括:根據搜索項和第二數據集及所述第二數據集所映射的搜索場景,確定所述搜索項對應的搜索場景,其中,所述第二數據集所映射的搜索場景採用如a1-a7中任一項所述的方法確定;加載與所述搜索場景對應的數據文件,所述數據文件配置有召回數據的優化策略;根據所述數據文件對召回數據進行優化排序。本發明還公開了c9、一種用於確認搜索場景的數據處理裝置,包括:數據映射建立模塊,用於建立第一數據集與第二數據集之間的初始數據映射,所述第一數據集包含多項第一數據,所述第二數據集包含多項第二數據;數據映射調整模塊,用於根據監督數據集調整所述初始數據映射,得到所述第一數據集與所述第二數據集之間的實際數據映射;搜索場景映射模塊,用於基於所述第二數據集中的第二數據實際映射到的所述第一數據集中的第一數據,確定所述第二數據集中的第二數據對應的搜索場景。c10、如c9所述的裝置中,所述第一數據集為餐飲領域的場景特徵庫,所述第二數據集包括菜品數據和商戶數據。c11、如c9所述的裝置中,所述裝置還包括第一數據處理模塊,用於按照時間維度和地理維度處理第一數據源,得到所述第一數據集。c12、如c9所述的裝置中,所述裝置還包括監督數據處理模塊,用於對監督數據源進行文本處理(例如,包括:切詞分析、詞頻分析、詞幹提取以及語義分析),得到所述監督數據集。c13、如c9-c12所述的裝置中,所述監督數據集中的監督數據除了包括短語名稱,還包括權重和/或懲罰因子。c14、如c13所述的裝置中,所述數據映射調整模塊包括:匹配子模塊,用於採用文本匹配處理確定相互匹配的監督數據和第一數據;第一調整子模塊,用於針對各項第二數據,基於與第二數據初始映射到的第一數據匹配的監督數據的權重,修改第二數據與其初始映射到的第一數據之間的映射關係,和/或,第二調整子模塊,用於針對各項第二數據,基於與第二數據初始映射到的第一數據匹配的監督數據的懲罰因子,調整第二數據初始映射到的第一數據的權重。c15、如c9-c12或c14中任一項所述的裝置中,所述搜索場景映射模塊具體用於:針對各項第二數據,從實際映射到第二數據的第一數據中選取至少部分第一數據或所述至少部分第一數據的組合作為所述搜索場景。本發明還公開d16、一種搜索裝置,包括:場景確定模塊,用於根據搜索項和第二數據集及所述第二數據集所映射的搜索場景,確定所述搜索項對應的搜索場景,其中,所述第二數據集所映射的搜索場景採用如a1-a7中任一項所述的方法確定;加載模塊,用於加載與所述搜索場景對應的數據文件,所述數據文件配置有召回數據的優化策略;優化模塊,用於根據加載的所述數據文件對召回數據進行優化排序本發明還公開了e1、一種數據映射裝置,包括存儲器和處理器;其中,所述存儲器用於存儲一條或多條計算機指令,其中,所述一條或多條計算機指令供所述處理器調用執行;所述處理器通過執行所述計算機指令以執行以下處理:建立第一數據集與第二數據集之間的初始數據映射,所述第一數據集包含多項第一數據,所述第二數據集包含多項第二數據;根據監督數據集調整所述初始數據映射,得到所述第一數據集與所述第二數據集之間的實際數據映射;基於所述第二數據集中的第二數據實際映射到的所述第一數據集中的第一數據,確定所述第二數據集中的第二數據所映射的搜索場景。e2、如e1所述的數據映射裝置中,所述第一數據集為餐飲領域的場景特徵庫,所述第二數據集包括菜品數據和商戶數據。e3、如e1所述的數據映射裝置中,所述處理器通過執行所述計算機指令以執行以下處理:按照時間維度和地理維度處理第一數據源,得到所述第一數據集。e4、如e1所述的數據映射裝置中,所述處理器通過執行所述計算機指令以執行以下處理:對監督數據源進行文本處理(例如,包括:切詞分析、詞頻分析、詞幹提取以及語義分析)得到所述監督數據集。e5、如e1-e4中任一項所述的數據映射裝置中,所述監督數據集中的監督數據包括權重和/或懲罰因子。e6、如e5所述的數據映射裝置中,所述處理器通過執行所述計算機指令以執行以下處理:採用文本匹配處理確定相互匹配的監督數據和第一數據;針對各項第二數據,基於與第二數據初始映射到的第一數據匹配的監督數據的權重,修改第二數據與其初始映射到的第一數據之間的映射關係,和/或,針對各項第二數據,基於與第二數據初始映射到的第一數據匹配的監督數據的懲罰因子,調整第二數據初始映射到的第一數據的權重。e7、如e1-e4或e6中任一項所述的裝置,所述處理器通過執行所述計算機指令以執行以下處理:針對各項第二數據,從實際映射至第二數據的第一數據中選取至少部分第一數據或所述至少部分第一數據的組合作為所述搜索場景。本發明還公開了f1、一種搜索裝置,包括存儲器和處理器;其中,所述存儲器用於存儲一條或多條計算機指令,其中,所述一條或多條計算機指令供所述處理器調用執行;所述處理器通過執行所述計算機指令以執行以下處理:根據搜索項和第二數據集及所述第二數據集所映射的搜索場景,確定所述搜索項對應的搜索場景,其中,所述第二數據集所映射的搜索場景如a1-a7中任一項所述的方法確定;加載與所述搜索場景對應的數據文件,所述數據文件配置有召回數據的優化策略;根據所述數據文件對召回數據進行優化排序。當前第1頁12

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀