新四季網

企業搜索方法、裝置、設備、計算機存儲介質及程序與流程

2024-04-12 15:58:05



1.本技術屬於企業信息管理技術領域,尤其涉及一種企業搜索方法、裝置、設備、計算機存儲介質及程序。


背景技術:

2.企業搜索是指通過搜索軟體對企業內部的各種結構化信息與非結構化的信息進行索引,並提供檢索方法。在企業中,高層決策者經常通過企業搜索系統來搜索企業的相關信息,以輔助其做出各種決策、應對各種突發事件等。
3.由於企業內部數據信息量較多且類型繁雜,需要對企業信息進行整理分類,以便於保障搜索信息時的時效性和準確性,在這樣的要求下,需要企業搜索系統在信息整理方面和企業搜索速度方面進行較大的提高,否則易於導致企業搜索的整體效率降低,同時使得對於企業搜索系統的工作效率降低,因此,現在急需一種可以提升信息整理能力和搜索速度的企業搜索方法。


技術實現要素:

4.本技術實施例提供一種企業搜索方法、裝置、設備、計算機存儲介質及程序,基於企業信息構建企業知識圖譜從而實現了企業信息的整理分類,而基於企業知識圖譜進行企業搜索可以提高企業搜索的時效性、準確性,從而提高企業搜索的效率。
5.第一方面,本技術實施例提供一種企業搜索方法,方法包括:
6.確定搜索任務對應的企業知識圖譜,搜索任務中包含關鍵詞,企業知識圖譜基於企業信息預先構建;
7.從企業知識圖譜的索引表中確定包含關鍵詞的目標檢索索引,索引表中包含多條檢索索引,每條檢索索引均包含關鍵詞和關鍵詞索引的資料庫位置,資料庫與企業知識圖譜對應,資料庫中存儲有企業數據;
8.將目標檢索索引輸入預先訓練好的事件搜索模型,以使事件搜索模型按照最短路徑從關鍵詞索引的資料庫位置中檢索與關鍵詞相關的數據;
9.將檢索到的與關鍵詞相關的數據作為搜索任務對應的搜索結果進行輸出。
10.第二方面,本技術實施例提供了一種企業搜索裝置,裝置包括:
11.圖譜確定模塊,用於確定搜索任務對應的企業知識圖譜,搜索任務中包含關鍵詞,企業知識圖譜基於企業信息預先構建;
12.索引確定模塊,用於從企業知識圖譜的索引表中確定包含關鍵詞的目標檢索索引,索引表中包含多條檢索索引,每條檢索索引均包含關鍵詞和關鍵詞索引的資料庫位置,資料庫與企業知識圖譜對應,資料庫中存儲有企業數據;
13.數據搜索模塊,用於將目標檢索索引輸入預先訓練好的事件搜索模型,以使事件搜索模型按照最短路徑從關鍵詞索引的資料庫位置中獲取與關鍵詞相關的數據;
14.結果輸出模塊,用於將檢索到的與關鍵詞相關的數據作為搜索任務對應的搜索結
果進行輸出。
15.第三方面,本技術實施例提供了一種電子設備,該電子設備包括:處理器以及存儲有電腦程式指令的存儲器;
16.處理器執行所述電腦程式指令時實現如第一方面的任一項實施例中所述的企業搜索方法的步驟。
17.第四方面,本技術實施例提供了一種計算機可讀存儲介質,計算機可讀存儲介質上存儲有電腦程式指令,電腦程式指令被處理器執行時實現如第一方面的任一項實施例中所述的企業搜索方法的步驟。
18.第五方面,本技術實施例提供了一種電腦程式產品,電腦程式產品中的指令由電子設備的處理器執行時,使得所述電子設備執行如第一方面的任一項實施例中所述的企業搜索方法的步驟。
19.本技術實施例的企業搜索方法、裝置、設備、計算機存儲介質及程序,預先基於企業信息構建企業知識圖譜,在進行企業搜索時,確定搜索任務對應的企業知識圖譜,從企業知識圖譜的搜索表中確定包含搜索任務中關鍵詞的檢索索引,將檢索索引輸入事件搜索模型,以使事件搜索模型按照最短路徑從企業知識圖譜對應的資料庫中檢索到關鍵詞對應的數據,並將檢索到的數據作為搜索結果進行輸出。根據本技術實施例,基於企業信息構建企業知識圖譜從而實現了企業信息的整理分類,而基於企業知識圖譜進行企業搜索可以提高企業搜索的時效性、準確性,從而提高企業搜索的效率,而基於檢索索引進行數據檢索,可以減少檢索範圍,提高檢索效率,通過事件搜索模型基於最短路徑進行檢索,可以進一步縮短檢索所需的時間,從而進一步提高搜索效率。
附圖說明
20.為了更清楚地說明本技術實施例的技術方案,下面將對本技術實施例中所需要使用的附圖作簡單的介紹,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
21.圖1是本技術實施例提供的一種企業搜索方法的流程示意圖;
22.圖2是本技術實施例提供的一種企業搜索方法的確定推薦數據包的流程示意圖;
23.圖3是本技術實施例提供的另一種企業搜索方法的流程示意圖;
24.圖4是本技術實施例提供的一種企業搜索裝置的結構示意圖;
25.圖5是本技術實施例提供的一種電子設備的結構示意圖。
具體實施方式
26.下面將詳細描述本技術的各個方面的特徵和示例性實施例,為了使本技術的目的、技術方案及優點更加清楚明白,以下結合附圖及具體實施例,對本技術進行進一步詳細描述。應理解,此處所描述的具體實施例僅意在解釋本技術,而不是限定本技術。對於本領域技術人員來說,本技術可以在不需要這些具體細節中的一些細節的情況下實施。下面對實施例的描述僅僅是為了通過示出本技術的示例來提供對本技術更好的理解。
27.需要說明的是,在本文中,諸如第一和第二等之類的關係術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存
在任何這種實際的關係或者順序。而且,術語「包括」、「包含」或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下,由語句「包括
……」
限定的要素,並不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。
28.現有的企業搜索系統,主要基於客戶端和伺服器端實現,客戶端主要包括檢索範圍管理模塊、數據通信模塊和數據處理模塊,伺服器端主要包括數據通信模塊、數據存取模塊、數據解析模塊和搜索模塊。客戶端的數據被收集並被賦予安全屬性,根據安全屬性生成保護型索引信息或取得數據本身,保護型索引信息或數據本身被上傳至伺服器端,檢索範圍管理模塊跟蹤客戶端設備的數據狀態,在數據狀態發生變化時將變更的數據信息提示給用戶,用戶能夠設定該數據的安全屬性,伺服器端接收上傳來的數據信息並保存,對客戶端的數據和伺服器端的固有數據進行解析,生成普通型索引信息並保存,有搜索請求時,伺服器端分析請求並進行檢索,向用戶返回檢索結果。
29.由於企業內部數據信息量較多且類型繁雜,需要對企業信息進行整理分類,以便於保障搜索信息時的時效性和準確性,在這樣的要求下,需要企業搜索系統在信息整理方面和企業搜索速度方面進行較大的提高,否則易於導致企業搜索的整體效率降低,同時使得對於企業搜索系統的工作效率降低,因此,現在急需一種可以提升信息整理能力和搜索速度的企業搜索方法。
30.為了解決現有技術問題,本技術實施例提供了一種企業搜索方法、裝置、設備及計算機存儲介質。下面首先對本技術實施例所提供的企業搜索方法進行介紹。
31.圖1示出了本技術一個實施例提供的企業搜索方法的流程示意圖。如圖1所示,該方法包括如下步驟:
32.s110、確定搜索任務對應的企業知識圖譜,搜索任務中包含關鍵詞,企業知識圖譜基於企業信息預先構建;
33.s120、從企業知識圖譜的索引表中確定包含搜索任務中的關鍵詞的目標檢索索引,索引表中包含多條檢索索引,每條檢索索引均包含關鍵詞和關鍵詞索引的資料庫位置,資料庫與企業知識圖譜對應,資料庫中存儲有企業數據;
34.s130、將目標檢索索引輸入預先訓練好的事件搜索模型,以使事件搜索模型按照最短路徑從關鍵詞索引的資料庫位置中檢索與關鍵詞相關的數據;
35.其中,關鍵詞索引的資料庫位置指目標檢索索引中包含的關鍵詞索引的資料庫位置。
36.s140、將檢索到的與關鍵詞相關的數據作為搜索任務對應的搜索結果進行輸出。
37.由此,根據本技術實施例提供的中間件配置的優化方法,預先基於企業信息構建企業知識圖譜,在進行企業搜索時,確定搜索任務對應的企業知識圖譜,從企業知識圖譜的搜索表中確定包含搜索任務中關鍵詞的檢索索引,將檢索索引輸入事件搜索模型,以使事件搜索模型按照最短路徑從企業知識圖譜對應的資料庫中檢索到關鍵詞對應的數據,並將檢索到的數據作為搜索結果進行輸出。根據本技術實施例,基於企業信息構建企業知識圖譜從而實現了企業信息的整理分類,而基於企業知識圖譜進行企業搜索可以提高企業搜索的時效性、準確性,從而提高企業搜索的效率,而基於檢索索引進行數據檢索,可以減少檢
索範圍,提高檢索效率,通過事件搜索模型基於最短路徑進行檢索,可以進一步縮短檢索所需的時間,從而進一步提高搜索效率。
38.在一些實施例中,企業知識圖譜可以包括多個不同歷史版本的企業知識圖譜,不同歷史版本的企業知識圖譜可用於完成不同的搜索任務。企業信息可以包括常規數值信息、文本信息、圖像信息、視頻信息和語音信息等。
39.作為一種示例,基於企業信息預先構建企業知識圖譜可以是,首先通過接口或爬蟲獲取企業相關的多模態的信息和數據,這裡的企業相關的多模態的信息可以是常規數值信息、文本信息、圖像信息、視頻信息和語音信息等企業信息。獲取到企業信息後,可以基於信息數據清理等預處理手段對企業信息進行預處理,並按企業信息的格式選擇合理的分類存儲方式。然後對企業信息進行特徵提取,具體可以通過大規模數據,結合統計學習和邏輯規則方法,來進行企業信息的多模態數據特徵提取的訓練,根據與上述文本信息、圖像信息、視頻信息和語音信息對應的文本特徵、圖像特徵、視頻特徵和語音特徵,分別根據獲取的文本特徵提取神經網絡模型、圖像特徵提取神經網絡模型、視頻特徵提取神經網絡模型、語音特徵提取神經網絡模型,獲取文本數據特徵、圖像數據特徵、視頻數據特徵和語音數據特徵,並通過邏輯規則方法獲取常規數值數據特徵。
40.進一步地,為了獲取到與各個數據特徵對應的表徵特徵,基於獲取的各個數據特徵進行統一表示、關聯分析、共性選擇和粗分類,例如首先利用深度學習技術進行統一表示,再利用聚類算法、關聯算法和距離算法對各個數據特徵進行關聯分析和分類。進行分類後可以獲取到各個類別的多模態混合數據特徵,如此,通過統計學習方法、邏輯規則和深度學習方法,可以獲取粗糙表示的各個類別的共性特徵,即表徵特徵。獲取到各個數據特徵對應的表徵特徵後,可以將表徵特徵存入預設的資料庫中,再使用nosql(not only sql)資料庫,利用nosql基於對鍵值的存儲方式,進行多模態數據的存儲和管理。通過企業信息的多模態數據的各個特徵提取模型,獲取各個類別的表徵特徵作為索引,類別中的文本數據、圖像數據、視頻數據和語音數據作為對應的值,以此來存入資料庫中,可以利用特徵信息作為索引來有效的管理和使用數據。
41.為了獲取知識圖譜的基礎,可以從多模態數據中抽取實體、屬性和關聯關係,並以各個類別為基準,獲取構建知識圖譜的基礎。這裡的實體抽取例如可以是抽取文本中的原子信息,例如可以包括人名、組織機構名、位置、時間和金錢等。關聯關係抽取例如可以是基於抽取到的實體與實體之間的關係進行的抽取。可以通過統計學習方法、邏輯規則方法和深度學習方法,分別對各個類別中的圖像數據、語音數據、文本數據、視頻數據進行常規實體抽取、屬性抽取和關係抽取分析,來獲取實體、屬性和關聯關係信息,如此可以有效降低構建知識圖譜的工作量。再進行企業信息之間的關聯分析以及交叉驗證,並對跨類別的企業信息進行交叉關聯分析獲取新的實體、屬性和關聯關係,來進行跨模態的關聯分析和交叉驗證以去除錯誤信息。如此,將獲取的置信度高的實體、屬性和關聯關係信息,作為構建知識圖譜的基礎,可以提升知識圖譜核心元素的可信度。
42.最後,基於獲取的知識圖譜基礎,構建跨模態數據的統一表徵的企業知識圖譜,這裡,可以採用常規的表示方法,對企業知識圖譜進行統一表徵,基於常規知識圖譜構建技術,對構建的企業知識圖譜進行知識推理研究,建立實體間隱藏的關係圖,以此得到拓展後的企業知識圖譜。
43.如此,基於預先構建的多個歷史版本企業知識圖譜,可以確定搜索任務對應的企業知識圖譜。可以基於不同歷史版本的知識圖譜,完成不同的搜索任務,例如可以在搜索前在系統中通過預先構建的數學模型,安排好多個企業知識圖譜對應的搜索任務,以此來提高效率。並且資料庫中記錄有利用各個歷史版本企業知識圖譜,對各類型企業信息進行企業搜索的處理歷史信息,處理歷史信息中包含各個歷史版本企業知識圖譜對於各類型企業信息完成相應的企業搜索的處理用時。
44.基於此,作為一種示例,在s110中,上述確定搜索任務對應的企業知識圖譜,具體可以包括:
45.預先構建n個版本的企業知識圖譜,在接收到n個搜索任務的情況下,按照預先構建的數學模型,確定n個搜索任務中各搜索任務對應的企業知識圖譜版本;
46.針對每個搜索任務,將其對應的企業知識圖譜版本的企業知識圖譜作為該搜索任務對應的企業知識圖譜;
47.其中,數學模型如下公式(1)、公式(2)和公式(3)所示:
[0048][0049][0050][0051]
其中,minz為目標函數,表示完成全部n個搜索任務所消耗的總資源數最小,x
ij
表示第i個版本的企業知識圖譜完成第j個搜索任務所消耗的資源數,c
ij
為常數項,s
·
t表示約束條件,其中,表示第i個版本的企業知識圖譜只負責一個搜索任務,表示第j個搜索任務只能由一個版本的企業知識圖譜負責,x
ij
=0或1表示x
ij
只能取0或1。
[0052]
另外,基於上述數學模型,例如可以採用矩陣覆蓋法求解或直接利用matlab程序進行0-1規劃求解法解決。其中,矩陣覆蓋法步驟可以包括:
[0053]
步驟1:求等價分配矩陣(每行每列減去最小的元素);
[0054]
步驟2:求獨立零元,並添加標記框(非同列同行的零);
[0055]
步驟3:最優判別為達到n個獨立零元時停止計算;
[0056]
步驟4:求覆蓋線:封鎖沒有添加標記框零元的行,封鎖後打鉤標記;在封鎖行中未添加標記框零元的列也封鎖,在封鎖列中有標記框零元的行也封鎖,未封鎖行與封鎖列畫上覆蓋線;
[0057]
步驟5:調節分配矩陣:在未覆蓋元中選取最小元k,未覆蓋行減去k,覆蓋列加上k,轉至步驟2。
[0058]
由此,在接收到多個搜索任務的情況下,可以通過預先構建的數學模型,在多個歷史版本企業知識圖譜中,確定出搜索任務對應的企業知識圖譜,大大提高了搜索效率。
[0059]
在一些實施例中,在構建企業知識圖譜後,為了提高搜索效率可以為各企業知識圖譜加入索引表,如此在s120中,可以先從索引表中確定搜索任務中包含的關鍵詞對應的檢索索引也即目標檢索索引。
[0060]
其中,索引表中包含的多條檢索索引,每條檢索索引均包含關鍵詞和關鍵詞索引的資料庫位置,資料庫與企業知識圖譜對應的資料庫,資料庫中存儲有企業數據。
[0061]
索引表中的檢索索引可以是倒排索引,倒排索引是一種數據結構,可以表示一種映射,例如以字、詞或數字為關鍵字進行索引,映射到出現這個字或詞的所有文檔或者資料庫文件。與企業知識圖譜對應的資料庫中存儲的企業數據,例如可以是與企業信息對應的企業數據。
[0062]
作為一種示例,企業知識圖譜的索引表中採用倒排索引,其中,倒排索引由term index(詞項索引)、term dictionary(詞典)和posting list(倒排表)三部分組成。如此,在企業知識圖譜的索引表中確定包含關鍵詞的目標檢索索引後,可以基於term index在term dictionary也就是與企業知識圖譜對應的資料庫中,確定關鍵詞索引的資料庫位置。其中,term index有很多種詞典結構,比如哈希表,b樹、b+、fst。
[0063]
在一些實施例中,在s130中,最短路徑可以是企業知識圖譜中各個節點之間的最短路徑,例如可以根據識別企業知識圖譜中節點之間的關係距離確定。其中,各個節點例如可以包括事件、地點、參與者等基本要素,可以由某個動作觸發或者狀態改變而發生的一個圖結構知識片段。由此,事件搜索模型可以基於最短路徑,從關鍵詞索引的資料庫位置中檢索與關鍵詞相關的數據。
[0064]
作為一種示例,為了通過事件搜索模型基於最短路徑檢索到與關鍵詞相關的數據,在上述s130之前,可以先構建事件搜索模型,構建事件搜索模型可以包括:
[0065]
對企業知識圖譜進行知識檢索,確定其中各節點之間的最短路徑;
[0066]
基於各節點之間的最短路徑和深度學習算法構建事件搜索模型。
[0067]
其中,深度學習算法例如可以包括但不限於以下幾種方式:
[0068]
神經網絡算法,神經網絡是一個具有相互連接的節點的計算系統,其節點的工作方式更像是人腦中的神經元。這些神經元在它們之間進行處理並傳遞信息。每個神經網絡都是一系列的算法,這些算法試圖通過一個模擬人類大腦運作的過程來識別一組數據中的潛在關係。
[0069]
反向傳播算法,是一種非常流行的用於訓練前饋神經網絡的監督學習算法。
[0070]
前饋神經網絡算法,通常是全連接,這意味著層中的每個神經元都與下一層中的所有其他神經元相連。
[0071]
卷積神經網絡算法,除了為機器人和自動駕駛汽車的視覺提供幫助外,還成功的應用於人臉識別,對象監測和交通標誌識別等領域。
[0072]
循環神經網絡算法,在許多nlp(natural language processing,自然語言處理)任務中都非常成功。在傳統的神經網絡中,可以理解所有輸入和輸出都是獨立的。
[0073]
遞歸神經網絡算法,是循環網絡的另一種形式,不同之處在於它們是樹形結構。因此,它們可以在訓練數據集中建模層次結構。
[0074]
自編碼器可在輸出處恢復輸入信號。它們內部有一個隱藏層。自編碼器設計為無法將輸入準確複製到輸出,但是為了使誤差最小化,網絡被迫學習選擇最重要的特徵。
[0075]
受限玻爾茲曼機算法,是一個隨機神經網絡(神經網絡,意味著我們有類似神經元的單元,其binary激活取決於它們所連接的相鄰單元。
[0076]
gan(generative adversarial networks,生成式對抗網絡)算法,正在成為一種流行的在線零售機器學習模型,因為它們能夠以越來越高的準確度理解和重建視覺內容。
[0077]
圖神經網絡算法,其目的是對圖數據進行建模,這意味著它們識別圖中節點之間的關係,並對其進行數值表示。它們以後可以在任何其他機器學習模型中用於各種任務,例如聚類,分類等。
[0078]
作為一種示例,以基於圖神經算法構建事件搜索模型為例,對企業知識圖譜進行知識檢索,然後可以採用圖神經網絡算法來對事件檢索最短路徑基於對應的圖數據進行建模,可以識別企業知識圖譜中節點之間的關係,並將其用數值進行表示。這裡的圖神經網絡通常由傳播模塊(propagationmodule)和輸出模塊(output module)兩個模塊組成。
[0079]
其中,傳播模塊用於企業知識圖譜中各節點之間傳遞信息並更新狀態;聚合器(aggregator)用於對於一個節點v,通過聚合其周圍節點的信息,基於如下公式(4)學習其潛在表示hv(state embedding)。updater用於基於如下公式(5)更新節點的state embedding。
[0080]hv
=f(xv,x
co[v]
,h
ne[v]
,x
ne[v]
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0081]ht+1
=f(h
t
,x)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0082]
其中,xv為節點v的特徵信息(features),x
co[v]
為其周圍邊的features,h
ne[v]
表示節點v周圍鄰居節點的state embedding,x
ne[v]
表示周圍節點的features。
[0083]
輸出模塊可以基於節點和邊的向量表示根據不同的任務定義目標函數,如下公式(6)所示。
[0084][0085]
在監督學習場景中,對於一個特定的節點,其監督信號表示為:tv,lossfunction定義為如下公式(7)所示。
[0086][0087]
由此,通過深度學習算法對企業知識圖譜中各個節點之間的最短路徑進行模型訓練,基於得到的事件搜索模型,提高了從關鍵詞索引的資料庫位置中檢索與關鍵詞相關的數據的效率。
[0088]
在一些實施例中,在輸出搜索結果之前,為了提高企業搜索的智能化和搜索效率,可以將企業數據以企業數據包的形式進行分裝,相應的,上述s140的具體實現方式可以包括:
[0089]
將檢索到的與關鍵詞相關的數據以企業數據包的形式進行封裝,獲得與關鍵詞相關的企業數據包;將與關鍵詞相關的企業數據包作為搜索任務對應的搜索結果進行輸出。
[0090]
每個企業數據包的內容不同,但都包含有若干個數據特徵值。企業數據包的表現形式為常規的表現形式,例如可以是表單類、流程類或統計類。如此,可以對企業數據包的特徵內容進行提取,數據特徵數值表示特徵內容在總內容中的佔比。
[0091]
基於此,將與關鍵詞相關的數據以企業數據包的形式進行輸出,用戶便可以獲取到與搜索任務對應的企業數據包。
[0092]
進一步的,如圖2所示,在一些實施例中,該企業搜索方法還可以包括:
[0093]
s210、獲取用戶對使用過的企業數據包的評分,評分指用戶對企業數據包的喜愛度分值;
[0094]
s220、基於評分,構建企業數據包的評分矩陣;
[0095]
s230、根據評分矩陣和與關鍵詞相關的企業數據包,確定推薦數據包,其中,與關鍵詞相關的企業數據包即為在s140分裝得到的企業數據包;
[0096]
s240、將推薦數據包也作為搜索任務對應的搜索結果進行輸出。
[0097]
其中,評分是用戶在在使用數據包後對企業數據包進行評分得到的,但用戶也可以不進行評分,因此在基於評分構建的企業數據包的評分矩陣時,評分情況是稀疏的。
[0098]
作為一種示例,由於存在評分矩陣稀疏的情況,因此需要在根據喜愛度確定推薦數據包之前,將稀疏的評分矩陣補全。評分矩陣r可以由兩個矩陣的乘積近似得到,如下公式(8)所示:
[0099]
r≈p
t
q(8)
[0100]
其中,評分矩陣r是m*n的,存在m個用戶和n個企業數據包,每個用戶不能同時使用所有企業數據包,僅對其中部分的企業數據包進行了評分;p是k*m維的,第i列向量當做用戶i的特徵pi,這個特徵pi是k維的;q是k*n維的,第j列向量當做企業數據包j的特徵qj,這個特徵qj也是k維的。
[0101]
例如,現有100個用戶和1000個企業數據包,用戶對使用過的企業數據包進行評分,從而形成用戶-企業數據包評分矩陣;為了區分不同的用戶和企業數據包,給定3種特徵內容,即k=3,分別為表單類、流程類和統計類;第1個用戶的特徵p1=[0.8,0.2,0.1]
t
,意思為用戶更偏愛表單類的內容,第2個企業數據包的特徵q2=[0.3,0.2,0.6]
t
,意思是這個企業數據包更偏向於統計類,所以第一個用戶使用完第二個企業數據包之後的評分,預測為1
1t
q2=0.34,得到一個綜合的喜愛程度。
[0102]
因此,要得到上述p和q,並使p
t
q接近r,存在如下公式(9)所示的損失函數minl。
[0103][0104]
進一步對上述損失函數minl進行求導可以得到如下公式(10)和公式(11)。
[0105][0106][0107]
其中,其中λ為正則化係數,需要調參,i為單位矩陣。可以得到更新策略滿足如下
公式(12)和公式(13)。
[0108][0109][0110]
其中,α表示學習率,最後通過上述迭代更新,得到p和q,從而得到近似的評分矩陣p
t
q,從而補全評分矩陣r。
[0111]
由此,可以根據補全的評分矩陣r確定推薦數據包,基於直接搜索得到的與關鍵詞相關的企業數據包的偏好類型,自動推薦同一偏愛類型的其他企業數據包作為推薦數據包,通過確定推薦數據包以便於實現高效智能的企業搜索能力。
[0112]
作為一種示例,為了更加智能和高效的進行企業搜索,上述s230具體可以包括:
[0113]
確定與關鍵詞相關的企業數據包的偏好類型;
[0114]
根據偏好類型,基於評分矩陣,選取偏好類型中評分滿足預設條件的企業數據包作為推薦數據包。
[0115]
作為一種示例,根據與關鍵詞相關的企業數據包的偏好類型後,可以根據偏好類型,基於評分矩陣選擇推薦數據包。其中,推薦數據包的確定方法可以是基於已補全的評分矩陣r,根據直接搜索得到的企業數據包的偏好類型,選擇該偏愛類型中評分最高的前五名進行推薦;或是基於已補全的評分矩陣r,根據直接搜索得到的企業數據包的偏好類型,選擇該偏好類型中評分最高的進行推薦,並選擇當前用戶喜愛程度最高,即用戶評分最高的進行推薦。
[0116]
由此,通過基於企業知識圖譜的企業搜索,實現不同的業務人員快速高效地進行企業搜索、搜索內容增添、歸類和智能搜索/推薦,使得企業搜索更加智能和高效。
[0117]
通常企業的信息、數據經常會更新,為了保證企業信息和數據更新後,企業知識圖譜仍可以繼續使用,會將更新的數據作為增添內容添加到企業知識圖譜中,以實現對企業知識圖譜的更新。
[0118]
為了在企業知識圖譜中增添內容,本技術還提供了企業搜索方法的另一種實施例。如圖3所示,該方法還可以包括:
[0119]
s310、在需要向企業知識圖譜中增添內容的情況下,對待增添內容進行歸類,確定待增添內容所屬的類別;
[0120]
s320、將待增添內容添加到企業知識圖譜中待增添內容所屬的類別中。
[0121]
在一些實施例中,待增添內容所屬類別例如可以根據待增添內容與各個分類信息點之間的距離來確定。以此,可以將待增添內容添加到企業知識圖譜中與待增添內容對應的所屬類別中。
[0122]
作為一種示例,上述企業知識圖譜包含多個類別內容,為了確定待增添內容所屬類別,上述s310具體可以包括:
[0123]
確定待添加內容與企業知識圖譜中各類別之間的距離;
[0124]
選取多個類別中,與待添加內容之間距離最短的類別作為待添加內容所屬的類別。
[0125]
作為一種示例,在需要為企業知識圖譜中不同類別內容進行增添內容時,可以根
據如下公式(14)為待增添內容進行歸類。
[0126][0127]
其中,di為待增添內容的點與各個類別的特徵信息點之間的距離,上述點表示二維坐標系中的帶有坐標的點,該二維坐標系由企業知識圖譜內全部類別的兩種特徵信息數據值作為橫縱坐標,待增添內容也包含這兩種特徵信息數據值,並且上述二維坐標系內預先顯示有各個類別的象徵型內容的坐標點。其中,x1表示待增添內容的點的橫坐標,yi表示待增添內容的點的縱坐標,x2表示各個類別的象徵型內容的坐標點的橫坐標,yi表示各個類別的象徵型內容的坐標點的縱坐標。
[0128]
為了提高歸類的準確性和比對距離之間的效率,可以引入如下公式(15)、公式(16)和公式(17)的調整函數s(di)。
[0129]ds
=s(di)*d
i (15)
[0130][0131]
f(di)=[di]*(1+(d
i-[di])) (17)
[0132]
其中,ds表示經由調整函數處理後的距離,dk表示拋棄數據的距離,可以由業務人員或管理者設定並調整,有利於預先去除距離較遠的歸類選擇;f(di)表示距離變換函數,用於按照權重和距離本身基數實現適應性增大,有利於顯現各個距離之間的差別;[di]表示對di進行取整。
[0133]
由此,可以將上述各個ds中的最小值對應的分類作為歸類目標,並將待增添內容歸類至對應象徵型內容的坐標點所屬的分類中,實現快速增添內容並自動歸類,提高系統的整理效率。
[0134]
需要說明的是,上述本技術實施例描述的應用場景是為了更加清楚的說明本技術實施例的技術方案,並不構成對於本技術實施例提供的技術方案的限定,本領域普通技術人員可知,隨著新應用場景的出現,本技術實施例提供的技術方案對於類似的技術問題,同樣適用。
[0135]
基於相同的發明構思,本技術還提供了一種企業搜索裝置。具體結合圖4進行詳細說明。
[0136]
圖4是本技術實施例提供的一種企業搜索裝置的結構示意圖。
[0137]
如圖4所示,該企業搜索裝置400可以包括:
[0138]
圖譜確定模塊401,用於確定搜索任務對應的企業知識圖譜,搜索任務中包含關鍵詞,企業知識圖譜基於企業信息預先構建;
[0139]
索引確定模塊402,用於從企業知識圖譜的索引表中確定包含關鍵詞的目標檢索索引,索引表中包含多條檢索索引,每條檢索索引均包含關鍵詞和關鍵詞索引的資料庫位置,資料庫與企業知識圖譜對應,資料庫中存儲有企業數據;
[0140]
數據搜索模塊403,用於將目標檢索索引輸入預先訓練好的事件搜索模型,以使事件搜索模型按照最短路徑從關鍵詞索引的資料庫位置中獲取與關鍵詞相關的數據;
[0141]
結果輸出模塊404,用於將檢索到的與關鍵詞相關的數據作為搜索任務對應的搜索結果進行輸出。
[0142]
在一些實施例中,上述圖譜確定模塊401,具體可以用於:
[0143]
預先構建n個版本的企業知識圖譜,在接收到n個搜索任務的情況下,按照預先構建的數學模型,確定n個搜索任務中各搜索任務對應的企業知識圖譜版本;
[0144]
針對每個搜索任務,將其對應的企業知識圖譜版本的企業知識圖譜作為搜索任務對應的企業知識圖譜;
[0145]
其中,數學模型如下所示:
[0146][0147][0148][0149]
式中,minz為目標函數,表示完成全部n個搜索任務所消耗的總資源數最小,x
ij
表示第i個版本的企業知識圖譜完成第j個搜索任務所消耗的資源數,c
ij
為常數項,s
·
t表示約束條件,其中,表示第i個版本的企業知識圖譜只負責一個搜索任務,表示第j個搜索任務只能由一個版本的企業知識圖譜負責,x
ij
=0或1表示x
ij
只能取0或1。
[0150]
在一些實施例中,為了通過事件搜索模型基於最短路徑檢索到與關鍵詞相關的數據,上述企業搜索裝置400,具體還可以包括:
[0151]
第一確定模塊,用於對企業知識圖譜進行知識檢索,確定其中各節點之間的最短路徑;
[0152]
訓練模塊,用於基於各節點之間的最短路徑和深度學習算法構建事件搜索模型。
[0153]
在一些實施例中,上述結果輸出模塊404,具體用於:
[0154]
將檢索到的與所述關鍵詞相關的數據以企業數據包的形式進行分裝,獲得與所述關鍵詞相關的企業數據包;
[0155]
將與所述關鍵詞相關的企業數據包作為所述搜索任務對應的搜索結果進行輸出。
[0156]
在一些實施例中,上述企業搜索裝置400,具體還可以包括:
[0157]
獲取模塊,用於獲取用戶對使用過的企業數據包的評分,評分指用戶對企業數據包的喜愛度分值;
[0158]
構建模塊,用於基於評分,構建企業數據包的評分矩陣;
[0159]
第二確定模塊,用於根據評分矩陣和與關鍵詞相關的企業數據包,確定推薦數據包;
[0160]
輸出模塊,用於將推薦數據包也作為搜索任務對應的搜索結果進行輸出。
[0161]
在一些實施例中,為了更加智能和高效的進行企業搜索,上述第二確定模塊具體可以包括:
[0162]
第一頁確定子模塊,用於確定與關鍵詞相關的企業數據包的偏好類型;
[0163]
第一選取子模塊,用於根據偏好類型,基於評分矩陣,選取偏好類型中評分滿足預設條件的企業數據包作為推薦數據包。
[0164]
在一些實施例中,上述企業搜索裝置400,具體還可以包括:
[0165]
第三確定模塊,用於在需要向企業知識圖譜中增添內容的情況下,對待增添內容進行歸類,確定待增添內容所屬的類別;
[0166]
添加模塊,用於將待增添內容添加到企業知識圖譜中待增添內容所屬的類別中。
[0167]
在一些實施例中,上述企業知識圖譜包含多個類別內容,為了確定待增添內容所屬類別,上述第三確定模塊具體可以包括:
[0168]
第二確定子模塊,用於確定待添加內容與企業知識圖譜中各類別之間的距離;
[0169]
第二選取子模塊,用於選取多個類別中,與待添加內容之間距離最短的類別作為待添加內容所屬的類別。
[0170]
由此,根據本技術實施例提供的中間件配置的優化方法,預先基於企業信息構建企業知識圖譜,在進行企業搜索時,確定搜索任務對應的企業知識圖譜,從企業知識圖譜的搜索表中確定包含搜索任務中關鍵詞的檢索索引,將檢索索引輸入事件搜索模型,以使事件搜索模型基於最短路徑,從企業知識圖譜對應的資料庫中檢索到關鍵詞對應的數據,並將檢索到的數據作為搜索結果進行輸出。根據本技術實施例,基於企業信息構建企業知識圖譜從而實現了企業信息的整理分類,而基於企業知識圖譜進行企業搜索可以提高企業搜索的時效性、準確性,從而提高企業搜索的效率,而基於檢索索引進行數據檢索,可以減少檢索範圍,提高檢索效率,通過事件搜索模型基於最短路徑進行檢索,可以進一步縮短檢索所需的時間,從而進一步提高搜索效率。
[0171]
圖5示出了本技術實施例提供一種的電子設備的硬體結構示意圖。
[0172]
在電子設備500可以包括處理器501以及存儲有電腦程式指令的存儲器502。
[0173]
具體地,上述處理器501可以包括中央處理器(cpu),或者特定集成電路(application specific integrated circuit,asic),或者可以被配置成實施本技術實施例的一個或多個集成電路。
[0174]
存儲器502可以包括用於數據或指令的大容量存儲器。舉例來說而非限制,存儲器502可包括硬碟驅動器(hard disk drive,hdd)、軟盤驅動器、快閃記憶體、光碟、磁光碟、磁帶或通用串行總線(universal serial bus,usb)驅動器或者兩個或更多個以上這些的組合。在合適的情況下,存儲器502可包括可移除或不可移除(或固定)的介質。在合適的情況下,存儲器502可在綜合網關容災設備的內部或外部。在特定實施例中,存儲器502是非易失性固態存儲器。存儲器502可包括只讀存儲器(rom),隨機存取存儲器(ram),磁碟存儲介質設備,光存儲介質設備,快閃記憶體設備,電氣、光學或其他物理/有形的存儲器存儲設備。因此,通常,存儲器502包括一個或多個編碼有包括計算機可執行指令的軟體的有形(非暫態)計算機可讀存儲介質(例如,存儲器設備),並且當該軟體被執行(例如,由一個或多個處理器)時,其可執行上述實施例中的任意一種企業搜索方法所描述的操作。
[0175]
處理器501通過讀取並執行存儲器502中存儲的電腦程式指令,以實現上述實施例中的任意一種企業搜索方法。
[0176]
在一個示例中,電子設備500還可包括通信接口505和總線510。其中,如圖5所示,處理器501、存儲器502、通信接口505通過總線510連接並完成相互間的通信。
[0177]
通信接口505,主要用於實現本技術實施例中各模塊、裝置、單元和/或設備之間的通信。
[0178]
總線510包括硬體、軟體或兩者,將在線數據流量計費設備的部件彼此耦接在一起。舉例來說而非限制,總線可包括加速圖形埠(agp)或其他圖形總線、增強工業標準架構(eisa)總線、前端總線(fsb)、超傳輸(ht)互連、工業標準架構(isa)總線、無限帶寬互連、低引腳數(lpc)總線、存儲器總線、微信道架構(mca)總線、外圍組件互連(pci)總線、pci-express(pci-x)總線、串行高級技術附件(sata)總線、視頻電子標準協會局部(vlb)總線或其他合適的總線或者兩個或更多個以上這些的組合。在合適的情況下,總線510可包括一個或多個總線。儘管本技術實施例描述和示出了特定的總線,但本技術考慮任何合適的總線或互連。
[0179]
示例性的,電子設備500可以為手機、平板電腦、筆記本電腦、掌上電腦、車載電子設備、超級移動個人計算機(ultra-mobile personal computer,umpc)、上網本或者個人數字助理(personal digital assistant,pda)等。
[0180]
該電子設備500可以執行本技術實施例中的企業搜索方法,從而實現結合圖1和圖4描述的企業搜索方法和裝置。
[0181]
另外,結合上述實施例中的企業搜索方法,本技術實施例可提供一種計算機存儲介質來實現。該計算機存儲介質上存儲有電腦程式指令;該電腦程式指令被處理器執行時實現上述實施例中的任意一種企業搜索方法。
[0182]
需要明確的是,本技術並不局限於上文所描述並在圖中示出的特定配置和處理。為了簡明起見,這裡省略了對已知方法的詳細描述。在上述實施例中,描述和示出了若干具體的步驟作為示例。但是,本技術的方法過程並不限於所描述和示出的具體步驟,本領域的技術人員可以在領會本技術的精神後,作出各種改變、修改和添加,或者改變步驟之間的順序。
[0183]
以上所述的結構框圖中所示的功能塊可以實現為硬體、軟體、固件或者它們的組合。當以硬體方式實現時,其可以例如是電子電路、專用集成電路(asic)、適當的固件、插件、功能卡等等。當以軟體方式實現時,本技術的元素是被用於執行所需任務的程序或者代碼段。程序或者代碼段可以存儲在機器可讀介質中,或者通過載波中攜帶的數據信號在傳輸介質或者通信鏈路上傳送。「機器可讀介質」可以包括能夠存儲或傳輸信息的任何介質。機器可讀介質的例子包括電子電路、半導體存儲器設備、rom、快閃記憶體、可擦除rom(erom)、軟盤、cd-rom、光碟、硬碟、光纖介質、射頻(rf)鏈路,等等。代碼段可以經由諸如網際網路、內聯網等的計算機網絡被下載。
[0184]
還需要說明的是,本技術中提及的示例性實施例,基於一系列的步驟或者裝置描述一些方法或系統。但是,本技術不局限於上述步驟的順序,也就是說,可以按照實施例中提及的順序執行步驟,也可以不同於實施例中的順序,或者若干步驟同時執行。
[0185]
上面參考根據本公開的實施例的方法、裝置(系統)和電腦程式產品的流程圖
和/或框圖描述了本公開的各方面。應當理解,流程圖和/或框圖中的每個方框以及流程圖和/或框圖中各方框的組合可以由電腦程式指令實現。這些電腦程式指令可被提供給通用計算機、專用計算機、或其它可編程數據處理裝置的處理器,以產生一種機器,使得經由計算機或其它可編程數據處理裝置的處理器執行的這些指令使能對流程圖和/或框圖的一個或多個方框中指定的功能/動作的實現。這種處理器可以是但不限於是通用處理器、專用處理器、特殊應用處理器或者現場可編程邏輯電路。還可理解,框圖和/或流程圖中的每個方框以及框圖和/或流程圖中的方框的組合,也可以由執行指定的功能或動作的專用硬體來實現,或可由專用硬體和計算機指令的組合來實現。
[0186]
以上所述,僅為本技術的具體實施方式,所屬領域的技術人員可以清楚地了解到,為了描述的方便和簡潔,上述描述的系統、模塊和單元的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。應理解,本技術的保護範圍並不局限於此,任何熟悉本技術領域的技術人員在本技術揭露的技術範圍內,可輕易想到各種等效的修改或替換,這些修改或替換都應涵蓋在本技術的保護範圍之內。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀