一種文稿推薦方法、裝置、設備及介質與流程
2023-11-05 08:00:14 2
1.本發明涉及自然語言處理技術領域,尤其涉及一種文稿推薦方法、裝置、設備及介質。
背景技術:
2.文稿推薦指的是根據用戶的寫稿需求,自動生成與用戶的寫稿需求匹配的文稿,並將自動生成的文稿反饋給用戶,以供用戶進行選擇使用。
3.現有的自動生成推薦文稿的方法一般為模板式生成方法、抽取式生成方法以及自動生成方法。其中,模板式生成方法是確定文稿的框架內容以及部分構成,通過限定每一部分內容範圍和取值,進而生成推薦文稿,且模板式生成方法一般應用於相對固定的場景內容;抽取式生成方法是從海量的已有文稿中進行信息抽取並進行二次創作,形成文本摘要,一般應用在新聞領域;自動生成方法一般用於模仿某個人或某個場景的內容寫作,通過收集大量目標文本進行學習後形成固定特徵,然後自動生成比較接近於目標文件的文本。
4.但是,模板式生成方法僅限於生成固定場景的文本時使用,對於新場景難以快速生成文稿,若文稿需求較為緊急,可能會影響稿件發布的時效性;抽取式自動寫稿方法需要進行海量文稿學習,對於相對缺乏文本樣本領域的文稿需求無法形成有效輸出,對於新出現、新形成的場景也缺乏素材而無法有效輸出;自動生成方法更多依賴於個人寫作風格以及目標文件的樣本收集,寫作風格比較單一,且自動生成方法目前不夠成熟,輸出不夠穩定。
技術實現要素:
5.本發明提供了一種文稿推薦方法、裝置、設備及介質,能夠自動生成與用戶輸入的搜索文本匹配的推薦文稿,且能夠提高推薦文稿結構的多樣性。
6.根據本發明的一方面,提供了一種文稿推薦方法,包括:
7.將用戶上傳的多個採集文本進行規範化處理,生成多個規範文本,並根據規範文本生成文本資料庫;
8.將預先訓練的語言表徵模型以及詞頻-逆頻率模型進行拼接,獲取拼接後的融合模型,並根據融合模型獲取各規範文本的特徵向量;
9.獲取用戶輸入的搜索文本,根據搜索文本以及各規範文本的特徵向量,在文本資料庫中獲取多個與搜索文本相似的候選文本,並利用候選文本組成候選文本集合;
10.根據預設的文本組合方式,在候選文本集合中篩選出至少一組目標文本,並根據目標文本生成至少一篇推薦文稿。
11.根據本發明的另一方面,提供了一種文稿推薦裝置,包括:
12.文本資料庫生成模塊,用於將用戶上傳的多個採集文本進行規範化處理,生成多個規範文本,並根據規範文本生成文本資料庫;
13.特徵向量生成模塊,用於將預先訓練的語言表徵模型以及詞頻-逆頻率模型進行
拼接,獲取拼接後的融合模型,並根據融合模型獲取各規範文本的特徵向量;
14.候選文本集合生成模塊,用於獲取用戶輸入的搜索文本,根據搜索文本以及各規範文本的特徵向量,在文本資料庫中獲取多個與搜索文本相似的候選文本,並利用候選文本組成候選文本集合;
15.推薦文稿生成模塊,用於根據預設的文本組合方式,在候選文本集合中篩選出至少一組目標文本,並根據目標文本生成至少一篇推薦文稿。
16.根據本發明的另一方面,提供了一種電子設備,所述電子設備包括:
17.至少一個處理器;以及
18.與所述至少一個處理器通信連接的存儲器;其中,
19.所述存儲器存儲有可被所述至少一個處理器執行的電腦程式,所述電腦程式被所述至少一個處理器執行,以使所述至少一個處理器能夠執行本發明任一實施例所述的文稿推薦方法。
20.根據本發明的另一方面,提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機指令,所述計算機指令用於使處理器執行時實現本發明任一實施例所述的文稿推薦方法。
21.本發明實施例的技術方案,通過將預先訓練的語言表徵模型以及詞頻-逆頻率模型進行拼接生成融合模型,根據融合模型獲取預先生成的資料庫中各規範文本的特徵向量,結合用戶輸入的搜索文本與各規範文本的特徵向量篩選多個候選文本,並組合成推薦文稿的方式,能夠自動生成與用戶輸入的搜索文本匹配的推薦文稿,有效提高推薦文稿結構的多樣性,為用戶提供多篇推薦文稿以供選擇,增加用戶使用體驗感。
22.應當理解,本部分所描述的內容並非旨在標識本發明的實施例的關鍵或重要特徵,也不用於限制本發明的範圍。本發明的其它特徵將通過以下的說明書而變得容易理解。
附圖說明
23.為了更清楚地說明本發明實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
24.圖1是根據本發明實施例一提供的一種文稿推薦方法的流程圖;
25.圖2是根據本發明實施例二提供的另一種文稿推薦方法的流程圖;
26.圖3是根據本發明實施例三提供的一種文稿推薦裝置的結構示意圖;
27.圖4是實現本發明實施例的文稿推薦方法的電子設備的結構示意圖。
具體實施方式
28.為了使本技術領域的人員更好地理解本發明方案,下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分的實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都應當屬於本發明保護的範圍。
29.需要說明的是,本發明的說明書和權利要求書及上述附圖中的術語「第一」、「第二」等是用於區別類似的對象,而不必用於描述特定的順序或先後次序。應該理解這樣使用的數據在適當情況下可以互換,以便這裡描述的本發明的實施例能夠以除了在這裡圖示或描述的那些以外的順序實施。此外,術語「包括」和「具有」以及他們的任何變形,意圖在於覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統、產品或設備不必限於清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或對於這些過程、方法、產品或設備固有的其它步驟或單元。
30.實施例一
31.圖1為本發明實施例一提供的一種文稿推薦方法的流程圖,本實施例可適用於根據融合模型獲取資料庫中各規範文本的特徵向量,結合用戶輸入的搜索文本與各規範文本的特徵向量篩選多個候選文本,並組合成推薦文稿的情況,該方法可以由文稿推薦裝置來執行,該文稿推薦裝置可以採用硬體和/或軟體的形式實現,該文稿推薦裝置可配置於具備數據處理功能的文稿推薦系統中,且所述文稿推薦系統可具備多個處理器,如用於建立資料庫的處理器、用戶獲取候選文本的處理器以及用於生成推薦文稿的處理器等(可選擇利用多個處理器組成文稿推薦系統,也可選擇利用具備綜合功能的處理器組成文稿推薦系統)。如圖1所示,該方法包括:
32.s110、將用戶上傳的多個採集文本進行規範化處理,生成多個規範文本,並根據規範文本生成文本資料庫。
33.可選的,用戶上傳的採集文本可以為與該文稿推薦系統的推薦類別匹配的採集文本,例如,若文稿推薦系統的推薦類別為公文類,則採集文本的類別可以包括工作簡報、工作總結、工作方案、述職報告、調研報告、會議紀要、會議講話等類別,此處僅為舉例說明,不對文稿系統的推薦類別以及採集文本的類別進行限定。
34.這樣設置的目的在於:能夠在生成資料庫的同時儘量減少後續的計算量,例如,對於公文類的文稿推薦系統,則不存儲小說類的採集文本,因為小說類的採集文本無法應用於生成公文類的推薦文稿,這樣設置不僅能夠減少計算量,也能夠減少上傳採集文本的工作量。
35.需要說明的是,本步驟中上傳採集文本的用戶可以為文稿推薦系統的維護人員,也可以為註冊用戶,與步驟s130中輸入搜索文本的用戶可不為同一類人員,在此處將兩個用戶進行區分。
36.進一步的,在對用戶上傳的採集文本進行規範化處理之前,還需要說明的是,用戶上傳的文件可以為多形式的文件,例如圖片格式、文本文檔格式或pdf(可攜式文檔格式)等,在獲取到用戶上傳的文件之後,可以通過文字識別處理技術提取各上傳文件中的文字內容,將各種形式的上傳文件均轉化為文本格式的採集文本並進行規範化處理。
37.可選的,規範化處理內容可以包括去除錯誤信息(例如標點符號、錯誤文本、空格、漏行以及無用信息等)、去除停用詞(例如語氣詞、無用詞等)以及過濾敏感詞彙等操作,進行規範化處理操作的目的在於獲取能夠直接使用的、無錯誤的規範文本,便於提高後續生成推薦文本的效率。
38.s120、將預先訓練的語言表徵模型以及詞頻-逆頻率模型進行拼接,獲取拼接後的融合模型,並根據融合模型獲取各規範文本的特徵向量。
39.可以理解的是,最終獲取的各規範文本的特徵向量中可包括規範文本的詞向量、文本向量、位置向量以及類型向量。由於目前沒有能夠直接獲取規範文本的特徵向量的模型,因此發明人考慮到通過對語言表徵模型以及詞頻-逆頻率模型進行拼接的方式,以獲取規範文本的特徵向量。其中,通過將各規範文本輸入至語言表徵模型的方式,可以獲取各規範文本的詞向量、文本向量、位置向量,通過將各規範文本輸入至詞頻-逆頻率模型的方式,可以獲取各規範文本的類型向量。
40.具體的,在將各規範文本輸入至語言表徵模型之前,還需要對規範文本進行分詞處理。例如,規範文本為「秋水共長天一色」,則分詞劃分結果可以為「秋水/共/長天/一色」,分詞結果中的「秋水」、「共」、「長天」、「一色」為四個可選的分詞。
41.在一個具體的例子中,對於內容為「秋水共長天一色」的規範文本s,可以有s={si 1,si2,si3,si4},其中,si1為一個詞向量,si1下記錄的「秋水」為文本向量,si 1中同時記錄了「秋水」的位置,「秋水」為該規範文本中的第一個分詞。
42.進一步的,可以用bij表示規範文本j通過語言表徵模型輸出的語言表徵向量(包括詞向量、文本向量以及位置向量),bij=(ω,η,μ),ω為規範文本j的詞向量,η為規範文本j的文本向量,μ為規範文本j的位置向量。
43.這樣設置的好處在於:通過增加規範文本的向量維度,能夠更精準的對各規範文本進行詞句以及類別定位,能夠便於後續在海量的規範文本中提取與用戶輸入的搜索文本匹配度較高的多個規範文本。
44.續前例,可以用tij表示規範文本j通過詞頻-逆頻率模型輸出的類型向量,可以用lij表示規範文本j根據融合模型生成的特徵向量,lij表示規範文本j根據融合模型生成的特徵向量,t為為規範文本j的類型向量。
45.在本發明所述的實施例中,生成規範文本j的特徵向量lij的方法是,將上述語言表徵模型以及詞頻-逆頻率模型進行拼接,獲取拼接後的融合模型,將規範文本輸入至融合模型中,可直接獲取規範文本的特徵向量。
46.s130、獲取用戶輸入的搜索文本,根據搜索文本以及各規範文本的特徵向量,在文本資料庫中獲取多個與搜索文本相似的候選文本,並利用候選文本組成候選文本集合。
47.可以理解的是,可以通過計算搜索文本與各規範文本之間的相似度的方式,來判斷規範文本是否為搜索文本的相似文本。若要計算用戶輸入的搜索文本與資料庫中各規範文本之間的相似度,則需要獲取搜索文本的特徵向量,並保證搜索文本的特徵向量與規範文本的特徵向量處於同一維度。因此,可以將用戶輸入的搜索文本也輸入至上述融合模型中,以獲取搜索文本的特徵向量。
48.可選的,可以預先設置一個相似度閾值,若規範文本j與搜索文本之間的相似度大於預設的相似度閾值,則將該規範文本文本j劃分為候選文本,並在所有規範文本中篩選出全部候選文本,並組成候選文本集合。
49.可以理解的是,用戶輸入搜索文本q中的任意分詞可用qij表示,對於任意分詞qij在候選文本集合中存在多個與其匹配的候選段落,由此可根據候選段落與分詞的匹配關係,生成多個候選段落子集,每個候選段落子集中的各候選段落都與搜索文本中的其中一個分詞具有較高相似度。
50.s140、根據預設的文本組合方式,在候選文本集合中篩選出至少一組目標文本,並
根據目標文本生成至少一篇推薦文稿。
51.在一個具體的文本組合的例子中,若分詞qi1的候選段落子集為{d11,d12,
…
,d1m},分詞qi2的候選段落子集為{d21,d22,
…
,d2m},分詞qi3的候選段落子集為{d31,d32,
…
,d3m},則可選的文本組合方式有:拼接{d11,d21,d31}、{d12,d22,d32}、
……
、{d1m,d2m,d3m},以生成m篇推薦文稿,這種拼接方式為一種可選的規律拼接方式;拼接{d12,d21,
…
,d3m}生成一篇推薦文稿,並以此為例進行隨機選擇拼接,以生成一定數量的推薦文稿。上述例子均為可選的文本組合方式,僅為了理解本發明實施例的技術方案,並不對此進行具體限制。
52.本發明實施例的技術方案,通過將預先訓練的語言表徵模型以及詞頻-逆頻率模型進行拼接生成融合模型,根據融合模型獲取預先生成的資料庫中各規範文本的特徵向量,結合用戶輸入的搜索文本與各規範文本的特徵向量篩選多個候選文本,並組合成推薦文稿的方式,能夠自動生成與用戶輸入的搜索文本匹配的推薦文稿,有效提高推薦文稿結構的多樣性,為用戶提供多篇推薦文稿以供選擇,增加用戶使用體驗感。
53.實施例二
54.圖2為本發明實施例二提供的另一種文稿推薦方法的流程圖,本實施例在上述實施例的基礎上,具體說明了文稿推薦方法。如圖2所示,該方法包括:
55.s210、獲取用戶上傳的多個採集文本,並按照預設的規範化處理方式對各採集文本進行規範化處理,以生成多個規範文本。
56.s220、根據預設的文本分類規則,獲取各規範文本對應的至少一種文本類型。
57.可選的,文本分類規則可根據文稿推薦系統的使用主體、以及二級分類主體進行劃分。在一個以生成公文類推薦文稿為主的文稿推薦系統中,使用主體可以包括公司的各個部門(如辦公室、人力資源部、國際部等),二級分類主體可以包括規範文本的各個應用領域或業務場景(如工作簡報、工作總結、工作方案、述職報告、調研報告、會議紀要、會議講話等應用領域,或金融、投資、產業、政策研究、科技、創新、信息、生產技術、標準、市場營銷等業務領域),此處對文本分類規則進行舉例說明,並不對具體的分類規則內容進行限制。
58.s230、將文本類型相同的各規範文本劃分至同一子資料庫,並根據各子資料庫構建所述文本資料庫。
59.可以理解的是,可在文本資料庫中構建與文本分類規則匹配的多個子資料庫,並按照各規範文本的分類結果,將規範文本存儲於各子資料庫中,同一篇規範文本可根據具體的劃分結果存儲於多個子資料庫中。
60.s240、獲取預先訓練的語言表徵模型以及詞頻-逆頻率模型。
61.其中,詞頻-逆頻率模型t
ij
為:tf表示模型輸入文本中各分詞在模型輸入文本中的詞頻,idf表示模型輸入文本中個分詞在模型輸入文本中的逆頻率,k表示模型輸入文本所屬的文本類型總數,kj表示與模型輸入文本中各分詞相匹配的文本類型總數。
62.這樣設置的好處在於:區別於現有的詞頻-逆頻率模型,本發明在現有詞頻-逆頻率模型的基礎上,增加了與文本類型相關的公式,這樣能夠精準獲取各文本類型在規範文本中的權重。
63.s250、將語言表徵模型以及詞頻-逆頻率模型進行拼接,生成融合模型。
64.s260、將文本資料庫中各規範文本進行分詞處理,以獲取組成各規範文本的多個分詞。
65.s270、將組成各規範文本的多個分詞分別輸入至融合模型,獲取融合模型輸出的各規範文本的特徵向量。
66.s280、獲取用戶輸入的搜索文本,並對搜索文本進行分詞處理,以獲取組成搜索文本的多個分詞。
67.s290、將分詞結果輸入至所述融合模型,以獲取搜索文本的特徵向量。
68.其中,搜索文本的特徵向量包括詞向量、文本向量、位置向量以及類型向量;
69.s2100、利用搜索文本的特徵向量以及各規範文本的特徵向量,計算得到搜索文本與各規範文本之間的相似度。
70.續前例,搜索文本的特徵向量可以用q表示,規範文本j的特徵向量可以用lij表示,則可通過公式計算搜索文本與各規範文本j之間的相似度。
71.s2110、在各規範文本中,獲取與搜索文本之間的相似度超過預設的相似度閾值的多個候選文本,並利用所述候選文本組成候選文本集合。
72.s2120、在候選文本集合中獲取與搜索文本的各分詞分別匹配的多個候選段落,並生成與搜索文本的各分詞分別匹配的候選段落子集。
73.其中,在候選文本集合中獲取與搜索文本的各分詞分別匹配的多個候選段落,並生成與搜索文本的各分詞分別匹配的候選段落子集,可以具體包括:
74.在候選文本集合中獲取與第一分詞匹配的多個第一候選段落,並分別計算各第一候選段落之間的段落相似度;
75.判斷是否存在大於預設的段落相似閾值的段落相似度;
76.若是,則在第一候選段落中獲取多個第二候選段落,並將各第二候選段落進行拼接,以生成拼接候選段落;
77.其中,各第二候選段落之間的段落相似度大於預設的段落相似閾值;
78.根據各第一候選段落與拼接候選段落,生成與第一分詞匹配的候選段落子集。
79.具體的,第一候選段落可以指在候選文本集合中與第一分詞匹配的各候選段落,第二候選段落為第一候選段落中的部分指定段落,各第二候選段落之間的相似度均大於預設的段落相似閾值。
80.可選的,對於候選文本集合d中兩個與分詞qij匹配的候選文本dm與dn,dm與dn的相似度e(qij)可通過如下公式計算:
[0081][0082]
若e(qij)大於預設的段落相似閾值,則判斷dm與dn相似度較高,將dm與dn進行拼接,以生成一個拼接候選段落。
[0083]
這樣設置的好處在於:通過將候選文本集合中相似的候選段落組成拼接候選段落的方式,能夠預先將相似度較高但比較零散的段落進行拼接,不僅豐富了此類段落的內容,
且能夠有效減少後續生成推薦文稿的計算量。
[0084]
s2130、根據預設的文本組合方式,在各候選段落子集中分別篩選出目標候選段落,並將各目標候選段落組合成一組目標文本。
[0085]
s2140、根據各分詞在搜索文本中的位置關係,將目標文本中各目標候選段落進行拼接,以生成一篇推薦文稿。
[0086]
s2150、獲取用戶選擇的文稿模板,並識別文稿模板中的目標填充區域。
[0087]
可選的,文稿模板可以包括年度工作總結、實踐活動簡報以及專項治理工作方案等模板,在文稿模板中一般可預先配置好各文稿模板的固定文本(如時間格式、開頭敬語、結尾結束語等),並將需要填寫具體正文內容的部分作為目標填充區域。
[0088]
s2160、獲取用戶選擇的目標推薦文稿,並將目標推薦文稿填充至文稿模板中的目標填充區域,以生成規範文稿。
[0089]
其中,目標推薦文稿為用戶在多篇推薦文稿中選擇的,需要填充至文稿模板中的推薦文稿。
[0090]
本發明實施例的技術方案,通過將候選文本集合中相似的候選段落組成拼接候選段落的方式,能夠預先將相似度較高但比較零散的段落進行拼接,不僅豐富了此類段落的內容,且能夠有效減少後續生成推薦文稿的計算量,通過利用目標推薦文稿對文稿模板進行填充的方式,能夠根據用戶需求快速生成規範文稿。
[0091]
實施例三
[0092]
圖3為本發明實施例三提供的一種文稿推薦裝置的結構示意圖。如圖3所示,該裝置包括:文本資料庫生成模塊310、特徵向量生成模塊320、候選文本集合生成模塊330以及推薦文稿生成模塊340。
[0093]
文本資料庫生成模塊310,用於將用戶上傳的多個採集文本進行規範化處理,生成多個規範文本,並根據規範文本生成文本資料庫。
[0094]
特徵向量生成模塊320,用於將預先訓練的語言表徵模型以及詞頻-逆頻率模型進行拼接,獲取拼接後的融合模型,並根據融合模型獲取各規範文本的特徵向量。
[0095]
候選文本集合生成模塊330,用於獲取用戶輸入的搜索文本,根據搜索文本以及各規範文本的特徵向量,在文本資料庫中獲取多個與搜索文本相似的候選文本,並利用候選文本組成候選文本集合。
[0096]
推薦文稿生成模塊340,用於根據預設的文本組合方式,在候選文本集合中篩選出至少一組目標文本,並根據目標文本生成至少一篇推薦文稿。
[0097]
本發明實施例的技術方案,通過將預先訓練的語言表徵模型以及詞頻-逆頻率模型進行拼接生成融合模型,根據融合模型獲取預先生成的資料庫中各規範文本的特徵向量,結合用戶輸入的搜索文本與各規範文本的特徵向量篩選多個候選文本,並組合成推薦文稿的方式,能夠自動生成與用戶輸入的搜索文本匹配的推薦文稿,有效提高推薦文稿結構的多樣性,為用戶提供多篇推薦文稿以供選擇,增加用戶使用體驗感。
[0098]
在上述各實施例的基礎上,文本資料庫生成模塊310,可以具體用於:
[0099]
獲取用戶上傳的多個採集文本,並按照預設的規範化處理方式對各採集文本進行規範化處理,以生成多個規範文本;
[0100]
根據預設的文本分類規則,獲取各規範文本對應的至少一種文本類型;
[0101]
將文本類型相同的各規範文本劃分至同一子資料庫,並根據各子資料庫構建文本資料庫。
[0102]
在上述各實施例的基礎上,特徵向量生成模型320,可以具體用於:
[0103]
獲取預先訓練的語言表徵模型以及詞頻-逆頻率模型;
[0104]
其中,詞頻-逆頻率模型t
ij
為:tf表示模型輸入文本中各分詞在模型輸入文本中的詞頻,idf表示模型輸入文本中個分詞在模型輸入文本中的逆頻率,k表示模型輸入文本所屬的文本類型總數,kj表示與模型輸入文本中各分詞相匹配的文本類型總數;
[0105]
將語言表徵模型以及詞頻-逆頻率模型進行拼接,生成融合模型;
[0106]
將文本資料庫中各規範文本進行分詞處理,以獲取組成各規範文本的多個分詞;
[0107]
將組成各規範文本的多個分詞分別輸入至融合模型,獲取融合模型輸出的各規範文本的特徵向量。
[0108]
在上述各實施例的基礎上,候選文本集合生成模塊330,可以具體用於:
[0109]
獲取用戶輸入的搜索文本,並對搜索文本進行分詞處理,以獲取組成搜索文本的多個分詞;
[0110]
將所述分詞結果輸入至所述融合模型,以獲取搜索文本的特徵向量;
[0111]
其中,搜索文本的特徵向量包括詞向量、文本向量、位置向量以及類型向量;
[0112]
利用搜索文本的特徵向量以及各規範文本的特徵向量,計算得到搜索文本與各規範文本之間的相似度;
[0113]
在各規範文本中,獲取與搜索文本之間的相似度超過預設的相似度閾值的多個候選文本,並利用所述候選文本組成候選文本集合。
[0114]
在上述各實施例的基礎上,推薦文稿生成模塊340,可以包括:
[0115]
候選段落子集生成單元,用於在候選文本集合中獲取與搜索文本的各分詞分別匹配的多個候選段落,並生成與搜索文本的各分詞分別匹配的候選段落子集;
[0116]
目標文本組合單元,用於根據預設的文本組合方式,在各候選段落子集中分別篩選出目標候選段落,並將各目標候選段落組合成一組目標文本;
[0117]
候選段落拼接單元,用於根據各分詞在搜索文本中的位置關係,將目標文本中各目標候選段落進行拼接,以生成一篇推薦文稿。
[0118]
在上述各實施例的基礎上,候選段落子集生成單元,可以具體用於:
[0119]
在候選文本集合中獲取與第一分詞匹配的多個第一候選段落,並分別計算各第一候選段落之間的段落相似度;
[0120]
判斷是否存在大於預設的段落相似閾值的段落相似度;
[0121]
若是,則在第一候選段落中獲取多個第二候選段落,並將各第二候選段落進行拼接,以生成拼接候選段落;
[0122]
其中,各第二候選段落之間的段落相似度大於預設的段落相似閾值;
[0123]
根據各第一候選段落與拼接候選段落,生成與第一分詞匹配的候選段落子集。
[0124]
在上述各實施例的基礎上,還可以包括規範文稿生成模塊,具體用於:
[0125]
獲取用戶選擇的文稿模板,並識別文稿模板中的目標填充區域;
[0126]
獲取用戶選擇的目標推薦文稿,並將目標推薦文稿填充至文稿模板中的目標填充區域,以生成規範文稿。
[0127]
本發明實施例所提供的文稿推薦裝置可執行本發明任意實施例所提供的文稿推薦方法,具備執行方法相應的功能模塊和有益效果。
[0128]
實施例四
[0129]
圖4示出了可以用來實施本發明的實施例的電子設備10的結構示意圖。電子設備旨在表示各種形式的數字計算機,諸如,膝上型計算機、臺式計算機、工作檯、個人數字助理、伺服器、刀片式伺服器、大型計算機、和其它適合的計算機。電子設備還可以表示各種形式的移動裝置,諸如,個人數字處理、蜂窩電話、智慧型電話、可穿戴設備(如頭盔、眼鏡、手錶等)和其它類似的計算裝置。本文所示的部件、它們的連接和關係、以及它們的功能僅僅作為示例,並且不意在限制本文中描述的和/或者要求的本發明的實現。
[0130]
如圖4所示,電子設備40包括至少一個處理器41,以及與至少一個處理器41通信連接的存儲器,如只讀存儲器(rom)42、隨機訪問存儲器(ram)43等,其中,存儲器存儲有可被至少一個處理器執行的電腦程式,處理器41可以根據存儲在只讀存儲器(rom)42中的電腦程式或者從存儲單元48加載到隨機訪問存儲器(ram)43中的電腦程式,來執行各種適當的動作和處理。在ram 43中,還可存儲電子設備40操作所需的各種程序和數據。處理器41、rom 42以及ram 43通過總線44彼此相連。輸入/輸出(i/o)接口45也連接至總線44。
[0131]
電子設備40中的多個部件連接至i/o接口45,包括:輸入單元46,例如鍵盤、滑鼠等;輸出單元47,例如各種類型的顯示器、揚聲器等;存儲單元48,例如磁碟、光碟等;以及通信單元49,例如網卡、數據機、無線通信收發機等。通信單元49允許電子設備40通過諸如網際網路的計算機網絡和/或各種電信網絡與其他設備交換信息/數據。
[0132]
處理器41可以是各種具有處理和計算能力的通用和/或專用處理組件。處理器41的一些示例包括但不限於中央處理單元(cpu)、圖形處理單元(gpu)、各種專用的人工智慧(ai)計算晶片、各種運行機器學習模型算法的處理器、數位訊號處理器(dsp)、以及任何適當的處理器、控制器、微控制器等。處理器41執行上文所描述的各個方法和處理,例如如本發明實施例所述的文稿推薦方法。也即:
[0133]
將用戶上傳的多個採集文本進行規範化處理,生成多個規範文本,並根據規範文本生成文本資料庫;
[0134]
將預先訓練的語言表徵模型以及詞頻-逆頻率模型進行拼接,獲取拼接後的融合模型,並根據融合模型獲取各規範文本的特徵向量;
[0135]
獲取用戶輸入的搜索文本,根據搜索文本以及各規範文本的特徵向量,在文本資料庫中獲取多個與搜索文本相似的候選文本,並利用候選文本組成候選文本集合;
[0136]
根據預設的文本組合方式,在候選文本集合中篩選出至少一組目標文本,並根據目標文本生成至少一篇推薦文稿。
[0137]
在一些實施例中,文稿推薦方法可被實現為電腦程式,其被有形地包含於計算機可讀存儲介質,例如存儲單元48。在一些實施例中,電腦程式的部分或者全部可以經由rom 42和/或通信單元49而被載入和/或安裝到電子設備40上。當電腦程式加載到ram 43並由處理器41執行時,可以執行上文描述的文稿推薦方法的一個或多個步驟。備選地,在其他實施例中,處理器41可以通過其他任何適當的方式(例如,藉助於固件)而被配置為執行
文稿推薦方法。
[0138]
本文中以上描述的系統和技術的各種實施方式可以在數字電子電路系統、集成電路系統、場可編程門陣列(fpga)、專用集成電路(asic)、專用標準產品(assp)、晶片上系統的系統(soc)、負載可編程邏輯設備(cpld)、計算機硬體、固件、軟體、和/或它們的組合中實現。這些各種實施方式可以包括:實施在一個或者多個電腦程式中,該一個或者多個電腦程式可在包括至少一個可編程處理器的可編程系統上執行和/或解釋,該可編程處理器可以是專用或者通用可編程處理器,可以從存儲系統、至少一個輸入裝置、和至少一個輸出裝置接收數據和指令,並且將數據和指令傳輸至該存儲系統、該至少一個輸入裝置、和該至少一個輸出裝置。
[0139]
用於實施本發明的方法的電腦程式可以採用一個或多個程式語言的任何組合來編寫。這些電腦程式可以提供給通用計算機、專用計算機或其他可編程數據處理裝置的處理器,使得電腦程式當由處理器執行時使流程圖和/或框圖中所規定的功能/操作被實施。電腦程式可以完全在機器上執行、部分地在機器上執行,作為獨立軟體包部分地在機器上執行且部分地在遠程機器上執行或完全在遠程機器或伺服器上執行。
[0140]
在本發明的上下文中,計算機可讀存儲介質可以是有形的介質,其可以包含或存儲以供指令執行系統、裝置或設備使用或與指令執行系統、裝置或設備結合地使用的電腦程式。計算機可讀存儲介質可以包括但不限於電子的、磁性的、光學的、電磁的、紅外的、或半導體系統、裝置或設備,或者上述內容的任何合適組合。備選地,計算機可讀存儲介質可以是機器可讀信號介質。機器可讀存儲介質的更具體示例會包括基於一個或多個線的電氣連接、可攜式計算機盤、硬碟、隨機存取存儲器(ram)、只讀存儲器(rom)、可擦除可編程只讀存儲器(eprom或快閃記憶體)、光纖、便捷式緊湊盤只讀存儲器(cd-rom)、光學儲存設備、磁儲存設備、或上述內容的任何合適組合。
[0141]
為了提供與用戶的交互,可以在電子設備上實施此處描述的系統和技術,該電子設備具有:用於向用戶顯示信息的顯示裝置(例如,crt(陰極射線管)或者lcd(液晶顯示器)監視器);以及鍵盤和指向裝置(例如,滑鼠或者軌跡球),用戶可以通過該鍵盤和該指向裝置來將輸入提供給電子設備。其它種類的裝置還可以用於提供與用戶的交互;例如,提供給用戶的反饋可以是任何形式的傳感反饋(例如,視覺反饋、聽覺反饋、或者觸覺反饋);並且可以用任何形式(包括聲輸入、語音輸入或者、觸覺輸入)來接收來自用戶的輸入。
[0142]
可以將此處描述的系統和技術實施在包括後臺部件的計算系統(例如,作為數據伺服器)、或者包括中間件部件的計算系統(例如,應用伺服器)、或者包括前端部件的計算系統(例如,具有圖形用戶界面或者網絡瀏覽器的用戶計算機,用戶可以通過該圖形用戶界面或者該網絡瀏覽器來與此處描述的系統和技術的實施方式交互)、或者包括這種後臺部件、中間件部件、或者前端部件的任何組合的計算系統中。可以通過任何形式或者介質的數字數據通信(例如,通信網絡)來將系統的部件相互連接。通信網絡的示例包括:區域網(lan)、廣域網(wan)、區塊鏈網絡和網際網路。
[0143]
計算系統可以包括客戶端和伺服器。客戶端和伺服器一般遠離彼此並且通常通過通信網絡進行交互。通過在相應的計算機上運行並且彼此具有客戶端-伺服器關係的電腦程式來產生客戶端和伺服器的關係。伺服器可以是雲伺服器,又稱為雲計算伺服器或雲主機,是雲計算服務體系中的一項主機產品,以解決了傳統物理主機與vps服務中,存在的
管理難度大,業務擴展性弱的缺陷。
[0144]
應該理解,可以使用上面所示的各種形式的流程,重新排序、增加或刪除步驟。例如,本發明中記載的各步驟可以並行地執行也可以順序地執行也可以不同的次序執行,只要能夠實現本發明的技術方案所期望的結果,本文在此不進行限制。
[0145]
上述具體實施方式,並不構成對本發明保護範圍的限制。本領域技術人員應該明白的是,根據設計要求和其他因素,可以進行各種修改、組合、子組合和替代。任何在本發明的精神和原則之內所作的修改、等同替換和改進等,均應包含在本發明保護範圍之內。