新四季網

一種文本數據的處理方法和裝置與流程

2023-04-25 08:07:21


本申請涉及文本處理
技術領域:
,特別是涉及一種文本數據的處理方法和一種文本數據的處理裝置。
背景技術:
:隨著科技的發展,計算機進行智能語音或文字應答的需求正變得越來越廣泛,陸續出現了許多智能聊天機器人。在語音或文字應答中,類比問題是比較常見的,如「小明和小紅是什麼關係」。目前,智能聊天機器人一般是基於rdf(resourcedescriptionframework,資源描述框架)推導出兩個實體之間的同類或類比關係,從而回答類比問題。基於rdf知識庫求兩實體之間的關係,需要預先構建完善的rdf知識庫。rdf知識庫的構建,一般需要通過挖掘關係模板、清洗百科類數據、關係抽取三步迭代進行,耗費大量的人力和物力,成本高,但是,覆蓋面不高,使得類比問題的回覆成功率低。例如,在某個抓取到的八卦新聞中,記載了「劉德華和成龍是好基友」,則在rdf知識庫中記錄劉德華、成龍、關係基友等信息。若接收到用戶發出的「劉德華和成龍是什麼關係」的問題,則在rdf知識庫中查找到關係是基友,則回答「基友」。若在先未抓取到該八卦新聞,則無法回復,可能回答「是什麼關係呢?」繞開問題。此外,基於rdf的回覆是問答式的,在聊天系統中,可能無法得出答案,有時候,缺少擬人、幽默的表達能力。技術實現要素:鑑於上述問題,提出了本申請實施例以便提供一種克服上述問題或者至少部分地解決上述問題的一種文本數據的處理方法和相應的一種文本數據的處理裝置。為了解決上述問題,本申請實施例公開了一種文本數據的處理方法,包括:獲取第一文本數據;判斷所述第一文本數據是否適於類比;若是,則從所述第一文本數據中提取第一實體詞;對所述第一實體詞進行類比,獲得第二實體詞;根據所述第二實體詞生成第二文本數據。優選地,所述判斷所述第一文本數據是否適於類比的步驟包括:對所述第一文本數據進行分詞處理,獲得多個第一文本分詞;將所述第一文本數據的多個第一文本分詞與預設的類比問題模板進行匹配;當匹配成功時,確定所述第一文本數據適於類比。優選地,所述對所述第一實體詞進行類比,獲得第二實體詞的步驟包括:當所述第一實體詞為一個時,查找與所述第一實體詞相似的一個或多個第一候選實體詞;從所述一個或多個第一候選實體詞中篩選實體詞類型與所述第一實體詞相同的一個或多個第二候選實體詞;從所述一個或多個第二候選實體詞中選擇一個或多個第二實體詞。優選地,所述查找與所述第一實體詞相似的一個或多個第一候選實體詞的步驟包括:查詢所述第一實體詞的第一詞向量以及一個或多個第一候選實體詞的一個或多個第二詞向量;基於所述第一詞向量與所述一個或多個第二詞向量計算一個或多個第一相似度;提取第一相似度最高的一個或多個第一候選實體詞,作為與所述第一實體詞相似的一個或多個第一候選實體詞。優選地,所述對所述第一實體詞進行類比,獲得第二實體詞的步驟包括:當所述第一實體詞包括第一子實體詞和第二子實體詞時,查找與所述第一子實體詞相似的一個或多個第三候選實體詞;從所述一個或多個第三候選實體詞中篩選實體詞類型與所述第一子實體詞相同的一個或多個第四候選實體詞;基於所述第一子實體詞、所述第二子實體詞和所述一個或多個第四候選實體詞計算一個或多個第五候選實體詞;從所述一個或多個第五候選實體詞中篩選實體詞類型與所述第二子實體詞相同的一個或多個第六候選實體詞;從所述一個或多個第四候選實體詞和所述一個或多個第六候選實體詞選取第二實體詞。優選地,所述查找與所述第一子實體詞相似的一個或多個第三候選實體詞的步驟包括:查詢所述第一子實體詞的第三詞向量以及一個或多個第三候選實體詞的一個或多個第四詞向量;基於所述第三詞向量與所述一個或多個第四詞向量計算一個或多個第二相似度;提取第二相似度最高的一個或多個第三候選實體詞,作為與所述第一子實體詞相似的一個或多個第三候選實體詞。優選地,所述基於所述第一子實體詞、所述第二子實體詞和所述一個或多個第四候選實體詞計算一個或多個第五候選實體詞的步驟包括:查詢所述第一子實體詞的第三詞向量、所述一個或多個第四候選實體詞的一個或多個第四詞向量、所述第二子實體詞的第五詞向量;在所述第三詞向量的基礎上,減去所述第五詞向量、加上所述第四詞向量,獲得第六詞向量;當某個實體詞的第七詞向量與所述第六詞向量最近時,確認所述實體詞 為第五候選實體詞。優選地,所述從所述一個或多個第四候選實體詞和所述一個或多個第六候選實體詞選取第二實體詞的步驟包括:基於所述第一子實體詞的第三詞向量與所述第四候選實體詞的第四詞向量計算第一距離;基於所述第七詞向量與所述第六候選實體詞的第六詞向量計算第二距離;採用所述第一距離和所述第二距離計算所述第四候選實體詞和所述第六候選實體詞的評分;選取評分最高的第四候選實體詞和第六候選實體詞作為第二實體詞。優選地,所述根據所述第二實體詞生成第二文本數據的步驟包括:查找與所述類比問題模板屬於同一關係類型的類比回答模板;將所述第二實體詞嵌入所述類比回答模板中,獲得第二文本數據。優選地,還包括:當接收到客戶端發送的第一語音數據時,將所述第一語音數據轉換為第一文本數據;將所述第二文本數據轉換為第二語音數據;將所述第二語音數據返回所述客戶端。本申請實施例還公開了一種文本數據的處理裝置,包括:第一文本數據獲取模塊,用於獲取第一文本數據;類比意圖判斷模塊,用於判斷所述第一文本數據是否適於類比;若是,則調用實體詞提取模塊;實體詞提取模塊,用於從所述第一文本數據中提取第一實體詞;實體詞類比模塊,用於對所述第一實體詞進行類比,獲得第二實體詞;第二文本數據生成模塊,用於根據所述第二實體詞生成第二文本數據。優選地,所述類比意圖判斷模塊包括:分詞子模塊,用於對所述第一文本數據進行分詞處理,獲得多個第一文 本分詞;類比問題模板匹配子模塊,用於將所述第一文本數據的多個第一文本分詞與預設的類比問題模板進行匹配;類比意圖確定子模塊,用於在匹配成功時,確定所述第一文本數據適於類比。優選地,所述實體詞類比模塊包括:第一候選實體詞查找子模塊,用於在所述第一實體詞為一個時,查找與所述第一實體詞相似的一個或多個第一候選實體詞;第二候選實體詞篩選子模塊,用於從所述一個或多個第一候選實體詞中篩選實體詞類型與所述第一實體詞相同的一個或多個第二候選實體詞;第二實體詞選擇子模塊,用於從所述一個或多個第二候選實體詞中選擇一個或多個第二實體詞。優選地,所述第一候選實體詞查找子模塊包括:第一向量查詢單元,用於查詢所述第一實體詞的第一詞向量以及一個或多個第一候選實體詞的一個或多個第二詞向量;第一相似度計算單元,用於基於所述第一詞向量與所述一個或多個第二詞向量計算一個或多個第一相似度;第一候選實體詞提取單元,用於提取第一相似度最高的一個或多個第一候選實體詞,作為與所述第一實體詞相似的一個或多個第一候選實體詞。優選地,所述實體詞類比模塊包括:第三候選實體詞查找子模塊,用於在所述第一實體詞包括第一子實體詞和第二子實體詞時,查找與所述第一子實體詞相似的一個或多個第三候選實體詞;第四候選實體詞篩選子模塊,用於從所述一個或多個第三候選實體詞中篩選實體詞類型與所述第一子實體詞相同的一個或多個第四候選實體詞;第五候選實體詞計算子模塊,用於基於所述第一子實體詞、所述第二子實體詞和所述一個或多個第四候選實體詞計算一個或多個第五候選實體詞;第六候選實體詞篩選子模塊,用於從所述一個或多個第五候選實體詞中 篩選實體詞類型與所述第二子實體詞相同的一個或多個第六候選實體詞;第二實體詞選取子模塊,用於從所述一個或多個第四候選實體詞和所述一個或多個第六候選實體詞選取第二實體詞。優選地,所述第三候選實體詞查找子模塊包括:第二詞向量查詢單元,用於查詢所述第一子實體詞的第三詞向量以及一個或多個第三候選實體詞的一個或多個第四詞向量;第二相似度計算單元,用於基於所述第三詞向量與所述一個或多個第四詞向量計算一個或多個第二相似度;第三候選實體詞提取單元,用於提取第二相似度最高的一個或多個第三候選實體詞,作為與所述第一子實體詞相似的一個或多個第三候選實體詞。優選地,所述第五候選實體詞計算子模塊包括:第三向量查詢單元,用於查詢所述第一子實體詞的第三詞向量、所述一個或多個第四候選實體詞的一個或多個第四詞向量、所述第二子實體詞的第五詞向量;向量計算單元,用於在所述第三詞向量的基礎上,減去所述第五詞向量、加上所述第四詞向量,獲得第六詞向量;第五候選實體詞確定單元,用於在某個實體詞的第七詞向量與所述第六詞向量最近時,確認所述實體詞為第五候選實體詞。優選地,所述第二實體詞選取子模塊包括:第一距離計算單元,用於基於所述第一子實體詞的第三詞向量與所述第四候選實體詞的第四詞向量計算第一距離;第二距離基於所述第七詞向量與所述第六候選實體詞的第六詞向量計算第二距離;評分計算單元,用於採用所述第一距離和所述第二距離計算所述第四候選實體詞和所述第六候選實體詞的評分;選取單元,用於選取評分最高的第四候選實體詞和第六候選實體詞作為第二實體詞。優選地,所述第二文本數據生成模塊包括:類比回答模板查找子模塊,用於查找與所述類比問題模板屬於同一關係類型的類比回答模板;類比回答模板嵌入子模塊,用於將所述第二實體詞嵌入所述類比回答模板中,獲得第二文本數據。優選地,還包括:文本轉換模塊,用於在接收到客戶端發送的第一語音數據時,將所述第一語音數據轉換為第一文本數據;語音轉換模塊,用於將所述第二文本數據轉換為第二語音數據;語音返回模塊,用於將所述第二語音數據返回所述客戶端。本申請實施例包括以下優點:本申請實施例在確認第一文本數據具有類比意圖時,對第一文本數據的第一實體詞進行類比,獲得第二實體詞,進而生成第二文本數據,在大量無標註文本中直接構建詞向量,實現了類比回答,無需構建知識庫,減少了人力和物理的耗費,降低了成本,不直接回復兩者的確切關係,採用類比方式回復,提高了覆蓋率,提高了類比問題的回覆成功率。附圖說明圖1是本申請的一種文本數據的處理方法實施例的步驟流程圖;圖2a和圖2b是本申請實施例的一種類比問題模板的示例圖;圖3是本申請實施例的一種cbow模型的結構圖;圖4是本申請的一種文本數據的處理裝置實施例的結構框圖。具體實施方式為使本申請的上述目的、特徵和優點能夠更加明顯易懂,下面結合附圖和具體實施方式對本申請作進一步詳細的說明。參照圖1,示出了本申請的一種文本數據的處理方法實施例的步驟流程圖,具體可以包括如下步驟:步驟101,獲取第一文本數據;需要說明的是,本申請實施例可以應用在聊天機器人、語音助手等人工智慧應用中。該人工智慧應用可以部署在終端本地,例如,手機、平板電腦、智能穿戴設備(如手環、手錶、眼鏡)等等,也可以部署在雲端或伺服器中,例如,分布式系統,本申請實施例對此不加以限制。若部署在雲端,可以直接接收客戶端發送的第一文本數據。或者,當接收到客戶端發送的第一語音數據時,可以對第一語音數據進行語音識別(automaticspeechrecognition,asr),將第一語音數據轉換為第一文本數據。在具體實現中,進行語音識別的語音識別系統通常由以下幾個基本模塊所構成:1、信號處理及特徵提取模塊;該模塊的主要任務是從語音數據中提取特徵,供聲學模型處理。同時,它一般也包括了一些信號處理技術,以儘可能降低環境噪聲、信道、說話人等因素對特徵造成的影響。2、聲學模型;語音識別系統多採用基於一階隱馬爾科夫模型進行建模。3、發音詞典;發音詞典包含語音識別系統所能處理的詞彙集及其發音。發音詞典實際提供了聲學模型與語言模型的映射。4、語言模型;語言模型對語音識別系統所針對的語言進行建模。理論上,包括正則語言,上下文無關文法在內的各種語言模型都可以作為語言模型,但目前各種系統普遍採用的還是基於統計的n元文法及其變體。5、解碼器;解碼器是語音識別系統的核心之一,其任務是對輸入的信號,根據聲學、語言模型及詞典,尋找能夠以最大概率輸出該信號的詞串。步驟102,判斷所述第一文本數據是否適於類比;若是,則執行步驟103;所謂類比,即把不同的兩個(兩類)對象進行比較,根據兩個(兩類)對象在一系列屬性上的相似,而且已知其中一個對象還具有其他的屬性,由此推出另一個對象也具有相似的其他屬性的結論。在本發明實施例中,第一文本數據可以為問題,如「檯燈的好朋友是誰」、「劉德華和成龍是什麼關係」,可以以類比進行回答。在本申請的一個實施例中,步驟102可以包括如下子步驟:子步驟s11,對所述第一文本數據進行分詞處理,獲得多個第一文本分詞;本申請實施例中,可以如下的一種或多種方式進行分詞處理:1、基於字符串匹配的分詞:是指按照一定的策略將待分析的漢字串與一個預置的機器詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。2、基於特徵掃描或標誌切分的分詞:是指優先在待分析字符串中識別和切分出一些帶有明顯特徵的詞,以這些詞作為斷點,可將原字符串分為較小的串再來進機械分詞,從而減少匹配的錯誤率;或者將分詞和詞類標註結合起來,利用豐富的詞類信息對分詞決策提供幫助,並且在標註過程中又反過來對分詞結果進行檢驗、調整,從而提高切分的準確率。3、基於理解的分詞:是指通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現象。它通常包括三個部分:分詞子系統、句法語義子系統、總控部分。在總控部分的協調下,分詞子系統可以獲得有關詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。4、基於統計的分詞方法:是指,中文信息中由於字與字相鄰共現的頻率或概率能夠較好的反映成詞的可信度,所以可以對語料中相鄰共現的各個字的組合的頻度進行統計,計算它們的互現信息,以及計算兩個漢字x、y的相鄰共現概率。互現信息可以體現漢字之間結合關係的緊密程度。當緊密程度高於某一個閾值時,便可認為此字組可能構成了一個詞。當然,上述分詞處理方式只是作為示例,在實施本申請實施例時, 可以根據實際情況設置其他分詞處理方式,本申請實施例對此不加以限制。另外,除了上述分詞處理方式外,本領域技術人員還可以根據實際需要採用其它分詞處理方式,本申請實施例對此也不加以限制。子步驟s12,將所述第一文本數據的多個第一文本分詞與預設的類比問題模板進行匹配;子步驟s13,當匹配成功時,確定所述第一文本數據適於類比。應用本申請實施例,可以針對一個或多個關係類型(即類比方式frame)設置了配對的類比問題模板及類比回答模板。在類比問題模板中,包括了適於類比的問題(文本)的基本結構。在類比回答模板中,具有對問題進行回答的基本結構,並保留了實體詞的位置。類比問題模板和類比回答模板以自定義的結構在文本中持久化存儲,在匹配的時候,加載到內存中。在具體實現中,可以利用上下文無關語法分析器(context-freegrammarparser,cfg)進行類比問題模板的匹配。若一個形式文法g=(n,σ,p,s)的產生式規則都取如下的形式:v->w,則稱之為上下文無關的,其中,v∈n,w∈(n∪σ)*。上下文無關語法取名為「上下文無關」的原因就是因為字符v總可以被字串w自由替換,而無需考慮字符v出現的上下文。一個形式語言是上下文無關的,如果它是由上下文無關文法生成的(條目上下文無關語言)。若分詞之後的第一文本分詞與預設的類比問題模板匹配,則可以認為第一文本數據適於類比。以靜物關係作為關係類型的示例,,在如圖2a所示的類比問題模板中,arg1表示實體詞,具有問題的基本結構「的」、「好」、「朋友/基友」、「是」、「誰」。對於「檯燈的好朋友是誰」,分詞之後可以獲得「檯燈」、「的」、「好朋友」、「是」、「誰」,與圖2a所示的類比問題模板匹配,可以認為具有類比意 圖。以八卦關係作為關係類型的示例,如圖2b所示的類比問題模板中,arg1和arg2表示實體詞,具有問題的基本結構「和/與」、「是」、「什麼」、「關係」。對於「劉德華和成龍是什麼關係」,分詞之後可以獲得「劉德華」、「和」、「成龍」、「是」、「什麼」、「關係」,與圖2b所示的類比問題模板匹配,可以認為具有類比意圖。步驟103,從所述第一文本數據中提取第一實體詞;實體詞,可以對應一個具體的個體。需要說明的是,第一實體詞、第二實體詞、第一子實體詞、第二子實體詞、第一候選實體詞、第二候選實體詞、第三候選實體詞、第四候選實體詞、第五候選實體詞、第六候選實體詞是相對於不同的處理狀態而言的,其本質均為實體詞。在明星類別中,實體詞可以為劉德華,張栢芝,林青霞等。此外,實體詞也可以包含一些寬泛的代表類別的個體,比如人,電影明星,歌手等。例如,對於「檯燈的好朋友是誰」而言,實體詞為「檯燈」。又例如,對於「劉德華和成龍是什麼關係」而言,實體詞為「劉德華」、「成龍」。步驟104,對所述第一實體詞進行類比,獲得第二實體詞;在本申請實施例中,通過實體詞的某些屬性,從而推導出屬性相似的其他實體詞,如從第一實體詞推導出相似的第二實體詞。在具體實現中,可以預先抓取數據訓練word2vec(wordtovector)模型,通過word2vec模型對所述第一實體詞進行類比,獲得第二實體詞。其中,word2vec模型是一個將訓練數據中的單詞轉換成向量形式的工具,可以將單詞轉換為200維的詞向量,該單詞(包括實體詞)可以存儲在hash(哈希)表中。通過轉換,可以把對文本內容的處理簡化為向量空間中的向量運算,計算出向量空間上的相似度,來表示文本語義上的相似度。訓練的數據可以通過爬蟲spider抓取網頁,進行數據清洗之後,得到乾淨的標題和正文內容。在實際應用中,數據可以包括兩個部分:1、網絡數據;基本是穩定數據,我們用了積累下來(所有的百科數據和1年左右其他有詳情頁的網頁數據)的數據,正文數據;2、新聞數據;維持一個近半年的窗口,每日更新,可以是包括標題和正文的所有新聞數據。這部分數據主要是為了處理世界上動態變化的「關係」,如人與人之間的朋友、夫妻關係等,因此,訓練word2vec模型時需要能反應與時俱進的新聞語料。採用word2vec的cbow(continuousbag-of-wordmodel)模型,如圖3所示,cbow模型由輸入層(input)、映射層(projection)和輸出層(output)構成,利用w(t)的前(n=4)個詞和後(n=4)個詞預測當前詞w(t)的向量表示,該方式能夠使得語義相同或模式相同的詞的向量表示的距離更近。在本申請的一個實施例中,步驟104可以包括如下子步驟:子步驟s21,當所述第一實體詞為一個時,查找與所述第一實體詞相似的一個或多個第一候選實體詞;在具體實現中,對於問題只有一個實體詞的情形,可以查詢第一實體詞的第一詞向量以及一個或多個第一候選實體詞的一個或多個第二詞向量;基於第一詞向量與一個或多個第二詞向量計算一個或多個第一相似度;提取第一相似度最高的一個或多個第一候選實體詞,作為與第一實體詞相似的一個或多個第一候選實體詞。具體而言,word2vec可以通過distance工具根據轉換後的向量計算出餘弦距離(cosinedistance),來表示向量(詞語)的相似度。例如,輸入「france」,distance工具會計算並顯示與「france」距離最相近的詞,示例如下:wordcosinedistancespain0.678515belgium0.665923netherlands0.652428italy0.633130switzerland0.622323luxembourg0.610033portugal0.577154russia0.571507germany0.563291catalonia0.534176子步驟s22,從所述一個或多個第一候選實體詞中篩選實體詞類型與所述第一實體詞相同的一個或多個第二候選實體詞;在本申請實施例中,為針對問題進行類比的回答,一般問題中實體詞的類型與回答中實體詞的類型保持一致。例如,對於「檯燈」,實體詞類型相同的實體詞有「牆貼」、「led燈」、「電視櫃」等等。子步驟s23,從所述一個或多個第二候選實體詞中選擇一個或多個第二實體詞。在具體實現中,可以從基於實體詞類型篩選之後的實體詞中選擇一個或多個第二實體詞進行回答。在本申請的另一個實施例中,步驟104可以包括如下子步驟:子步驟s31,當所述第一實體詞包括第一子實體詞和第二子實體詞時,查找與所述第一子實體詞相似的一個或多個第三候選實體詞;對於問題有多個第一實體詞的情形,如兩個,為便於對第一實體詞進行表達,在本申請實施例中,可以按照實體詞的順序,以第一子實體詞、第二子實體詞等替換第一實體詞進行表達。例如,對於「劉德華和成龍是什麼關係」而言,第一子實體詞為「劉德 華」,第二子實體詞為「成龍」。具體實現中,在word2vec模型中,可以查詢第一子實體詞的第三詞向量以及一個或多個第三候選實體詞的一個或多個第四詞向量;基於所述第三詞向量與一個或多個第四詞向量,通過餘弦相似度等方式計算一個或多個第二相似度;提取第二相似度最高的一個或多個第三候選實體詞,作為與第一子實體詞相似的一個或多個第三候選實體詞。反之,第二相似度較低的第三候選實體詞被篩選掉。例如,對於「劉德華和成龍是什麼關係」而言,可以計算與第一子實體詞「劉德華」相似的n(n為正整數)個第三候選實體詞,如,「黃日華」、「苗僑偉」、「王力宏」、「失孤」、「冰雨」,再從這n個第三候選實體詞中提取最相似的一個或多個第三候選實體詞,如,「苗僑偉」、「黃日華」、「王力宏」、「冰雨」,而篩選掉「失孤」。子步驟s32,從所述一個或多個第三候選實體詞中篩選實體詞類型與所述第一子實體詞相同的一個或多個第四候選實體詞;在本申請實施例中,為針對問題進行類比的回答,一般問題中實體詞的類型與回答中實體詞的類型保持一致。為便於表示基於實體詞類型篩選的狀態,從第三候選實體詞中篩選出來的實體詞可以稱之為第四候選實體詞。例如,對於「劉德華」,實體詞類型為明星,因此,可以從「苗僑偉」、「黃日華」、「王力宏」、「冰雨」中篩選掉實體詞類型為歌曲的「冰雨」,保留實體詞類型同樣為明星的「苗僑偉」、「黃日華」、「王力宏」。子步驟s33,基於所述第一子實體詞、所述第二子實體詞和所述一個或多個第四候選實體詞計算一個或多個第五候選實體詞;在具體實現中,可以d=a-b+c的方式計算實體詞,其中,a為第一子實體詞、b為第二子實體詞、c為第四候選實體詞,d為第五候選實體詞。具體而言,可以查詢第一子實體詞的第三詞向量、一個或多個第四候選實體詞的一個或多個第四詞向量、第二子實體詞的第五詞向量。在第三詞向量的基礎上,減去第五詞向量、加上第四詞向量,獲得第六詞向量。當某個實體詞的第七詞向量與所述第六詞向量最近時,確認該實體詞為第五候選實體詞。例如,若第一子實體詞為「劉德華」、第二子實體詞為「成龍」,第四候選實體詞為「苗僑偉」、「黃日華」、「王力宏」。在一種情況下,可以在「劉德華」的第三詞向量的基礎上,減去「成龍」的第五詞向量、加上「苗僑偉」的第四詞向量,得到一個第六詞向量,若「無線」的第七向量與該六詞向量最近,則可以確認「無線」為第五候選實體詞。在另一種情況下,可以在「劉德華」的第三詞向量的基礎上,減去「成龍」的第五詞向量、加上「黃日華」的第四詞向量,得到一個第六詞向量,若「梁朝偉」的第七向量與該六詞向量最近,則可以確認「梁朝偉」為第五候選實體詞。在另一種情況下,可以在「劉德華」的第三詞向量的基礎上,減去「成龍」的第五詞向量、加上「王力宏」的第四詞向量,得到一個第六詞向量,若「周杰倫」的第七向量與該六詞向量最近,則可以確認「周杰倫」為第五候選實體詞。子步驟s34,從所述一個或多個第五候選實體詞中篩選實體詞類型與所述第二子實體詞相同的一個或多個第六候選實體詞;在本申請實施例中,為針對問題進行類比的回答,一般問題中實體詞的類型與回答中實體詞的類型保持一致。例如,對於「成龍」,實體詞類型為明星,因此,可以從「無線」、「梁朝偉」、「王力宏」、「周杰倫」中篩選掉實體詞類型為公司的「無線」,保留實體詞類型同樣為明星的「梁朝偉」、「周杰倫」。需要說明的是,由於第四候選實體詞與第五候選實體詞是相互關聯的,因此,當第五候選實體詞篩選出來之後,相對應的第四候選實體詞也會篩選出來。例如,由於「無線」被篩選掉,因此,「無線」所關聯的「苗僑偉」也 被篩選掉,即剩餘「黃日華」、「王力宏」。子步驟s35,從所述一個或多個第四候選實體詞和所述一個或多個第六候選實體詞選取第二實體詞。在本申請實施例中,可以通過如下公式選取第二實體詞:其中,a、b為第一實體詞,c、d為第二實體詞,score(c,d)為c和d的評分,ci為第i個第四候選實體詞,dj為第j個第六候選實體詞,λ為常數。具體而言,可以基於第一子實體詞的第三詞向量與第四候選實體詞的第四詞向量計算第一距離;基於第七詞向量與第六候選實體詞的第六詞向量計算第二距離,其中,第六詞向量為在第三詞向量的基礎上,減去第五詞向量、加上第四詞向量獲得的詞向量;採用第一距離和所述第二距離計算所述第四候選實體詞和第六候選實體詞的評分;選取評分最高的第四候選實體詞和第六候選實體詞作為第二實體詞,即為便於對第二實體詞進行表達,在本申請實施例中,可以按照實體詞的順序,以第四候選實體詞、第六候選實體詞等替換第二實體詞進行表達。例如,若採用上述公式,代入「劉德華」、「成龍」、「黃日華」、「梁朝偉」計算到的評分為0.85,代入「劉德華」、「成龍」、「王力宏」、「周杰倫」計算到的評分為0.93,由於0.93>0.85,則可以確定「王力宏」、「周杰倫」為第二實體詞。步驟105,根據所述第二實體詞生成第二文本數據。在本申請實施例中,查找與類比問題模板屬於同一關係類型的類比回答模板。將所述第二實體詞嵌入類比回答模板中,獲得第二文本數據。需要說明的是,由於類比回答模板較多,因此,可以採用類似key-set的方式存儲,其中,key是關係類型,即類比方式frame,如 八卦關係、靜物關係等,set是一組回答模板。當key命中的時候,從對應的set中選擇一個回答模板,選擇的策略可以是隨機,可以是依據概率給出,當然也不限於依據實體類型來給出不同的回答模板。例如,對於如圖2a所示的類比問題模板,可以應用如下類比回答模板:1、a的好朋友應該是b吧。2、我覺得a的好朋友是b吧。3、a的好朋友是b那一類的。4、a和b應該可以愉快的做朋友。其中,a為第一實體詞、b為第二實體詞。對於「檯燈的好朋友是誰」,套用第3個模板,回答可以為「檯燈的好朋友是牆貼、led燈、電視櫃那一類的」。又例如,對於圖2b所示的類比問題模板,可以應用如下類比回答模板:1、他倆關係多複雜啊,就和c跟d的關係差不多吧。2、就像c和d,你懂的。3、其實他們的關係,就跟c和d的關係是一樣一樣的。4、說到這個,我覺得很像c和d的關係。5、如果把他們比作c和d,你覺得是不是挺恰當的?6、a和b的關係就好比c和d的關係。7、a和b類似於c和d。8、a和b就像c和d。9、a和b的關係感覺就好像c和d的關係。10、a和b的關係讓我想到了c和d的關係。其中,a、b為第一實體詞,c、d為第二實體詞。對於「劉德華和成龍是什麼關係」,套用第6個模板,回答可以為「劉德華和成龍的關係就好比王力宏和周杰倫的關係」。若在先接收的是客戶端發送的第一文本數據,則可以直接將第二文本數據返回客戶端展示。若在先接收的是客戶端發送的第一語音數據,則可以將第二文本數據轉換為第二語音數據,將第二語音數據返回所述客戶端進行播放,或者,將第二文本數據返回客戶端展示,或者,同時將第二語音數據返回所述客戶端進行播放及將第二文本數據返回客戶端展示。本申請實施例在確認第一文本數據具有類比意圖時,對第一文本數據的第一實體詞進行類比,獲得第二實體詞,進而生成第二文本數據,在大量無標註文本中直接構建詞向量,實現了類比回答,無需構建知識庫,減少了人力和物理的耗費,降低了成本,不直接回復兩者的確切關係,採用類比方式回復,提高了覆蓋率,提高了類比問題的回覆成功率。需要說明的是,對於方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本申請實施例並不受所描述的動作順序的限制,因為依據本申請實施例,某些步驟可以採用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬於優選實施例,所涉及的動作並不一定是本申請實施例所必須的。參照圖4,示出了本申請的一種文本數據的處理裝置實施例的結構框圖,具體可以包括如下模塊:第一文本數據獲取模塊401,用於獲取第一文本數據;類比意圖判斷模塊402,用於判斷所述第一文本數據是否適於類比;若是,則調用實體詞提取模塊403;實體詞提取模塊403,用於從所述第一文本數據中提取第一實體詞;實體詞類比模塊404,用於對所述第一實體詞進行類比,獲得第二實體詞;第二文本數據生成模塊405,用於根據所述第二實體詞生成第二文本數據。在本申請的一種實施例中,所述類比意圖判斷模塊402可以包括如下子模塊:分詞子模塊,用於對所述第一文本數據進行分詞處理,獲得多個第一文本分詞;類比問題模板匹配子模塊,用於將所述第一文本數據的多個第一文本分詞與預設的類比問題模板進行匹配;類比意圖確定子模塊,用於在匹配成功時,確定所述第一文本數據適於類比。在本申請的一種實施例中,所述實體詞類比模塊403可以包括如下子模塊:第一候選實體詞查找子模塊,用於在所述第一實體詞為一個時,查找與所述第一實體詞相似的一個或多個第一候選實體詞;第二候選實體詞篩選子模塊,用於從所述一個或多個第一候選實體詞中篩選實體詞類型與所述第一實體詞相同的一個或多個第二候選實體詞;第二實體詞選擇子模塊,用於從所述一個或多個第二候選實體詞中選擇一個或多個第二實體詞。在本申請的一種實施例中,所述第一候選實體詞查找子模塊可以包括如下單元:第一向量查詢單元,用於查詢所述第一實體詞的第一詞向量以及一個或多個第一候選實體詞的一個或多個第二詞向量;第一相似度計算單元,用於基於所述第一詞向量與所述一個或多個第二詞向量計算一個或多個第一相似度;第一候選實體詞提取單元,用於提取第一相似度最高的一個或多個第一候選實體詞,作為與所述第一實體詞相似的一個或多個第一候選實體詞。在本申請的一種實施例中,所述實體詞類比模塊403可以包括如下子模塊:第三候選實體詞查找子模塊,用於在所述第一實體詞包括第一子實體詞和第二子實體詞時,查找與所述第一子實體詞相似的一個或多個第三候選實體詞;第四候選實體詞篩選子模塊,用於從所述一個或多個第三候選實體詞中 篩選實體詞類型與所述第一子實體詞相同的一個或多個第四候選實體詞;第五候選實體詞計算子模塊,用於基於所述第一子實體詞、所述第二子實體詞和所述一個或多個第四候選實體詞計算一個或多個第五候選實體詞;第六候選實體詞篩選子模塊,用於從所述一個或多個第五候選實體詞中篩選實體詞類型與所述第二子實體詞相同的一個或多個第六候選實體詞;第二實體詞選取子模塊,用於從所述一個或多個第四候選實體詞和所述一個或多個第六候選實體詞選取第二實體詞。在本申請的一種實施例中,所述第三候選實體詞查找子模塊可以包括如下單元:第二詞向量查詢單元,用於查詢所述第一子實體詞的第三詞向量以及一個或多個第三候選實體詞的一個或多個第四詞向量;第二相似度計算單元,用於基於所述第三詞向量與所述一個或多個第四詞向量計算一個或多個第二相似度;第三候選實體詞提取單元,用於提取第二相似度最高的一個或多個第三候選實體詞,作為與所述第一子實體詞相似的一個或多個第三候選實體詞。在本申請的一種實施例中,所述第五候選實體詞計算子模塊可以包括如下單元:第三向量查詢單元,用於查詢所述第一子實體詞的第三詞向量、所述一個或多個第四候選實體詞的一個或多個第四詞向量、所述第二子實體詞的第五詞向量;向量計算單元,用於在所述第三詞向量的基礎上,減去所述第五詞向量、加上所述第四詞向量,獲得第六詞向量;第五候選實體詞確定單元,用於在某個實體詞的第七詞向量與所述第六詞向量最近時,確認所述實體詞為第五候選實體詞。在本申請的一種實施例中,所述第二實體詞選取子模塊可以包括如下單元:第一距離計算單元,用於基於所述第一子實體詞的第三詞向量與所述第四候選實體詞的第四詞向量計算第一距離;第二距離基於所述第七詞向量與所述第六候選實體詞的第六詞向量計算第二距離;評分計算單元,用於採用所述第一距離和所述第二距離計算所述第四候選實體詞和所述第六候選實體詞的評分;選取單元,用於選取評分最高的第四候選實體詞和第六候選實體詞作為第二實體詞。在本申請的一種實施例中,所述第二文本數據生成模塊404可以包括如下子模塊:類比回答模板查找子模塊,用於查找與所述類比問題模板屬於同一關係類型的類比回答模板;類比回答模板嵌入子模塊,用於將所述第二實體詞嵌入所述類比回答模板中,獲得第二文本數據。在本申請的一種實施例中,該裝置還可以包括如下模塊:文本轉換模塊,用於在接收到客戶端發送的第一語音數據時,將所述第一語音數據轉換為第一文本數據;語音轉換模塊,用於將所述第二文本數據轉換為第二語音數據;語音返回模塊,用於將所述第二語音數據返回所述客戶端。對於裝置實施例而言,由於其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。本說明書中的各個實施例均採用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。本領域內的技術人員應明白,本申請實施例的實施例可提供為方法、裝置、或電腦程式產品。因此,本申請實施例可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且,本申請實施例可採用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限於磁碟存儲器、cd-rom、光學存儲器等)上實施的計算機程 序產品的形式。在一個典型的配置中,所述計算機設備包括一個或多個處理器(cpu)、輸入/輸出接口、網絡接口和內存。內存可能包括計算機可讀介質中的非永久性存儲器,隨機存取存儲器(ram)和/或非易失性內存等形式,如只讀存儲器(rom)或快閃記憶體(flashram)。內存是計算機可讀介質的示例。計算機可讀介質包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現信息存儲。信息可以是計算機可讀指令、數據結構、程序的模塊或其他數據。計算機的存儲介質的例子包括,但不限於相變內存(pram)、靜態隨機存取存儲器(sram)、動態隨機存取存儲器(dram)、其他類型的隨機存取存儲器(ram)、只讀存儲器(rom)、電可擦除可編程只讀存儲器(eeprom)、快閃記憶體或其他內存技術、只讀光碟只讀存儲器(cd-rom)、數字多功能光碟(dvd)或其他光學存儲、磁盒式磁帶,磁帶磁磁碟存儲或其他磁性存儲設備或任何其他非傳輸介質,可用於存儲可以被計算設備訪問的信息。按照本文中的界定,計算機可讀介質不包括非持續性的電腦可讀媒體(transitorymedia),如調製的數據信號和載波。本申請實施例是參照根據本申請實施例的方法、終端設備(系統)、和電腦程式產品的流程圖和/或方框圖來描述的。應理解可由電腦程式指令實現流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些電腦程式指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數據處理終端設備的處理器以產生一個機器,使得通過計算機或其他可編程數據處理終端設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。這些電腦程式指令也可存儲在能引導計算機或其他可編程數據處理終端設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產生包括指令裝置的製造品,該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。這些電腦程式指令也可裝載到計算機或其他可編程數據處理終端設備上,使得在計算機或其他可編程終端設備上執行一系列操作步驟以產生計算機實現的處理,從而在計算機或其他可編程終端設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。儘管已描述了本申請實施例的優選實施例,但本領域內的技術人員一旦得知了基本創造性概念,則可對這些實施例做出另外的變更和修改。所以,所附權利要求意欲解釋為包括優選實施例以及落入本申請實施例範圍的所有變更和修改。最後,還需要說明的是,在本文中,諸如第一和第二等之類的關係術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關係或者順序。而且,術語「包括」、「包含」或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者終端設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者終端設備所固有的要素。在沒有更多限制的情況下,由語句「包括一個……」限定的要素,並不排除在包括所述要素的過程、方法、物品或者終端設備中還存在另外的相同要素。以上對本申請所提供的一種文本數據的處理方法和一種文本數據的處理裝置,進行了詳細介紹,本文中應用了具體個例對本申請的原理及實施方式進行了闡述,以上實施例的說明只是用於幫助理解本申請的方法及其核心思想;同時,對於本領域的一般技術人員,依據本申請的思想,在具體實施方式及應用範圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本申請的限制。當前第1頁12

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀