一種創建共享語料庫的方法與流程
2023-05-30 18:03:06
本發明涉及通信
技術領域:
,具體涉及一種創建共享語料庫的方法。
背景技術:
:日常會話中,會話回復內容往往可以共享。例如企業員工與客戶開展商務會話的場景中,銷售經理張三針對意向客戶詢價報價的回覆句,可以共享給銷售經理李四乃至其他同事,故可以基於一個或多個通訊方的個人會話語料創建共享語料庫。現有創建共享語料庫,主要是通過人工創建的。人工創建共享語料庫的工作量大,且建庫質量普遍不高。針對該問題,本實施例提出了一種創建共享語料庫的方法。技術實現要素:本發明提供了一種創建共享語料庫的方法,以解決人工創建共享語料庫的工作量大,且建庫質量普遍不高的技術問題。本發明提供的創建共享語料庫的方法,包括:建立與通訊方對應的個人語料庫,其中,通訊方的數目大於一;將多個通訊方的個人語料庫進行合併,獲得共享語料庫。進一步地,建立與通訊方對應的個人語料庫包括:採集通訊方的會話內容;獲取會話內容中的會話對;根據預設的場景標籤,採集獲得會話對與場景標籤對應的場景標籤值;將會話對、場景標籤以及與場景標籤對應的場景標籤值進行匹配組合,從而生成與通訊方對應的個人語料庫。進一步地,獲取會話內容中的會話對包括:根據會話內容中會話句的語義,確定會話內容中的發起句和回複句;根據預設的類型判斷規則,確定發起句和回複句的類型;根據發起句以及發起句與下一條發起句之間的回覆句提取基礎會話對;根據基礎會話對、基礎會話對中發起句和回複句的類型,提取至少一個會話對。進一步地,根據會話內容中會話句的語義,確定會話內容中的發起句和回複句包括:判斷會話內容中的會話句在預設時間區間內是否有通訊對方發送的上文,若無,則將會話句確定為發起句;若有,則判斷會話句是否與通訊對方發送的上文無語義關聯,若是,則將會話句確定為發起句,否則將會話句確定為回複句。進一步地,根據預設的類型判斷規則,確定發起句的類型包括:判斷發起句是否為具有完整獨立語義的語句,若是,則判斷發起句是否由多個具有完整獨立語義的單句組成,若是,則將發起句的類型確定為複句發起句類型,否則為單句發起句類型;若否,則判斷發起句是否包含具有完整獨立語義的單句,若包含,則將發起句的類型確定為非標準複句發起句類型,若不包含,則為非標準單句發起句類型;搜索非標準單句發起句類型的發起句是否有自己的上文和下文連續會話句,若無,則不進行衍生擴展,若有,則進一步判斷非標準單句發起句類型的發起句是否可與自己的上文和下文連續會話句合併成具有完整獨立語義的語句,若能,則將非標準單句發起句類型的發起句的類型衍生擴展為非標準句群發起句類型,若不能,則不進行衍生擴展;搜索非標準複句發起句類型的發起句是否有自己的上文和下文連續會話句,若無,則不進行衍生擴展,若有,則進一步判斷非標準複句發起句類型的發起句是否可與自己的上文和下文連續會話句合併成具有完整獨立語義的語句,若能,則將非標準複句發起句類型的發起句的類型衍生擴展為非標準句群發起句類型,若不能,則不進行衍生擴展;判斷單句、複句、非標準單句、非標準複句以及非標準句群類型的發起句是否有自己的上文和下文連續會話句,若有,則進一步判斷發起句是否可與自己的上文和下文連續會話句合併成語義關聯的句群,若是,則將發起句的類型衍生擴展為句群發起句類型,否則不進行衍生擴展。進一步地,根據預設的類型判斷規則,確定回複句的類型包括:判斷回複句是否為具有完整獨立語義的語句,若是,則判斷回複句是否由多個具有完整獨立語義的單句組成,若是,則將回複句的類型確定為複句回複句類型,否則為單句回複句類型;若否,則判斷回複句是否包含具有完整獨立語義的單句,若包含,則將回複句的類型確定為非標準複句回複句類型,若不包含,則為非標準單句回複句類型;搜索非標準單句回複句類型的回覆句是否有自己的上文和下文連續會話句,若無,則不進行衍生擴展,若有,則進一步判斷非標準單句回複句類型的回覆句是否可與自己的上文和下文連續會話句合併成具有完整獨立語義的語句,若能,則將非標準單句回複句類型的回覆句的類型衍生擴展為非標準句群回複句類型,若不能,則不進行衍生擴展;搜索非標準複句回複句類型的回覆句是否有自己的上文和下文連續會話句,若無,則不進行衍生擴展,若有,則進一步判斷非標準複句回複句類型的回覆句是否可與自己的上文和下文連續會話句合併成具有完整獨立語義的語句,若能,則將非標準複句回複句類型的回覆句的類型衍生擴展為非標準句群回複句類型,若不能,則不進行衍生擴展;判斷單句、複句、非標準單句、非標準複句以及非標準句群類型的回覆句是否有自己的上文和下文連續會話句,若有,則進一步判斷回複句是否可與自己的上文和下文連續會話句合併成語義關聯的句群,若是,則將回複句的類型衍生擴展為句群回複句類型,否則不進行衍生擴展。進一步地,根據基礎會話對、基礎會話對中發起句的類型以及基礎會話對中回複句的類型,提取至少一個會話對包括:將基礎會話對中發起句的類型進行衍生擴展,獲得多種類型的發起句;將基礎會話對中回複句的類型進行衍生擴展,獲得多種類型的回覆句;根據多種類型的發起句以及多種類型的回覆句,組合至少一個語義關聯的會話對進行提取。進一步地,將多個通訊方的個人語料庫進行合併,獲得共享語料庫包括:將多個通訊方的個人語料庫進行組合,獲得組合語料庫;將組合語料庫中包含相同發起句的會話對進行同類項合併,獲得共享語料庫。進一步地,獲得共享語料庫之後還包括:判斷共享語料庫中的會話對是否包含多個回複句,若是,則根據預設的規則對多個回複句進行智能排序。進一步地,預設的場景標籤包括第一場景標籤和第二場景標籤,其中第一場景標籤包括:會話通訊雙方的時間、地點、日期、天氣、季節、體感數據,會話通訊雙方會話通訊的間隔時間、頻率、時間跨度場景標籤中的一種或多種組合;第二場景標籤包括:會話內容主題,會話通訊雙方的會話意圖、性別、職業、職務、心情、興趣愛好、健康狀況、實時行為狀態,會話內容的句型、句類、句式結構類型,以及總量場景標籤中的一種或多種組合。本發明具有以下有益效果:本發明提供的創建共享語料庫的方法,通過建立與通訊方對應的個人語料庫以及將多個通訊方的個人語料庫進行合併,獲得共享語料庫,解決了人工創建共享語料庫的工作量大,且建庫質量普遍不高的技術問題。不僅大大減少了人工創建共享語料庫的工作量,而且通過合併多個通訊方的個人語料庫創建共享語料庫,使得創建的共享語料庫內容豐富,形式多樣,具有較高的實用性和智能性。除了上面所描述的目的、特徵和優點之外,本發明還有其它的目的、特徵和優點。下面將參照圖,對本發明作進一步詳細的說明。附圖說明構建本申請的一部分的附圖用來提供對本發明的進一步理解,本發明的示意性實施例及其說明用於解釋本發明,並不構建對本發明的不當限定。在附圖中:圖1是本發明優選實施例創建共享語料庫的方法流程圖;圖2是本發明優選實施例針對的精簡實施例的創建共享語料庫的方法流程圖。具體實施方式以下結合附圖對本發明的實施例進行詳細說明,但是本發明可以由權利要求限定和覆蓋的多種不同方式實施。參照圖1,本發明的優選實施例提供了一種創建共享語料庫的方法,包括:步驟S101,建立與通訊方對應的個人語料庫,其中,通訊方的數目大於一;步驟S102,將多個通訊方的個人語料庫進行合併,獲得共享語料庫。本發明實施例提供的創建共享語料庫的方法,通過建立與通訊方對應的個人語料庫以及將多個通訊方的個人語料庫進行合併,獲得共享語料庫,解決了人工創建共享語料庫的工作量大,且建庫質量普遍不高的技術問題。不僅大大減少了人工創建共享語料庫的工作量,而且通過合併多個通訊方的個人語料庫創建共享語料庫,使得創建的共享語料庫內容豐富,形式多樣,具有較高的實用性和智能性。需要說明的是,由於本實施例是通過合併多個通訊方的個人語料庫獲得共享語料庫,故在建立與通訊方對應的個人語料庫時,通訊方的數目需大於一,也即需創建至少兩個通訊方的個人語料庫。可選地,建立與通訊方對應的個人語料庫包括:採集通訊方的會話內容;獲取會話內容中的會話對;根據預設的場景標籤,採集獲得會話對與場景標籤對應的場景標籤值;將會話對、場景標籤以及與場景標籤對應的場景標籤值進行匹配組合,從而生成與通訊方對應的個人語料庫。本發明實施例通過採集通訊方的會話內容,獲取會話內容中的會話對,根據預設的場景標籤,採集獲得會話對與場景標籤對應的場景標籤值以及將會話對、場景標籤以及與場景標籤對應的場景標籤值進行匹配組合,從而生成與通訊方對應的個人語料庫,不僅大大減少了人工建立個人語料庫的工作量,而且根據會話對、場景標籤以及與場景標籤對應的場景標籤值生成與通訊方對應的個人語料庫,能較好地模擬真實會話場景,進一步使得創建的共享語料庫也能較好地模擬真實會話場景。需要說明是,本發明實施例將會話對、場景標籤以及與場景標籤對應的場景標籤值進行匹配組合生成個人語料庫,也即按照「會話對+場景標籤+場景標籤值」的內容匹配組合規則,生成個人語料庫。此外,由於不同的會話內容具有不同的場景特性,例如會話內容主題、會話意圖、會話時間、會話地點、會話雙方關係等等,故本實施例獲取會話內容中的會話對後,進一步根據預設的場景標籤,採集獲得會話對與場景標籤對應的場景標籤值,並將會話對、場景標籤以及與場景標籤對應的場景標籤值進行匹配組合,從而生成個人語料庫。本實施例中的場景標籤由用戶自定義或自動獲取,例如可以是會話內容主題,會話通訊雙方的時間、地點、日期、會話意圖、天氣、季節、性別、職業、職務、心情、興趣愛好、體感數據、健康狀況、實時行為狀態、星座、血型,會話通訊雙方之間的關係、年齡差距、輩分差距,雙方會話通訊的間隔時間、頻率、時間跨度,會話內容的句型、句類、句式結構類型,以及總量標籤中的一種或多種組合等等。且本實施例採集獲得會話對與場景標籤對應的場景標籤值時,可以採取不同的方法實現,具體包括直接採集的方法,例如針對地點場景標籤值,可以通過移動終端的GPS自動採集獲得;推理的方法,例如針對通訊雙方關係場景標籤值,可以通過其他已經採集的場景標籤值推理獲得;計算與會話內容關聯的詞向量的方法,例如針對會話意圖採集標籤值,可以通過計算與會話內容關聯的詞向量獲得;神經網絡學習的方法,例如針對心情場景標籤值,可以將會話內容或其他已經採集的場景標籤值輸入訓練好的分類器分類獲得。此外,本實施例還能結合上述所述的一種或多種方法自動獲得場景標籤值。可選地,獲取會話內容中的會話對包括:根據會話內容中會話句的語義,確定會話內容中的發起句和回複句;根據預設的類型判斷規則,確定發起句和回複句的類型;根據發起句以及發起句與下一條發起句之間的回覆句提取基礎會話對;根據基礎會話對、基礎會話對中發起句和回複句的類型,提取至少一個會話對。現有從會話內容中提取的會話對或問答對,往往是一問一答的會話對形式,而在實際的會話過程中,通訊雙方進行會話並非完全符合一問一答的會話模式,例如針對通訊對方發送的會話句,通訊方可能回復了幾條會話句,或針對通訊對方發送的多條會話句,通訊方可能只回復了一條會話句。故如果僅僅採取一問一答的形式提取對話對,可能存在以下問題:(1)對於一些沒有以一問一答形式展現的會話內容,從會話內容中提取會話對的難度較大,且精度較低。例如對於多個發起句+多個回複句形式的會話內容,從中提取會話對時,需要分析與每一個發起句匹配的回覆句,過程複雜,難度大,且精度較低。(2)由於現有根據會話內容提取的問答對或會話對一般都是比較標準的會話句,或結構比較簡單的會話句,從而導致針對一些複雜或非標準結構的會話句不能精準提取完整性好和實用性高的會話對。(3)此外,由於以一問一答形式提取的會話對的完整性容易被破壞,從而導致提取的會話對不能準確模擬真實會話。針對上述問題,本發明提出了一種根據發起句和回複句的類型從會話內容中提取會話對的方法。針對該問題,本實施例通過根據會話內容中會話句的語義,確定會話內容中的發起句和回複句,根據預設的類型判斷規則,確定發起句和回複句的類型,根據發起句以及發起句與下一條發起句之間的回覆句提取基礎會話對,以及根據基礎會話對、基礎會話對中發起句和回複句的類型,提取至少一個會話對,解決了現有技術提取會話對的難度較大、精度較低的技術問題,打破了傳統的一問一答的會話對形式的局限性,並且根據發起句和回複句的類型,不僅能快速有效地提取會話對,而且提取的會話對的精度和準確度也大大提升。此外,針對一些複雜或非標準結構的會話句,本發明實施例能精準提取完整性好和實用性高的會話對,從而使得提取的會話對能準確模擬真實會話,智能化程度較高。進一步地,本發明實施例提取的會話對形式多樣,有利於基於會話對精準匹配智能回復內容,以及匹配獲得形式多樣的智能回復內容,實用性較高。需要說明的是,本實施例在確定發起句和回複句的類型之前,首先預設發起句和回複句的類型以及與類型對應的類型判斷規則,從而根據預設的類型判斷規則,可以快速確定發起句和回複句的類型。本實施例可以通過採集通訊方的即時通訊帳號、郵箱帳號、微博號、手機號的會話內容獲得會話內容,其中會話內容為文本、圖片、語音、視頻或動漫格式,且當會話內容是語音、圖片、視頻或動漫格式時,還包括將語音、圖片、視頻或動漫格式的會話內容轉換為文本格式的會話內容。可選地,根據會話內容中會話句的語義,確定會話內容中的發起句和回複句包括:判斷會話內容中的會話句在預設時間區間內是否有通訊對方發送的上文,若無,則將會話句確定為發起句;若有,則判斷會話句是否與通訊對方發送的上文無語義關聯,若是,則將會話句確定為發起句,否則將會話句確定為回複句。為了精準提取會話內容中的會話對,本實施例首先根據會話內容中會話句的語義,確定會話內容中的發起句和回複句,然後再進一步確定發起句和回複句的類型,從而根據發起句和回複句的類型精準提取會話對。其中,本實施例所指的根據會話內容中會話句的語義,確定會話內容中的發起句和回複句的具體過程為:判斷會話內容中的會話句在預設時間區間內是否有通訊對方發送的上文,若無,則將會話句確定為發起句,若有,則判斷會話句是否與通訊對方發送的上文無語義關聯,若是,則將會話句確定為發起句,否則將會話句確定為回複句。在實際的會話過程中,如果當前會話句在預設時間區間內無通訊對方發送的上文,一般將其認為是發起會話的起始句,也即發起句。例如假設當前會話句為12月3日發送的會話句,上一條會話句是通訊對方於12月1日發送的會話句,假設預設的時間區間為1天,則通過判斷可知,當前會話句在預設時間區間內無通訊對方發送的上文,則將當前會話句認為是發起會話的起始句,也即將當前會話句判定為發起句。且本實施例預設的時間區間具體由用戶自定義,例如可以是1小時、半天、一天、一個月等等,也即當判斷出當前會話句在1小時、半天、一天、一個月內無通訊對方發送的上文,則判定當前會話句為發起句。此外,當會話句有通訊對方發送的上文時,根據實際會話內容可判斷,會話句可能是回復通訊對方發送的上文的回覆句;也可能不是回復通訊對方發送的上文,而是重新發起會話的發起句;或者同時是回復通訊對方發送的上文的回覆句和重新發起會話的發起句。針對這種情況,本實施例通過判斷會話句是否與通訊對方發送的上文無語義關聯來確定會話句的類型。需要說明的是,本實施例中會話句是否與通訊對方發送的上文無語義關聯,具體是指會話句是否包括與通訊對方發送的上文無語義關聯的語句。例如,當會話句有通訊對方發送的上文,且通訊對方A發送的上文為「最近怎麼樣?」,則針對第一種情況的會話句(通訊方B:「挺好的」),可判斷出該會話句不包括與通訊對方發送的上文無語義關聯的語句,此時確定該會話句為回複句;針對第二種情況的會話句(通訊方B:「幫我繳電話費了嗎?」),可判斷出該會話句包括與通訊對方發送的上文無語義關聯的語句,此時確定該會話句為發起句;針對第三種情況的會話句(通訊方B:「挺好的,幫我繳電話費了嗎?」),可判斷出該會話句同樣包括與通訊對方發送的上文無語義關聯的語句(「幫我繳電話費了嗎?」),此時確定該會話句為發起句。本實施例通過判斷會話內容中的會話句在預設時間區間內是否有通訊對方發送的上文以及在有通訊對方發送的上文時判斷會話句是否與通訊對方發送的上文無語義關聯,可以精準確定會話內容中的發起句和回複句,為後續根據確定的發起句和回複句精準提取會話對以及根據提取的會話對建立個人語料庫奠定基礎。可選地,根據預設的類型判斷規則,確定發起句的類型包括:判斷發起句是否為具有完整獨立語義的語句,若是,則判斷發起句是否由多個具有完整獨立語義的單句組成,若是,則將發起句的類型確定為複句發起句類型,否則為單句發起句類型;若否,則判斷發起句是否包含具有完整獨立語義的單句,若包含,則將發起句的類型確定為非標準複句發起句類型,若不包含,則為非標準單句發起句類型;搜索非標準單句發起句類型的發起句是否有自己的上文和下文連續會話句,若無,則不進行衍生擴展,若有,則進一步判斷非標準單句發起句類型的發起句是否可與自己的上文和下文連續會話句合併成具有完整獨立語義的語句,若能,則將非標準單句發起句類型的發起句的類型衍生擴展為非標準句群發起句類型,若不能,則不進行衍生擴展;搜索非標準複句發起句類型的發起句是否有自己的上文和下文連續會話句,若無,則不進行衍生擴展,若有,則進一步判斷非標準複句發起句類型的發起句是否可與自己的上文和下文連續會話句合併成具有完整獨立語義的語句,若能,則將非標準複句發起句類型的發起句的類型衍生擴展為非標準句群發起句類型,若不能,則不進行衍生擴展;判斷單句、複句、非標準單句、非標準複句以及非標準句群類型的發起句是否有自己的上文和下文連續會話句,若有,則進一步判斷發起句是否可與自己的上文和下文連續會話句合併成語義關聯的句群,若是,則將發起句的類型衍生擴展為句群發起句類型,否則不進行衍生擴展。在實際的實施過程中,發起句可能以多種類型進行呈現,例如單句、複句、非標準句等等,且不同類型的發起句可能會影響或導致提取的會話對不同。針對該問題,本實施例按照預設的類型判斷規則,確定發起句的類型。具體地,首先在發起句具有完整獨立語義的前提下,通過判斷發起句是由一個還是多個完整獨立語義的單句組成,確定發起句為單句還是複句發起句類型,以及在發起句不具有完整獨立語義的前提下,通過判斷發起句是否包含具有完整獨立語義的單句來確定發起句的類型為非標準複句還是非標準單句發起句類型;然後通過搜索非標準單句和非標準複句發起句類型的發起句是否有自己的上文和下文連續會話句,以及是否可與自己的上文和下文連續會話句合併成具有完整獨立語義的語句,確定是否將發起句的類型衍生擴展為非標準句群發起句類型;最後通過判斷單句、複句、非標準單句、非標準複句以及非標準句群類型的發起句是否有自己的上文和下文連續會話句,確定發起句的類型是否可以衍生擴展為句群發起句類型。具體地,本實施例確定發起句類型的過程本質上分為三個判別過程,即第一個判別過程是對每一條發起句按照四種發起句類型(單句、複句、非標準單句以及非標準複句)進行逐一判別;第二個判別過程是在進行完第一個判別過程後,接著判別非標準單句和非標準複句發起句類型的發起句是否可進一步衍生擴展為非標準句群發起句類型;第三個判別過程是在進行完第二個判別過程後,接著判別單句、複句、非標準單句、非標準複句以及非標準句群類型的發起句是否可進一步衍生擴展為句群發起句類型。本實施例通過確定發起句的類型,一方面有利於對發起句進行句子結構和成分的深度分析,另一方面,基於對發起句進行類型判斷和結構分析,有利於更精準提取實用性高且形式多樣的會話對。需要說明的是,本實施例中發起句是否有自己的上文和下文連續會話句具體是指發起句是否有發送發起句的發送方發送的上文和下文連續會話句。可選地,根據預設的類型判斷規則,確定回複句的類型包括:判斷回複句是否為具有完整獨立語義的語句,若是,則判斷回複句是否由多個具有完整獨立語義的單句組成,若是,則將回複句的類型確定為複句回複句類型,否則為單句回複句類型;若否,則判斷回複句是否包含具有完整獨立語義的單句,若包含,則將回複句的類型確定為非標準複句回複句類型,若不包含,則為非標準單句回複句類型;搜索非標準單句回複句類型的回覆句是否有自己的上文和下文連續會話句,若無,則不進行衍生擴展,若有,則進一步判斷非標準單句回複句類型的回覆句是否可與自己的上文和下文連續會話句合併成具有完整獨立語義的語句,若能,則將非標準單句回複句類型的回覆句的類型衍生擴展為非標準句群回複句類型,若不能,則不進行衍生擴展;搜索非標準複句回複句類型的回覆句是否有自己的上文和下文連續會話句,若無,則不進行衍生擴展,若有,則進一步判斷非標準複句回複句類型的回覆句是否可與自己的上文和下文連續會話句合併成具有完整獨立語義的語句,若能,則將非標準複句回複句類型的回覆句的類型衍生擴展為非標準句群回複句類型,若不能,則不進行衍生擴展;判斷單句、複句、非標準單句、非標準複句以及非標準句群類型的回覆句是否有自己的上文和下文連續會話句,若有,則進一步判斷回複句是否可與自己的上文和下文連續會話句合併成語義關聯的句群,若是,則將回複句的類型衍生擴展為句群回複句類型,否則不進行衍生擴展。本實施例判斷回複句的類型和判斷發起句的類型的原理和過程基本相同,故不再詳述。且本實施例通過確定回複句的類型,一方面有利於對回複句進行句子結構和成分的深度分析,另一方面,基於對回複句進行類型判斷和結構分析,有利於更精準提取實用性高且形式多樣的會話對。需要說明的是,本實施例中回複句是否有自己的上文和下文連續會話句具體是指回複句是否有發送所述回複句的發送方發送的上文和下文連續會話句。可選地,根據基礎會話對、基礎會話對中發起句的類型以及基礎會話對中回複句的類型,提取至少一個會話對包括:將基礎會話對中發起句的類型進行衍生擴展,獲得多種類型的發起句;將基礎會話對中回複句的類型進行衍生擴展,獲得多種類型的回覆句;根據多種類型的發起句以及多種類型的回覆句,組合至少一個語義關聯的會話對進行提取。由於本實施例中發起句和回複句的類型包括多種,例如單句、複句、非標準單句、非標準複句,非標準句群、句群發起句類型,以及單句、複句、非標準單句、非標準複句、非標準句群、句群回複句類型,故在提取到基礎會話對後,為了更精準提取實用性高且形式多樣的會話對,本實施例首先將基礎會話對中發起句的類型進行衍生擴展,獲得多種類型的發起句,然後將基礎會話對中回複句的類型進行衍生擴展,獲得多種類型的回覆句,最後根據多種類型的發起句以及多種類型的回覆句,組合至少一個語義關聯的會話對進行提取,從而可以組合獲得多個會話對。例如假設發起句類型為複句發起句類型,回複句為複句回複句類型,則通過類型衍生擴展後,可以提取出單句發起句+單句回複句,複句發起句+單句回複句,單句發起句+複句回複句,複句發起句+複句回複句等多種形式的會話對。可選地,將多個通訊方的個人語料庫進行合併,獲得共享語料庫包括:將多個通訊方的個人語料庫進行組合,獲得組合語料庫;將組合語料庫中包含相同發起句的會話對進行同類項合併,獲得共享語料庫。由於本實施例創建的通訊方的個人語料庫都是由會話對組成的,也即由會話發起句和與之對應的會話回複句組成。故本實施例在將多個通訊方的個人語料庫進行合併,獲得共享語料庫時,首先將多個通訊方的個人語料庫進行組合,獲得組合語料庫,然後將組合語料庫中包含相同發起句的會話對進行同類項合併,獲得共享語料庫。需要說明的是,本實施例將組合語料庫中包含相同發起句的會話對進行同類項合併,即將包含相同發起句的會話對中的答覆句合併。例如假設通訊方A的個人語料庫包含會話對{發起句:最近怎麼樣?/回複句:挺好的},通訊方B的個人語料庫包含會話對{發起句:最近怎麼樣?/回複句:老樣子},則在將兩個個人語料庫組合後,將組合語料庫中包含相同發起句的會話對進行同類項合併,也即可將上述兩個個人語料庫包含相同發起句(「最近怎麼樣?」)的會話對,合併為{發起句:最近怎麼樣?/回複句1:挺好的;回複句2:老樣子}。本實施例通過將組合語料庫中包含相同發起句的會話對進行同類項合併,可以獲得精簡的共享語料庫,有利於後續根據共享語料庫快速匹配獲得會話回復內容。此外,本實施例還可以通過將組合語料庫中包含相同回複句的會話對進行同類項合併,可以獲得精簡的共享語料庫,有利於後續根據共享語料庫快速匹配獲得智能會話回復內容。例如:你們公司在哪裡?怎麼去你們公司?請問面試地址?這3個發起句的回覆句都是:長沙市嶽麓區桐梓坡集賢路長沙市留學生創業園對面。可選地,獲得共享語料庫之後還包括:判斷共享語料庫中的會話對是否包含多個回複句,若是,則根據預設的規則對多個回複句進行智能排序。由於本實施例將組合語料庫中包含相同發起句的會話對進行同類項合併後,會話對中針對同一個發起句,可能包括多個回複句。針對該問題,本實施例在獲得共享語料庫之後還包括判斷共享語料庫中的會話對是否包含多個回複句,若是,則根據預設的規則對多個回複句進行智能排序,從而方便後續根據共享語料庫快速獲得更匹配的回覆句。需要說明的是,本實施例可以根據預設的規則對多個回複句進行智能排序,例如根據回複句的使用頻率、使用習慣、使用偏好、使用時間順序等等規則對多個回複句進行智能排序。可選地,預設的場景標籤包括第一場景標籤和第二場景標籤,其中第一場景標籤包括:會話通訊雙方的時間、地點、日期、天氣、季節、體感數據,會話通訊雙方會話通訊的間隔時間、頻率、時間跨度場景標籤中的一種或多種組合;第二場景標籤包括:會話內容主題,會話通訊雙方的會話意圖、性別、職業、職務、心情、興趣愛好、健康狀況、實時行為狀態,會話內容的句型、句類、句式結構類型,以及總量場景標籤中的一種或多種組合。下面針對一個精簡實施例對本發明的創建共享語料庫的方法進行更進一步說明。參照圖2,本發明的精簡實施例提供的創建共享語料庫的方法,包括:步驟S201,建立與通訊方對應的個人語料庫,其中,所述通訊方的數目大於一。具體地,假設本實施例中的通訊方包括通訊方A1和通訊方A2,由於針對不同的通訊方建立個人語料庫的方法和過程相同,故本實施例僅對其中的一個通訊方,例如通訊方A1建立個人語料庫進行具體說明。具體地,本實施例針對通訊方A1建立個人語料庫的方法包括:步驟S2001,採集通訊方的會話內容。具體地,假設本實施例採集的會話內容為通訊方A1的即時通訊帳號、郵箱帳號、微博號、手機號與通訊對方B進行會話的會話內容,其中,會話內容為文本、圖片、語音、視頻或動漫格式,且當會話內容是語音、圖片、視頻或動漫格式時,還包括將語音、圖片、視頻或動漫格式的會話內容轉換為文本格式的會話內容。為了詳細描述本實施例從會話內容中提取會話對的過程,本實施例以簡單的通訊方A1與通訊對方B的會話內容進行說明,具體如下:A1:吃了嗎?B:吃了。B:你呢?A1:幫我繳A1:費了嗎?B:繳了總共100元。B:排隊的人可真多。步驟S2002,判斷會話內容中的會話句在預設時間區間內是否有通訊對方發送的上文,若無,則將會話句確定為發起句;若有,則判斷會話句是否與通訊對方發送的上文無語義關聯,若是,則將會話句確定為發起句,否則將會話句確定為回複句。具體地,根據上述判斷規則,可以確定會話內容中的發起句和回複句,假設本實施例通過判斷獲得會話內容中的發起句和回複句具體見表1。表1發起句回複句吃了嗎?吃了。你呢?繳了總共100元。幫我繳排隊的人可真多。費了嗎?步驟S2003,判斷發起句是否為具有完整獨立語義的語句,若是,則判斷發起句是否由多個具有完整獨立語義的單句組成,若是,則將發起句的類型確定為複句發起句類型,否則為單句發起句類型,若否,則判斷發起句是否包含具有完整獨立語義的單句,若包含,則將發起句的類型確定為非標準複句發起句類型,若不包含,則為非標準單句發起句類型;搜索非標準單句發起句類型的發起句是否有自己的上文和下文連續會話句,若無,則不進行衍生擴展,若有,則進一步判斷非標準單句發起句類型的發起句是否可與自己的上文和下文連續會話句合併成具有完整獨立語義的語句,若能,則將非標準單句發起句類型的發起句的類型衍生擴展為非標準句群發起句類型,若不能,則不進行衍生擴展;搜索非標準複句發起句類型的發起句是否有自己的上文和下文連續會話句,若無,則不進行衍生擴展,若有,則進一步判斷非標準複句發起句類型的發起句是否可與自己的上文和下文連續會話句合併成具有完整獨立語義的語句,若能,則將非標準複句發起句類型的發起句的類型衍生擴展為非標準句群發起句類型,若不能,則不進行衍生擴展;判斷單句、複句、非標準單句、非標準複句以及非標準句群類型的發起句是否有自己的上文和下文連續會話句,若有,則進一步判斷發起句是否可與自己的上文和下文連續會話句合併成語義關聯的句群,若是,則將已確定類型的發起句的類型衍生擴展為句群發起句類型,否則不進行衍生擴展。具體地,假設本實施例首先根據步驟S2003中的第一個判別過程,判斷出發起句的類型如下,具體見表2所示。表2序號發起句類型第一條發起句吃了嗎?單句第二條發起句你呢?單句第三條發起句幫我繳非標準單句第四條發起句費了嗎?非標準單句然後,根據步驟S2003中的第二個判別過程,即通過判斷非標準單句和非標準複句發起句類型的發起句是否有自己的上文和下文連續會話句,以及是否可與自己的上文和下文連續會話句合併成具有完整獨立語義的語句,確定是否將非標準單句和非標準複句發起句的類型衍生擴展為非標準句群發起句類型。通過具體判斷可知,本實施例的第三條和第四條發起句可以合併成具有完整獨立語義的語句,也即此時可以將第三條和第四條發起句的類型衍生擴展為非標準句群發起句類型,具體見表3所示。表3最後,根據步驟S2003中的第三個判別過程,判斷單句、複句、非標準單句、非標準複句以及非標準句群類型的發起句是否可進一步衍生擴展為句群發起句類型。具體地,根據表3可知,本實施例不能將發起句進一步合併成語義關聯的句群,也即在最後一個過程,不對發起句進一步進行衍生擴展。故最終獲得發起句的類型如表3所示。步驟S2004,根據預設的類型判斷規則,確定回複句的類型。本實施例確定回複句的類型的原理和過程和確定發起句的類型的原理和過程基本相同,故不再詳述,假設本實施例判斷出回複句的類型具體如表4所示。表4步驟S2005,根據發起句以及發起句與下一條發起句之間的回覆句提取基礎會話對。具體地,本實施例針對第一條發起句提取會話對時,首先判斷第一條發起句與下一條發起句之間是否有回覆句,若有,則根據所述發起句和所述回複句提取基礎會話對,由於第一條和第二條發起句之間有回覆句,則根據第一條發起句和回複句提取基礎會話對。需要說明的是,本實施例在確定發起句與下一條發起句之間包含回複句後,還需計算發起句與回複句是否語義關聯,且只有在語義關聯的情況下,才提取基礎會話對,否則不提取。本實施例假設第一條發起句和第一條回複句語義關聯,則可以提取出基礎會話對,假設為基礎會話對1,基礎會話對1的具體內容如表5所示。同理,本實施例針對第二條發起句提取基礎會話對時,首先判斷第二條發起句與第三條發起句之間是否有回覆句,通過判斷可知,第二條和第三條發起句之間不包含回複句,則放棄第二條發起句作為發起句。同樣地,根據第三條和第四條發起句,假設可以提取語義關聯的基礎會話對2,基礎會話對2的具體內容如表5所示。表5步驟S2006,將基礎會話對中發起句的類型進行衍生擴展,獲得多種類型的發起句。具體地,由於本實施例中發起句的類型共有六種,分別為單句、複句、非標準單句、非標準複句、非標準句群以及句群發起句類型,故本實施例首先根據基礎會話對中發起句的類型進行衍生擴展,由於本實施例中基礎會話對1中的發起句的類型為單句發起句類型,其無法進一步衍生擴展成其他五種發起句類型,故此時只包含一種類型的發起句,即單句發起句類型的發起句,具體如表6所示。而根據基礎會話對2中的發起句的類型,可以進一步衍生擴展成其他類型的發起句,例如單句發起句類型,具體如表6所示。表6步驟S2007,將基礎會話對中回複句的類型進行衍生擴展,獲得多種類型的回覆句。具體地,由於本實施例中回複句的類型共有六種,分別為單句、複句、非標準單句、非標準複句、非標準句群以及句群回複句類型。故本實施例首先根據基礎會話對中回複句的類型進行衍生擴展,由於本實施例中基礎會話對1中的回覆句的類型為單句回複句類型,其無法進一步衍生擴展成其他五種回複句類型,故此時只包含一種類型的回覆句,即單句回複句類型的回覆句,具體如表7所示。而根據基礎會話對2中的回覆句的類型,可以進一步衍生擴展成其他類型的回覆句,例如複句回複句類型,具體如表7所示。表7步驟S2008,根據多種類型的發起句以及多種類型的回覆句,組合至少一個語義關聯的會話對進行提取。具體地,由於針對基礎會話對1,發起句和回複句的類型只有一種,故此時只能提取一個會話對,而針對基礎會話對2,由於發起句的類型和複句的類型為多種,故可組合獲得多個會話對,具體見表8,表8為根據基礎會話對2提取的6個會話對。表8步驟S2009,根據預設的場景標籤,採集獲得會話對與場景標籤對應的場景標籤值。具體地,本實施例在採集與會話對對應的且與預設的場景標籤對應的場景標籤值時,首先預設場景標籤,然後針對每個會話對分別採集與預設的場景標籤對應的場景標籤值。假設本實施例預設的場景標籤包括會話內容主題、會話意圖、地點、天氣、會話通訊雙方關係、通訊對象的年齡、職業的多種組合,則可以採集到與每一個會話對對應的場景標籤值,具體見表9所示。需要說明的是,本實施例中由於會話對1-會話對6均為基礎會話對2的衍生擴展會話對,故與基礎會話對2的場景標籤對應的場景標籤值相同。此外,本實施例針對不同的對話對可以設置不同的場景標籤,且設置的場景標籤的數目也可以不同。表9步驟S2010,將會話對、場景標籤以及與場景標籤對應的場景標籤值進行匹配組合,從而生成個人專屬語料庫。具體地,本實施例將會話對、場景標籤以及與場景標籤對應的場景標籤值進行匹配組合,從而生成個人專屬語料庫,也即按照「會話對+場景標籤+場景標籤值」的內容組合規則,生成通訊方A1的個人專屬語料庫。步驟S202,將多個所述通訊方的個人語料庫進行合併,獲得共享語料庫。具體地,本實施例針對通訊方A2建立個人語料庫的方法和過程與通訊方A1的方法和過程相同。且本實施例將通訊方A1和通訊方A2的個人語料庫進行合併的具體過程為:首先將通訊方A1和通訊方A2的個人語料庫進行組合,獲得組合語料庫,然後將組合語料庫中包含相同發起句的會話對進行同類項合併,獲得共享語料庫。步驟S203,判斷共享語料庫中的會話對是否包含多個回複句,若是,則根據預設的規則對多個回複句進行智能排序。由於本實施例將組合語料庫中包含相同發起句的會話對進行同類項合併後,會話對中針對同一個發起句,可能包括多個回複句。故本實施例在獲得共享語料庫後,進一步判斷共享語料庫中的會話對是否包含多個回複句,若是,則根據預設的規則對多個回複句進行智能排序。具體地,本實施例可以根據回複句的使用頻率、使用習慣、使用偏好、使用時間順序等等規則對多個回複句進行智能排序。本發明實施例提供的創建共享語料庫的方法,通過建立與通訊方對應的個人語料庫以及將多個通訊方的個人語料庫進行合併,獲得共享語料庫,解決了人工創建共享語料庫的工作量大,且建庫質量普遍不高的技術問題。不僅大大減少了人工創建共享語料庫的工作量,而且通過合併多個通訊方的個人語料庫創建共享語料庫,使得創建的共享語料庫內容豐富,形式多樣,具有較高的實用性和智能性。同時不難看出,相比於直接根據多個通訊方的會話內容創建共享語料庫,本實施例通過合併多個通訊方的個人語料庫獲得共享語料庫更簡便和快捷。以上僅為本發明的優選實施例而已,並不用於限制本發明,對於本領域的技術人員來說,本發明可以有各種更改和變化。凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護範圍之內。當前第1頁1 2 3