新四季網

一種語句生成方法及裝置製造方法

2023-10-18 18:41:19 1

一種語句生成方法及裝置製造方法
【專利摘要】本發明公開了一種語句生成方法及裝置。該方法包括:收集終端的至少一個數據信息,其中,所述數據信息包括所述終端的運行信息、所述終端的操作信息和所述終端從外部接口接收到的信息中的至少一種;確定所述至少一個數據信息的每個數據信息在待組成語句中的句子成分;根據確定的所述至少一個數據信息在待組成語句中的句子成分,將所述至少一個數據信息組成語句。還公開了相應的裝置。採用本發明的一種語句生成方法及裝置的技術方案,可以根據終端的各種數據信息自動生成語句,用語句完整地描述在終端上發生的活動或事件,方便用戶通過終端對這些活動或事件進行自動記錄。
【專利說明】一種語句生成方法及裝置

【技術領域】
[0001]本發明涉及語言【技術領域】,具體涉及一種語句生成方法及裝置。

【背景技術】
[0002]智能終端上的自動日記可以節省人們記錄事件的事件成本,且從多個維度和視角記錄事件發生的上下文,可以客觀地重現事件,同時,智能終端的普及為自動日記的生成提供了多種維度的可用信息源和數據基礎。然而,現有技術中的一種自動日記的生成方法,其源數據主要是文本數據,如博客信息、社交網絡信息、簡訊信息、聯繫人信息等,從以上文本信息中抽取特徵,生成日記,但當源數據缺少文本描述時,將無法生成日記;現有技術中的另一種自動日記的生成方法是分析手機使用情況和傳感器數據,結合手機操作事件(如開關機、收發郵件等)與用戶活動的對應關係,識別用戶活動或發生的事件,最後按時間順序組織一天發生的事件,生成日記,該方法生成的日記,其內容非常簡單,形式為「時間:事件」序列,信息量匱乏,且沒有使用完整的語句描述用戶活動或事件,可讀性差。
[0003]綜上所述,如何根據終端的各種數據信息自動生成語句,用語句完整地描述在終端上發生的活動或事件已成為業界迫切需要解決的問題。


【發明內容】

[0004]有鑑於此,本發明提供了一種語句生成方法及裝置,以期根據終端的各種數據信息自動生成語句,用語句完整地描述在終端上發生的活動或事件。
[0005]第一方面,提供了一種語句生成方法,包括:
[0006]收集終端的至少一個數據信息,其中,所述數據信息包括所述終端的運行信息、所述終端的操作信息和所述終端從外部接口接收到的信息中的至少一種;
[0007]確定所述至少一個數據信息的每個數據信息在待組成語句中的句子成分;
[0008]根據確定的所述至少一個數據信息在待組成語句中的句子成分,將所述至少一個數據信息組成語句。
[0009]在第一種可能的實現方式中,所述收集終端的至少一個數據信息,包括:
[0010]採集終端的至少一個數據信息;
[0011]檢測所述至少一個數據信息的來源;
[0012]根據所述至少一個數據信息的來源,按照與所述來源對應的格式,將所述至少一個數據信息進行格式化,獲得至少一個格式化後的數據信息;
[0013]所述確定所述至少一個數據信息的每個數據信息在待組成語句中的句子成分,包括:
[0014]針對每個所述格式化後的數據信息,從資料庫中查找與所述格式化後的數據信息匹配的至少一個描述詞語;
[0015]根據與所述格式化後的數據信息匹配的至少一個描述詞語,確定每個所述格式化後的數據信息在待組成語句中的句子成分。
[0016]結合第一方面的第一種可能的實現方式,在第二種可能的實現方式中,所述根據與所述格式化後的數據信息匹配的至少一個描述詞語,確定每個所述格式化後的每個數據信息在待組成語句中的句子成分之後,以及所述根據確定的所述至少一個數據信息在待組成語句中的句子成分,將所述至少一個數據信息組成語句之前,所述方法還包括:
[0017]針對每個格式化後的數據信息,根據與所述格式化後的數據信息匹配的所述至少一個描述詞語在所述資料庫中使用的概率,從與所述格式化後的數據信息匹配的所述至少一個描述詞語中選擇一個描述詞語。
[0018]結合第一方面的第二種可能的實現方式,在第三種可能的實現方式中,所述根據確定的所述至少一個數據信息在待組成語句中的句子成分,將所述至少一個數據信息組成語句,包括:
[0019]根據確定的所述至少一個數據信息在待組成語句中的句子成分的類型,從句法結構庫中選擇包含所述至少一個數據信息的句子成分的類型的語句結構;
[0020]按照所述至少一個數據信息的句子成分在所述語句結構中的位置,將選擇的與所述至少一個格式化後的數據信息匹配的描述詞語組成語句。
[0021]結合第一方面的第二種可能的實現方式,在第四種可能的實現方式中,所述根據確定的所述至少一個數據信息在待組成語句中的句子成分,將所述至少一個數據信息組成語句,包括:
[0022]根據確定的所述至少一個數據信息在待組成語句中的句子成分,將選擇的與所述至少一個格式化後的數據信息匹配的描述詞語與語句模型庫中的語句進行匹配;
[0023]獲取所述匹配後的語句。
[0024]第二方面,提供了一種語句生成裝置,包括:
[0025]收集單元,用於收集終端的至少一個數據信息,其中,所述數據信息包括所述終端的運行信息、所述終端的操作信息和所述終端從外部接口接收到的信息中的至少一種;
[0026]確定單元,用於確定所述至少一個數據信息的每個數據信息在待組成語句中的句子成分;
[0027]組成單元,用於根據確定的所述至少一個數據信息在待組成語句中的句子成分,將所述至少一個數據信息組成語句。
[0028]在第一種可能的實現方式中,所述收集單元包括:
[0029]採集子單元,用於採集終端的至少一個數據信息;
[0030]檢測子單元,用於檢測所述至少一個數據信息的來源;
[0031]格式化子單元,用於根據所述至少一個數據信息的來源,按照與所述來源對應的格式,將所述至少一個數據信息進行格式化,獲得至少一個格式化後的數據信息;
[0032]所述確定單元包括:
[0033]查找子單元,用於針對每個所述格式化後的數據信息,從資料庫中查找與所述格式化後的數據信息匹配的至少一個描述詞語;
[0034]確定子單元,用於根據與所述格式化後的數據信息匹配的至少一個描述詞語,確定每個所述格式化後的數據信息在待組成語句中的句子成分。
[0035]結合第二方面的第一種可能的實現方式,在第二種可能的實現方式中,所述裝置還包括:
[0036]選擇單元,用於針對每個格式化後的數據信息,根據與所述格式化後的數據信息匹配的所述至少一個描述詞語在所述資料庫中使用的概率,從與所述格式化後的數據信息匹配的所述至少一個描述詞語中選擇一個描述詞語。
[0037]結合第二方面的第二種可能的實現方式,在第三種可能的實現方式中,所述組成單元包括:
[0038]選擇子單元,用於根據所述至少一個數據信息的句子成分的類型,從句法結構庫中選擇包含所述至少一個數據信息的句子成分的類型的語句結構;
[0039]組成子單元,用於按照所述至少一個數據信息的句子成分在所述語句結構中的位置,將選擇的與所述至少一個格式化後的數據信息匹配的描述詞語組成語句。
[0040]結合第二方面的第二種可能的實現方式,在第四種可能的實現方式中,所述組成單元包括:
[0041]匹配子單元,用於根據確定的所述至少一個數據信息在待組成語句中的句子成分,將選擇的與所述至少一個格式化後的數據信息匹配的描述詞語與語句模型庫中的語句進行匹配;
[0042]獲取子單元,用於獲取所述匹配後的語句。
[0043]採用本發明的一種語句生成方法及裝置的技術方案,可以根據終端的各種數據信息自動生成語句,用語句完整地描述在終端上發生的活動或事件,方便用戶通過終端對這些活動或事件進行自動記錄。

【專利附圖】

【附圖說明】
[0044]為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
[0045]圖1為本發明一種語句生成方法的一個實施例的流程圖;
[0046]圖2為對圖1所示的本發明一種語句生成方法的進一步細化的另一個實施例的流程圖;
[0047]圖3為對圖1所示的本發明一種語句生成方法的進一步細化的又一個實施例的流程圖;
[0048]圖4為本發明一種語句生成裝置的一個實施例的結構示意圖;
[0049]圖5為對圖4所示的本發明一種語句生成裝置的進一步細化的另一個實施例的結構示意圖;
[0050]圖6為對圖4所示的本發明一種語句生成裝置的進一步細化的又一個實施例的結構示意圖。

【具體實施方式】
[0051]下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都屬於本發明保護的範圍。
[0052]圖1為本發明一種語句生成方法的一個實施例的流程圖。如圖1所示,該方法包括以下步驟:
[0053]步驟S101,收集終端的至少一個數據信息,其中,所述數據信息包括所述終端的運行信息、所述終端的操作信息和所述終端從外部接口接收到的信息中的至少一種。
[0054]本發明的終端是指網絡與最終用戶接觸用以實現網絡應用的各種設備,例如筆記本電腦、平板電腦、手機等。從一個終端上可以收集到各種數據信息,包括:該終端自身的運行信息,例如網絡連接信息、系統進程信息等;該終端的用戶操作信息,例如傳感器信息、微博等;該終端從外部接口接收到的信息,例如通話信息、簡訊信息、GPS信息等,這些數據信息包含文本數據,例如微博、簡訊,可以從這些信息中直接提取文字信息;還包括非文本數據,例如網絡連接信息、系統進程信息、傳感器信息等,這些是通過接口等採集的數據信息。本發明可以統一收集終端的這些數據信息並進行整理。
[0055]步驟S102,確定所述至少一個數據信息的每個數據信息在待組成語句中的句子成分。
[0056]對於收集的每個數據信息,將其確定為相應的句子成分,句子成分的類型包括主語、謂語、賓語、定語、補語、狀語、表語等,例如對於收集終端的時間信息,可以將該時間信息確定為時間狀語,對於從GPS收集的信息,可以將該信息識別為地點狀語等。
[0057]步驟S103,根據確定的所述至少一個數據信息在待組成語句中的句子成分,將所述至少一個數據信息組成語句。
[0058]識別了收集的每個數據信息的句子成分後,就可以按照這些數據信息對應的句子成分,按照一定的句子結構或根據語言模型進行匹配,獲得這些數據信息組成的語句,從而通過一個或多個語句對這些數據信息包含的內容進行了完整的描述。累積的語句即形成了自動日記文本。
[0059]根據本發明實施例提供的一種語句生成方法,可以根據終端的各種數據信息自動生成語句,用語句完整地描述在終端上發生的活動或事件,方便用戶通過終端對這些活動或事件進行自動記錄。
[0060]圖2為對圖1所示的本發明一種語句生成方法的進一步細化的另一個實施例的流程圖。如圖2所示,該方法包括以下步驟:
[0061]步驟S201,採集終端的至少一個數據信息。
[0062]本發明的終端是指網絡與最終用戶接觸用以實現網絡應用的各種設備,例如筆記本電腦、平板電腦、手機等。從一個終端上可以收集到各種數據信息,包括:該終端自身的運行信息,例如網絡連接信息、系統進程信息等;該終端的用戶操作信息,例如傳感器信息、微博等;該終端從外部接口接收到的信息,例如通話信息、簡訊信息、GPS信息等,這些數據信息包含文本數據,例如微博、簡訊,可以從這些信息中直接提取文字信息;還包括非文本數據,例如網絡連接信息、系統進程信息、傳感器信息等,這些是通過接口等採集的數據信息。
[0063]步驟S202,檢測所述至少一個數據信息的來源。
[0064]檢測採集到的這些數據信息的來源,這些來源即:如果該信息是GPS信息,則該來源是終端上的GPS ;如果是傳感器信息,則該來源是終端上的某個傳感器;如果是通話信息、應用程式(Applicat1n,APP)信息例如微博等,則能根據軟體程序識別器來源。
[0065]步驟S203,根據所述至少一個數據信息的來源,按照與所述來源對應的格式,將所述至少一個數據信息進行格式化,獲得至少一個格式化後的數據信息。
[0066]對採集自不同來源的數據信息,需按照不同的格式進行整理這些數據信息,以便於後續的使用。
[0067]例如:
[0068]1、微博信息:對於某一時刻用戶發布的微博,每條微博格式化後可表不為:〈時間,微博內容,用戶ID>三元組。
[0069]2、GPS信息:對於某一時刻的位置信息,每條GPS信息格式化後可表不為:
[0070]〈時間,經度,維度,高度〉四元組。
[0071]3、加速度信息:對於某一時刻的加速度信息,每條加速度信息格式化後可表示為:
[0072]〈時間,X軸加速度,y軸加速度,z軸加速度> 四元組。
[0073]4、通話信息:對於通話,簡訊等信息使用情況,具體包括:
[0074]通話:通話開始時間,通話結束時間,通話時長,主叫,被叫,電話miss時間。
[0075]簡訊:簡訊接收時間,接收簡訊長度,簡訊發送時間,發送簡訊長度。
[0076]每條通話信息格式化後可表示為:
[0077]〈時間,本手機狀態,對方手機狀態,本手機設置狀態,對方手機ID>五元組
[0078]例如本機接到來電可表示為:
[0079]
[0080]對採集到的數據信息進行格式化的格式可以有多種,以上示例只列出了基於元組的表不方式,本發明包含但不限於以上實例。
[0081]步驟S204,針對每個所述格式化後的數據信息,從資料庫中查找與所述格式化後的數據信息匹配的至少一個描述詞語。
[0082]為了便於用戶閱讀生成的語句,需對採集到的數據信息採用常規的或用戶習慣的描述語言進行描述,而資料庫中存儲了與每個格式化後的數據信息對應的一個或多個描述詞語,因此,針對每個格式化的數據信息,可以從該資料庫中查找與每個格式化的數據信息匹配的至少一個描述詞語。
[0083]例如:
[0084]1、採集到的時間信息是6:50AM,查找到的描述詞語集合為:
[0085]{早晨,清晨,北京時間上午六點五十,6:50AM,一大早}。
[0086]2、採集到的GPS信息是{經度=22.04,維度=114.3},查找到的描述詞語集合為:
[0087]{深圳華為基地,龍崗區坂田,五和大道}
[0088]3、採集到的通話記錄信息〈時間,本手機狀態,對方手機狀態,本手機設置狀態,對方手機ID>,對於通話動作的描述詞語集合為:{通話,打電話,接電話};對於通話對象的描述詞語集合為:{我,John (聯繫人)}。
[0089]4、對於採集到的加速度信息〈時間,X軸加速度,y軸加速度,z軸加速度 >,描述詞語集合可以為:
[0090]{走,散步,慢跑}。
[0091]步驟S205,根據與所述格式化後的數據信息匹配的至少一個描述詞語,確定每個所述格式化後的數據信息在待組成語句中的句子成分。
[0092]將採集到的每個數據信息進行格式化以及描述詞語的匹配後,系統對這些描述詞語會根據之前確定該描述詞語的句子成分的概率或根據使用習慣將其確定為相應的句子成分,句子成分的類型包括主語、謂語、賓語、定語、補語、狀語、表語等,例如對於收集終端的時間信息,可以將該時間信息確定為時間狀語,對於從GPS收集的信息,可以將該信息識別為地點狀語等。
[0093]步驟S206,針對每個格式化後的數據信息,根據與所述格式化後的數據信息匹配的所述至少一個描述詞語在所述資料庫中使用的概率,從與所述格式化後的數據信息匹配的所述至少一個描述詞語中選擇一個描述詞語。
[0094]在生成語句前,對於每個句子成分所採用的描述詞語一般只選擇一個,因此,需要在與格式化後的數據信息匹配的多個描述詞語中選擇一個描述詞語,該選擇的依據可以是這些描述詞語在資料庫中使用的概率,即被選擇用來生成語句的概率,或者也可以基於用戶語言習慣。
[0095]步驟S207,根據確定的所述至少一個數據信息在待組成語句中的句子成分的類型,從句法結構庫中選擇包含所述至少一個數據信息的句子成分的類型的語句結構。
[0096]在句法結構庫中存儲了各種語句結構,每種語句結構中包含了一個或多個句子成分,每個句子成分在該語句結構中具有相應的位置。從句法結構庫中選擇包含所有採集到的數據信息對應的句子成分的語句結構。
[0097]例如,句法結構庫中包含的句法結構有:
[0098][時間狀語][主語][地點狀語][謂語][賓語];
[0099][主語][謂語][賓語];等。
[0100]步驟S208,按照所述至少一個數據信息的句子成分在所述語句結構中的位置,將選擇的與所述至少一個格式化後的數據信息匹配的描述詞語組成語句。
[0101]選擇了語句結構後,按照每個格式化後的數據信息對應的句子成分在該語句結構中的位置,將選擇的與該數據信息匹配的描述詞語填充到該位置,逐一填充完各個句子成分的位置,即組成了一個語句。
[0102]例如,根據上面的舉例,可以組成以下語句:
[0103]「清晨,我和John通話。」
[0104]「早晨,我在五和大道散步,John打電話給我。」
[0105]根據本發明實施例提供的一種語句生成方法,可以根據終端的各種數據信息自動生成語句,用語句完整地描述在終端上發生的活動或事件,方便用戶通過終端對這些活動或事件進行自動記錄。
[0106]圖3為對圖1所示的本發明一種語句生成方法的進一步細化的又一個實施例的流程圖。如圖3所示,該方法包括以下步驟:
[0107]步驟S301,採集終端的至少一個數據信息。
[0108]步驟S302,檢測所述至少一個數據信息的來源。
[0109]步驟S303,根據所述至少一個數據信息的來源,按照與所述來源對應的格式,將所述至少一個數據信息進行格式化,獲得至少一個格式化後的數據信息。
[0110]步驟S304,針對每個所述格式化後的數據信息,從資料庫中查找與所述格式化後的數據信息匹配的至少一個描述詞語。
[0111]步驟S305,根據與所述格式化後的數據信息匹配的至少一個描述詞語,確定每個所述格式化後的數據信息在待組成語句中的句子成分。
[0112]步驟S306,針對每個格式化後的數據信息,根據與所述格式化後的數據信息匹配的所述至少一個描述詞語在所述資料庫中使用的概率,從與所述格式化後的數據信息匹配的所述至少一個描述詞語中選擇一個描述詞語。
[0113]步驟S307,根據確定的所述至少一個數據信息在待組成語句中的句子成分,將選擇的與所述至少一個格式化後的數據信息匹配的描述詞語與語句模型庫中的語句進行匹配。
[0114]步驟S308,獲取所述匹配後的語句。
[0115]本實施例與上述實施例的不同之處在於:步驟S307和步驟S308與上述實施例的步驟S207和步驟S208不同。
[0116]語言模型的定義是「一個語言模型通常構建為字符串s的概率分布P(s),這裡P(S)試圖反映字符串S作為一個句子出現的概率。」
[0117]在η元語言模型中,句子s=Wl,W2…Wn,其概率計算公式可以表示為:
[0118]P (s) =P (Wl) P (W2 | Wl) P (W3 | W1W2)…P (ffn | ffl —ffn-1)
[0119]在本實施例中,語句模型庫中存儲了各種語句,將要生成語句的與格式化的數據信息匹配的描述詞語與語句模型庫中的語句進行匹配,獲取匹配後的語句。
[0120]具體地,例如,語句模型庫中存儲了語句I 早晨Lyn打電話給我」,則認為以上舉例中的要生成語句的描述詞語及句子成分與該語句I可以匹配,則獲得匹配後的語句為「早晨John打電話給我」。
[0121]語句模型庫中可能還存儲了語句2 「清晨,我和Lily通話」,則認為以上舉例中的要生成語句的描述詞語及句子成分與該語句2也可以匹配,但是由語句I的描述詞語構成的語句I在生成的日記文本中出現的概率為54%,而由語句2的描述詞語構成的語句2在生成的日記文本中出現的概率為30%,則選擇與在生成的日記文本中出現的概率最高的語句I進行匹配,獲取匹配後的語句。
[0122]根據本發明實施例提供的一種語句生成方法,可以根據終端的各種數據信息自動生成語句,用語句完整地描述在終端上發生的活動或事件,方便用戶通過終端對這些活動或事件進行自動記錄。
[0123]圖4為本發明一種語句生成裝置的一個實施例的結構示意圖。如圖4所示,該裝置1000包括:
[0124]收集單元11,用於收集終端的至少一個數據信息,其中,所述數據信息包括所述終端的運行信息、所述終端的操作信息和所述終端從外部接口接收到的信息中的至少一種。
[0125]本發明的終端是指網絡與最終用戶接觸用以實現網絡應用的各種設備,例如筆記本電腦、平板電腦、手機等。從一個終端上可以收集到各種數據信息,包括:該終端自身的運行信息,例如網絡連接信息、系統進程信息等;該終端的用戶操作信息,例如傳感器信息、微博等;該終端從外部接口接收到的信息,例如通話信息、簡訊信息、GPS信息等,這些數據信息包含文本數據,例如微博、簡訊,可以從這些信息中直接提取文字信息;還包括非文本數據,例如網絡連接信息、系統進程信息、傳感器信息等,這些是通過接口等採集的數據信息。本發明的收集單元11可以統一收集終端的這些數據信息並進行整理。
[0126]確定單元12,用於確定所述至少一個數據信息的每個數據信息在待組成語句中的句子成分。
[0127]對於收集的每個數據信息,確定單元12將其確定為相應的句子成分,句子成分的類型包括主語、謂語、賓語、定語、補語、狀語、表語等,例如對於收集終端的時間信息,可以將該時間信息確定為時間狀語,對於從GPS收集的信息,可以將該信息確定為地點狀語等。
[0128]組成單元13,用於根據確定的所述至少一個數據信息在待組成語句中的句子成分,將所述至少一個數據信息組成語句。
[0129]識別了收集的每個數據信息的句子成分後,組成單元13就可以按照這些數據信息對應的句子成分,按照一定的句子結構或與一些語言模型進行匹配,獲得這些數據信息組成的語句,從而通過一個或多個語句對這些數據信息包含的內容進行了完整的描述。累積的語句即形成了自動日記文本。
[0130]根據本發明實施例提供的一種語句生成裝置,可以根據終端的各種數據信息自動生成語句,用語句完整地描述在終端上發生的活動或事件,方便用戶通過終端對這些活動或事件進行自動記錄。
[0131]圖5為對圖4所示的本發明一種語句生成裝置的進一步細化的另一個實施例的結構示意圖。如圖5所示,該裝置2000包括:
[0132]收集單元21,用於收集終端的至少一個數據信息,其中,所述數據信息包括所述終端的運行信息、所述終端的操作信息和所述終端從外部接口接收到的信息中的至少一種。
[0133]在本實施例中,收集單元21包括採集子單元211、檢測子單元212和格式化子單元213。
[0134]採集子單元211,用於採集終端的至少一個數據信息。
[0135]本發明的終端是指網絡與最終用戶接觸用以實現網絡應用的各種設備,例如筆記本電腦、平板電腦、手機等。採集子單元211從一個終端上可以採集到各種數據信息,包括:該終端自身的運行信息,例如網絡連接信息、系統進程信息等;該終端的用戶操作信息,例如傳感器信息、微博等;該終端從外部接口接收到的信息,例如通話信息、簡訊信息、GPS信息等,這些數據信息包含文本數據,例如微博、簡訊,可以從這些信息中直接提取文字信息;還包括非文本數據,例如網絡連接信息、系統進程信息、傳感器信息等,這些是通過接口等採集的數據信息。
[0136]檢測子單元212,用於檢測所述至少一個數據信息的來源。
[0137]檢測子單元212檢測採集到的這些數據信息的來源,這些來源即:如果該信息是GPS信息,則該來源是終端上的GPS ;如果是傳感器信息,則該來源是終端上的某個傳感器;如果是通話信息、應用程式(Applicat1n,APP)信息例如微博等,則能根據軟體程序識別器來源。
[0138]格式化子單元213,用於根據所述至少一個數據信息的來源,按照與所述來源對應的格式,將所述至少一個數據信息進行格式化,獲得至少一個格式化後的數據信息。
[0139]對採集自不同來源的數據信息,需格式化子單元213按照不同的格式進行整理這些數據信息,以便於後續的使用。
[0140]對採集到的數據信息進行格式化的格式可以有多種,例如元組等表示方式,本發明包含但不限於以上實例。
[0141]確定單元22,用於確定所述至少一個數據信息的每個數據信息在待組成語句中的句子成分。
[0142]在本實施例中,確定單元22包括查找子單元221和確定子單元222。
[0143]查找子單元221,用於針對每個所述格式化後的數據信息,從資料庫中查找與所述格式化後的數據信息匹配的至少一個描述詞語。
[0144]為了便於用戶閱讀生成的語句,需對採集到的數據信息採用常規的或用戶習慣的描述語言進行描述,而資料庫中存儲了與每個格式化後的數據信息對應的一個或多個描述詞語,因此,針對每個格式化的數據信息,查找子單元221可以從該資料庫中查找與每個格式化的數據信息匹配的至少一個描述詞語。
[0145]確定子單元222,用於根據與所述格式化後的數據信息匹配的至少一個描述詞語,確定每個所述格式化後的數據信息在待組成語句中的句子成分。
[0146]將採集到的每個數據信息進行格式化以及描述詞語的匹配後,確定子單元222對這些描述詞語會根據之前確定該描述詞語的句子成分的概率或根據使用習慣將其確定為相應的句子成分,句子成分的類型包括主語、謂語、賓語、定語、補語、狀語、表語等,例如對於收集終端的時間信息,可以將該時間信息確定為時間狀語,對於從GPS收集的信息,可以將該信息確定為地點狀語等。
[0147]選擇單元23,用於針對每個格式化後的數據信息,根據與所述格式化後的數據信息匹配的所述至少一個描述詞語在所述資料庫中使用的概率,從與所述格式化後的數據信息匹配的所述至少一個描述詞語中選擇一個描述詞語。
[0148]在生成語句前,對於每個句子成分所採用的描述詞語一般只選擇一個,因此,選擇單元23需要在與格式化後的數據信息匹配的多個描述詞語中選擇一個描述詞語,該選擇的依據可以是這些描述詞語在資料庫中使用的概率,即被選擇用來生成語句的概率,或者也可以基於用戶語言習慣。
[0149]組成單元24,用於根據確定的所述至少一個數據信息在待組成語句中的句子成分,將所述至少一個數據信息組成語句。
[0150]在本實施例中,組成單元24包括選擇子單元241和組成子單元242。
[0151]選擇子單元241,用於根據所述至少一個數據信息的句子成分的類型,從句法結構庫中選擇包含所述至少一個數據信息的句子成分的類型的語句結構。
[0152]在句法結構庫中存儲了各種語句結構,每種語句結構中包含了一個或多個句子成分,每個句子成分在該語句結構中具有相應的位置。選擇子單元241從句法結構庫中選擇包含所有採集到的數據信息對應的句子成分的語句結構。
[0153]組成子單元242,用於按照所述至少一個數據信息的句子成分在所述語句結構中的位置,將選擇的與所述至少一個格式化後的數據信息匹配的描述詞語組成語句。
[0154]選擇了語句結構後,組成子單元242按照每個格式化後的數據信息對應的句子成分在該語句結構中的位置,將選擇的與該數據信息匹配的描述詞語填充到該位置,逐一填充完各個句子成分的位置,即組成了一個語句。
[0155]根據本發明實施例提供的一種語句生成裝置,可以根據終端的各種數據信息自動生成語句,用語句完整地描述在終端上發生的活動或事件,方便用戶通過終端對這些活動或事件進行自動記錄。
[0156]圖6為對圖4所示的本發明一種語句生成裝置的進一步細化的又一個實施例的結構示意圖。如圖6所示,該裝置3000包括:
[0157]收集單元31,用於收集終端的至少一個數據信息,其中,所述數據信息包括所述終端的運行信息、所述終端的操作信息和所述終端從外部接口接收到的信息中的至少一種。
[0158]在本實施例中,收集單元31包括採集子單元311、檢測子單元312和格式化子單元313。
[0159]採集子單元311,用於採集終端的至少一個數據信息。
[0160]檢測子單元312,用於檢測所述至少一個數據信息的來源。
[0161]格式化子單元313,用於根據所述至少一個數據信息的來源,按照與所述來源對應的格式,將所述至少一個數據信息進行格式化,獲得至少一個格式化後的數據信息。
[0162]確定單元32,用於確定所述至少一個數據信息的每個數據信息在待組成語句中的句子成分。
[0163]在本實施例中,確定單元32包括查找子單元321和確定子單元322。
[0164]查找子單元321,用於針對每個所述格式化後的數據信息,從資料庫中查找與所述格式化後的數據信息匹配的至少一個描述詞語。
[0165]確定子單元322,用於根據與所述格式化後的數據信息匹配的至少一個描述詞語,確定每個所述格式化後的數據信息在待組成語句中的句子成分。
[0166]選擇單元33,用於針對每個格式化後的數據信息,根據與所述格式化後的數據信息匹配的所述至少一個描述詞語在所述資料庫中使用的概率,從與所述格式化後的數據信息匹配的所述至少一個描述詞語中選擇一個描述詞語。
[0167]組成單元34,用於根據確定的所述至少一個數據信息在待組成語句中的句子成分,將所述至少一個數據信息組成語句。
[0168]在本實施例中,組成單元34包括匹配子單元341和獲取子單元342。
[0169]匹配子單元341,用於根據確定的所述至少一個數據信息在待組成語句中的句子成分,將選擇的與所述至少一個格式化後的數據信息匹配的描述詞語與語句模型庫中的語句進行匹配。
[0170]獲取子單元342,用於獲取所述匹配後的語句。
[0171]本實施例與上述實施例的不同之處在於:組成單元34與上述實施例的組成單元24不同。
[0172]語言模型的定義是「一個語言模型通常構建為字符串s的概率分布P(S),這裡P(S)試圖反映字符串S作為一個句子出現的概率。」
[0173]在η元語言模型中,句子s=Wl,W2…Wn,其概率計算公式可以表示為:
[0174]P (s) =P (Wl) P (W2 | Wl) P (W3 | W1W2)…P (ffn | ffl —ffn-1)
[0175]在本實施例中,語句模型庫中存儲了各種語句,匹配子單元341將要生成語句的與格式化的數據信息匹配的描述詞語與語句模型庫中的語句進行匹配,獲取子單元342獲取匹配後的語句。
[0176]具體地,例如,語句模型庫中存儲了語句I 早晨Lyn打電話給我」,則認為以上舉例中的要生成語句的描述詞語及句子成分與該語句I可以匹配,則獲得匹配後的語句為「早晨John打電話給我」。
[0177]語句模型庫中可能還存儲了語句2 「清晨,我和Lily通話」,則認為以上舉例中的要生成語句的描述詞語及句子成分與該語句2也可以匹配,但是由語句I的描述詞語構成語句I在生成的日記文本中出現的概率為54%,而由語句2的描述詞語構成語句2在生成的日記文本中出現的概率為30%,則選擇與在生成的日記文本中出現的概率最高的語句I進行匹配,獲取匹配後的語句。
[0178]根據本發明實施例提供的一種語句生成裝置,可以根據終端的各種數據信息自動生成語句,用語句完整地描述在終端上發生的活動或事件,方便用戶通過終端對這些活動或事件進行自動記錄。
[0179]以上所揭露的僅為本發明較佳實施例而已,當然不能以此來限定本發明之權利範圍,因此依本發明權利要求所作的等同變化,仍屬本發明所涵蓋的範圍。
【權利要求】
1.一種語句生成方法,其特徵在於,包括: 收集終端的至少一個數據信息,其中,所述數據信息包括所述終端的運行信息、所述終端的操作信息和所述終端從外部接口接收到的信息中的至少一種; 確定所述至少一個數據信息的每個數據信息在待組成語句中的句子成分; 根據確定的所述至少一個數據信息在待組成語句中的句子成分,將所述至少一個數據信息組成語句。
2.如權利要求1所述的方法,其特徵在於,所述收集終端的至少一個數據信息,包括: 採集終端的至少一個數據信息; 檢測所述至少一個數據信息的來源; 根據所述至少一個數據信息的來源,按照與所述來源對應的格式,將所述至少一個數據信息進行格式化,獲得至少一個格式化後的數據信息; 所述確定所述至少一個數據信息的每個數據信息在待組成語句中的句子成分,包括:針對每個所述格式化後的數據信息,從資料庫中查找與所述格式化後的數據信息匹配的至少一個描述詞語; 根據與所述格式化後的數據信息匹配的至少一個描述詞語,確定每個所述格式化後的數據信息在待組成語句中的句子成分。
3.如權利要求2所述的方法,其特徵在於,所述根據與所述格式化後的數據信息匹配的至少一個描述詞語,確定每個所述格式化後的數據信息在待組成語句中的句子成分之後,以及所述根據確定的所述至少一個數據信息在待組成語句中的句子成分,將所述至少一個數據信息組成語句之前,還包括: 針對每個格式化後的數據信息,根據與所述格式化後的數據信息匹配的所述至少一個描述詞語在所述資料庫中使用的概率,從與所述格式化後的數據信息匹配的所述至少一個描述詞語中選擇一個描述詞語。
4.如權利要求3所述的方法,其特徵在於,所述根據確定的所述至少一個數據信息在待組成語句中的句子成分,將所述至少一個數據信息組成語句,包括: 根據確定的所述至少一個數據信息在待組成語句中的句子成分的類型,從句法結構庫中選擇包含所述至少一個數據信息的句子成分的類型的語句結構; 按照所述至少一個數據信息的句子成分在所述語句結構中的位置,將選擇的與所述至少一個格式化後的數據信息匹配的描述詞語組成語句。
5.如權利要求3所述的方法,其特徵在於,所述根據確定的所述至少一個數據信息在待組成語句中的句子成分,將所述至少一個數據信息組成語句,包括: 根據確定的所述至少一個數據信息在待組成語句中的句子成分,將選擇的與所述至少一個格式化後的數據信息匹配的描述詞語與語句模型庫中的語句進行匹配; 獲取所述匹配後的語句。
6.一種語句生成裝置,其特徵在於,包括: 收集單元,用於收集終端的至少一個數據信息,其中,所述數據信息包括所述終端的運行信息、所述終端的操作的信息和所述終端從外部接口接收到的信息中的至少一種; 確定單元,用於確定所述至少一個數據信息的每個數據信息在待組成語句中的句子成分; 組成單元,用於根據確定的所述至少一個數據信息在待組成語句中的句子成分,將所述至少一個數據信息組成語句。
7.如權利要求6所述的裝置,其特徵在於,所述收集單元包括: 採集子單元,用於採集終端的至少一個數據信息; 檢測子單元,用於檢測所述至少一個數據信息的來源; 格式化子單元,用於根據所述至少一個數據信息的來源,按照與所述來源對應的格式,將所述至少一個數據信息進行格式化,獲得至少一個格式化後的數據信息; 所述確定單元包括: 查找子單元,用於針對每個所述格式化後的數據信息,從資料庫中查找與所述格式化後的數據信息匹配的至少一個描述詞語; 確定子單元,用於根據與所述格式化後的數據信息匹配的至少一個描述詞語,確定每個所述格式化後的數據信息在待組成語句中的句子成分。
8.如權利要求7所述的裝置,其特徵在於,還包括: 選擇單元,用於針對每個格式化後的數據信息,根據與所述格式化後的數據信息匹配的所述至少一個描述詞語在所述資料庫中使用的概率,從與所述格式化後的數據信息匹配的所述至少一個描述詞語中選擇一個描述詞語。
9.如權利要求8所述的裝置,其特徵在於,所述組成單元包括: 選擇子單元,用於根據所述至少一個數據信息的句子成分的類型,從句法結構庫中選擇包含所述至少一個數據信息的句子成分的類型的語句結構; 組成子單元,用於按照所述至少一個數據信息的句子成分在所述語句結構中的位置,將選擇的與所述至少一個格式化後的數據信息匹配的描述詞語組成語句。
10.如權利要求8所述的裝置,其特徵在於,所述組成單元包括: 匹配子單元,用於根據確定的所述至少一個數據信息在待組成語句中的句子成分,將選擇的與所述至少一個格式化後的數據信息匹配的描述詞語與語句模型庫中的語句進行匹配; 獲取子單元,用於獲取所述匹配後的語句。
【文檔編號】G06F17/30GK104462145SQ201310440040
【公開日】2015年3月25日 申請日期:2013年9月24日 優先權日:2013年9月24日
【發明者】董振華, 歐陽靖民, 張弓 申請人:華為技術有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀