一種聊天表情輸入的方法和裝置製造方法
2023-05-02 14:57:06
一種聊天表情輸入的方法和裝置製造方法
【專利摘要】本發明公開了一種聊天表情輸入的方法和裝置,涉及輸入法【技術領域】。所述方法包括:預設字符序列和/或字詞序列與各表情之間的對應關係;所述對應關係通過收集語聊資源數據和各主題的表情資源數據,利用所述語聊資源數據對所述表情資源數據按表情類別進行構建;接收用戶輸入的輸入序列;根據所述對應關係針對所述輸入序列進行分析,將所述輸入序列與所述字符序列和/或字詞序列進行匹配,以獲得所述字符序列和/或字詞序列對應的各主題的表情;將各主題的表情進行排序,並作為候選項在客戶端進行展示。本發明可以便捷的在用戶輸入過程中為用戶提供各種主題的表情,提高用戶的表情輸入效率。
【專利說明】一種聊天表情輸入的方法和裝置
【技術領域】
[0001]本發明涉及輸入法【技術領域】,具體涉及一種聊天表情輸入的方法和裝置。
【背景技術】
[0002]輸入法是為將各種符號輸入計算機或其他設備(如手機)而採用的編碼方法。常見的輸入法包括搜狗輸入法,微軟輸入法等等。
[0003]傳統的表情輸入大致有幾種情況:其一是平臺本身具有表情輸入模塊,比如qq等聊天工具嵌入的表情輸入模塊,其自帶默認的輸入表情,也可以安裝第三方表情包,用戶也可以自定義圖片資源作為表情,當用戶輸入表情時,點擊表情的輸入按鈕,選擇表情進行輸入,但是該種情況與輸入法完全脫離,用戶在輸入過程中需要單獨點擊表情輸入按鈕,逐頁翻找並點擊自己需要和喜歡的表情來完成輸入過程;
[0004]其二,是輸入法自帶簡單的符號表情,當用戶輸入到相應字符時,比如(「哈哈」對應的符號表情「ο( η _ η )ο?」),符號表情以候選項的形式供用戶選擇。單這種方法的候選表情簡單,無法給用戶提供豐富多彩的表情輸入。
[0005]其三,是輸入法提供加載的第三方表情包,提供用戶表情輸入的入口,當用戶有需求輸入表情時,需要點擊進入該應用程式表情輸入的入口,然後在大量的表情資源中,逐頁翻找並點擊自己需要或喜歡的表情完成輸入過程。
[0006]以按鈕接口的形式嵌入在應用程式中,提供給用戶進行表情輸入,這種方法存在多種問題:
[0007]1.用戶的聊天行為屬於即時通信,時效性極強。因此,表情輸入的時效性非常重要。如果用戶喜歡並安裝的各種主題表情庫有多個(包括阿狸、嘻哈猴、輕鬆熊、冷兔等等),每個表情庫又包含上百種表情符號或圖片(如微笑、哈哈大笑、猥瑣的笑、抹眼淚、嚎啕大哭等等)。那麼,有限的時間內,在眾多表情庫中逐一翻找到合適的表情所花費的時間成本,會成為用戶有效使用各種表情增強溝通效果的瓶頸。
[0008]2.因為考慮到用戶使用表情的操作成本,表情包製作方也會酌情精簡表情內容,這也從某種程度上制約了聊天表情的發展和廣泛使用。
[0009]3.大多數聊天工具只會提供默認表情。默認表情相對比較單調,更多豐富的多元化的主題聊天表情資源可以有效提高與朋友聊天的好感度,但是為了使用這些表情,用戶需要經過很多網上操作步驟,從各種渠道獲取表情包信息並將表情包下載到本地,有時還需要進行手工加載才可以正常使用表情包。對於操作生疏或者沒有足夠耐心的用戶,在網絡資源中成功獲取並安裝合適的表情包所花費的時間成本,可能會導致他們選擇放棄。
[0010]4.對於下載好的表情包,如果用戶切換聊天平臺等輸入場景,表情包需要重新下載或更新,用戶的常用表情收藏信息也同樣面臨移植的問題。
[0011]輸入的候選表情內容僅限於第三方製作好的表情包。若非特意整理,很多明星人物、政治人物的誇張表情照片、GIF等多媒體資源並不能夠及時的作為候選表情,降低了用戶的輸入效率。
【發明內容】
[0012]鑑於上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的一種聊天表情輸入裝置和相應的一種聊天表情輸入方法。
[0013]依據本發明的一個方面,提供了一種聊天表情輸入的方法,包括:
[0014]預設字符序列和/或字詞序列與各表情之間的對應關係;
[0015]接收用戶輸入的輸入序列;
[0016]根據所述對應關係針對所述輸入序列進行分析,將所述輸入序列與所述字符序列和/或字詞序列進行匹配,以獲得所述字符序列和/或字詞序列對應的各主題的表情;
[0017]將各主題的表情進行排序,並作為候選項在客戶端進行展示。
[0018]根據本發明的另一方面,提供了一種聊天表情輸入的裝置,包括:
[0019]表情關係預置模塊,適於預設字符序列和/或字詞序列與各表情之間的對應關係;
[0020]接收模塊,適於接收用戶輸入的輸入序列;
[0021]表情候選項分析模塊,適於根據所述對應關係針對所述輸入序列進行分析,將所述輸入序列與所述字符序列和/或字詞序列進行匹配,以獲得所述字符序列和/或字詞序列對應的各主題的表情;
[0022]展示模塊,適於將各主題的表情進行排序,並作為候選項在客戶端進行展示。
[0023]相對現有技術,本發明具有如下優點:
[0024]本發明將各種來源的表情資源數據,利用語聊資源數據,比如聊天日誌(如匿名獲取qq、微信等聊天工具有表情輸入的聊天日誌)、社區評論(如京東、大眾點評等有表情輸入的評論內容)、社交內容(如qq空間、新浪微博、人人網等有表情輸入的狀態或評論內容),對所有獲取的表情資源數據進行分析,按表情類別構建字符序列和/或字詞序列與各主題的表情之間的對應關係;然後即可針對用戶的某一輸入,將對應的各主題的表情作為候選項排序展示給用戶。
[0025]上述過程中,其一,將表情作為輸入法的詞庫,可直接對用戶的輸入,根據字符序列和/或字詞序列與各主題的表情之間的對應關係檢索到各主題的表情作為候選項在輸入法中進行展示,直接提供給用戶選擇;其二,上述過程是通過精確匹配用戶表情輸入需求,提高表情的輸入效率,降低用戶在表情輸入過程中翻找待輸入的表情所花費的時間成本;其三,該種方式不用考慮表情包的製作成本和內容,可以任意發揮製作方的創造力,降低對聊天表情的發展和廣泛使用的制約;其四,由於本發明將各主題的表情進行集中分類處理,用戶不用到處下載各主題的表情包,降低用戶尋找表情包的時間成本;其五,由於本發明的表情是輸入法的候選項,用戶在切換聊天平臺等輸入場景時,不需要重新下載或更新表情包,也避免用戶的常用表情收藏信息的移植問題;其六,本發明各主題的表情範圍廣,覆蓋面積大,可以給用戶提供更多、更豐富的表情。
【專利附圖】
【附圖說明】
[0026]通過閱讀下文優選實施方式的詳細描述,各種其他的優點和益處對於本領域普通技術人員將變得清楚明了。附圖僅用於示出優選實施方式的目的,而並不認為是對本發明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0027]圖1示出了根據本發明一個實施例的一種聊天表情輸入的方法的流程示意圖;
[0028]圖2示出了根據本發明一個實施例的一種聊天表情輸入的方法的流程示意圖;
[0029]圖3示出了根據本發明一個實施例的在雲端構建字符序列和/或字詞序列與各表情之間的對應關係的邏輯示意圖;
[0030]圖3A示出了根據本發明一個實施例的表情資源示例;
[0031]圖4示出了根據本發明一個實施例的字符序列和/或字詞序列與各表情之間的對應關係的更新不例;
[0032]圖5示出了根據本發明一個實施例的一種聊天表情輸入的方法的流程示意圖;
[0033]圖6示出了根據本發明一個實施例的一種聊天表情輸入的方法的流程示意圖;
[0034]圖6A不出了根據本發明一個實施例的表情輸入不例;
[0035]圖7示出了根據本發明一個實施例的一種聊天表情輸入的裝置的結構示意圖;
[0036]圖8示出了根據本發明一個實施例的一種聊天表情輸入的系統的結構示意圖。
【具體實施方式】
[0037]下面將參照附圖更詳細地描述本公開的示例性實施例。
[0038]本發明的核心思想之一是:本發明將收集的各種來源的表情資源數據,比如網際網路中各主題的表情包資源(如qq的阿狸、嘻哈猴、郭德綱真人誇張表情照片集等的表情包)、第三方合作的表情包資源(輸入法直接與卡通表情生產方進行合作並搭建獲取流程)、用戶產生的自定義的表情內容(輸入法直接開放接口是用戶可以添加自定義表情並共享)等表情資源數據,利用語聊資源數據,比如聊天日誌(如匿名獲取qq、微信等聊天工具有表情輸入的聊天日誌)、社區評論(如京東、大眾點評等有表情輸入的評論內容)、社交內容(如qq空間、新浪微博、人人網等有表情輸入的狀態或評論內容),對所有獲取的表情資源數據進行分析,按表情類別構建字符序列和/或字詞序列與各主題的表情之間的對應關係;然後即可針對用戶的某一輸入,將對應的各主題的表情作為候選項排序展示給用戶。給用戶提供更方便、更快捷、更豐富的表情輸入。
[0039]實施例一
[0040]參照圖1,其示出了本發明的一種聊天表情輸入的方法的流程示意圖,具體可以包括:
[0041]步驟110,預設字符序列和/或字詞序列與各表情之間的對應關係;
[0042]在本發明實施例中,可在線或線下構建字符序列和/或字詞序列與各主題的表情之間的對應關係。在本發明實施例中優選的,在雲端伺服器構建字符序列和/或字詞序列與各主題的表情之間的對應關係。
[0043]優選的,步驟110包括:
[0044]步驟S100,通過收集語聊資源數據和各主題的表情資源數據,利用所述語聊資源數據對所述表情資源數據按表情類別構建字符序列和/或字詞序列與各表情之間的對應關係。
[0045]在本發明中各種來源的表情資源數據包括各種來源下的各種主題的表情資源數據。比如阿狸、嘻哈猴、郭德綱等真人誇張表情照片集等主題表情包。
[0046]在本發明實施例中,可以從不同的數據途徑獲取表情資源,比如網絡中的各種主題的表情資源(包括自定義主題的表情資源等)。然後利用語聊資源,也即利用海量用戶在實際的評論、聊天過程中輸入文本內容時與其輸入的表情的對應關係,通過對用戶輸入的文本內容和與文本內容對應的表情,對表情資源中的各主題的表情進行分類,從而得到關鍵詞與表情資源中的各主題的表情的對應關係,從而即可構建字符序列和/或字詞序列與各主題的表情之間的對應關係。
[0047]優選的,所述對應關係通過收集語聊資源數據和各主題的表情資源數據,利用所述語聊資源數據對所述表情資源數據按表情類別進行構建包括:
[0048]子步驟111,獲取語聊資源數據和各主題的表情資源數據;所述語聊資源數據包括第二表情及其對應的文本內容;
[0049]本發明實施例可以從多個方面獲取語聊資源數據,語聊資源數據是用戶在聊天、評論等過程中產生的數據,其可能在輸入文字時輸入與文字相關的表情,比如:聊天日誌(如獲取qq、微信等聊天工具有表情輸入的聊天日誌,當然在獲取時可將用戶名等私人信息進行匿名加密處理),社區評論(如京東、大眾點評等有表情輸入的評論內容),社交內容(如qq空間、新浪微博、人人網等有表情輸入的狀態或評論內容)。那麼本發明實施例則可通過獲取各種來源的語聊資源數據,以收集裡面的文本內容和與該文本內容相關的第二表情,以備後續分析。
[0050]本發明也可從多個方面獲取表情資源數據,比如:從網際網路中獲取各主題的表情包資源(如qq的阿狸、嘻哈猴、郭德綱真人誇張表情照片集等主題表情包,用戶通過自定義表情接口添加的自定義表情包,該自定義表情包可以理解為自定義主題表情包),與第三方合作,直接獲取第三方合作的主題表情包資源(輸入法直接與卡通表情生產方進行合作並搭建獲取流程)等。
[0051]優選的,獲得所述源表情資源數據之後還包括:將所述源表情資源數據中的表情轉換為統一系統平臺下的標準格式的表情。
[0052]由於獲取的原始聊天表情資源與各個輸入環境之間存在兼容性的問題,因此,需要對各種渠道來源的表情制定標準,通過轉換和轉碼,實現規格和編碼在同一系統平臺的統一(即移動軟體平臺、PC軟體平臺均設立不同的標準)。
[0053]子步驟112,結合所述語聊資源數據包括的對應第二表情的文本內容,對所述各主題的表情資源數據中的每個第一表情分別進行分類,構建字符序列和/或字詞序列與每個主題的各種表情之間的對應關係。
[0054]在本發明實施例中,上述第一表情是從各種來源獲取的各種主題表情資源中的表情;第二表情是從各種來源獲取的語聊資源中的表情。在本發明中,以各主題表包中的表情為例,對各主題表情中的每個第一表情進行分類,將屬於同一類別的不同主題的表情放入一個表情類別中,比如微笑。
[0055]另外,在本發明中,會預先設置表情類別,比如微笑,大笑,冷笑等表情類別,每個表情類別下會預先設置第二分類對應的關鍵詞。分類時,以表情資源資料庫中的第二表情為分類的目標,結合語聊資源數據中對應第二表情的文本內容,和預先標註好的表情類別,對表情資源資料庫中的第一表情進行分類。
[0056]優選的,結合所述語聊資源數據包括的對應第二表情的文本內容,對所述表情資源數據中的每個第一表情分別進行分類,包括:
[0057]子步驟1121,根據所述語聊資源數據包括的第二表情及其文本內容,分別挖掘所述表情資源數據中各個第一表情各自對應的各第一關鍵詞;
[0058]在本發明實施例中,語聊資源數據中的第二表情基本上包含於表情資源數據中的第二表情中,那麼對於兩者,可通過表情匹配獲取第一表情的文本內容,從而可從所述文本內容中挖掘第一表情的第一關鍵詞。所述第一關鍵詞為所述表情資源數據中第一表情對應預置的標籤文字。
[0059]優選的,本子步驟1121包括:
[0060]子步驟S11,使用符號匹配規則和圖片內容判斷規則從所述語聊資源數據中提取所述第二表情和所述第二表情對應的文本內容;
[0061]對於收集到的各種來源的語聊資源數據,其中可能存在大量沒有與表情相關的文本內容,那麼本發明可通過符號匹配規則和圖片內容判斷規則從所述語聊資源數據中提取第二表情和對應的文本內容。比如對於符號表情「:)」,則可通過符號匹配規則獲取其前或者其後出現的文本內容(比如聊天內容,或者評論內容等);對於圖片,則可通過圖片內容判斷規則去判斷圖片是否為表情圖片,如果是,則提取該圖片之前和/或者之後的文本內容。其中,圖片內容判斷規則採用通用的圖片內容判斷方法即可,本發明不對其加以限制,比如通過預先對各種類別的表情圖片,收集大量樣本進行像素矩陣訓練(訓練方法可以採用任意一種,本發明不對其加以限制),獲得表情圖片識別模型,那麼對於語聊資源數據中的圖片表情,則可獲取其像素矩陣,然後輸入表情圖片識別模型進行識別。
[0062]子步驟S12,在所述各主題的表情資源數據中,分別將所述第一表情與提取的第二表情進行匹配,匹配成功則分別將第一表情與第二表情的文本內容進行關聯,並從所述文本內容中挖掘各第一關鍵詞與第一表情進行對應;
[0063]具體的,本步驟將所述源表情資源數據中的第一表情與從所述語聊資源數據中提取的第二表情進行匹配。即在本發明實施例中,在提取了第二表情及其對應的文本內容後,那麼即可將第二表情和各主題的表情資源數據中的第一表情進行匹配,該匹配可以是一一匹配,也可以是模糊匹配(即對相似度高於閾值的圖片也進行匹配)。
[0064]然後,對於匹配上的第一表情,則將其與第二表情對應的文本內容進行關聯,並從所述文本內容中挖掘各第一關鍵詞。
[0065]子步驟1122,根據所述第一關鍵詞和預置的對應每個表情類別的各第二關鍵詞,對所述各第一表情分別進行分類。
[0066]在本發明實施例中,會預置各種表情類別,可通過結合人工標註和/或模糊匹配的方法,確定所有的標誌性的明確細分的表情類別(包括微笑、哈哈大笑、猥瑣的笑等等),在每個表情類別下會設置與該類別強相關的各第二關鍵詞。
[0067]然後即可針對第一表情的各關鍵詞和預置的每個表情類別下的各第二關鍵詞,對各個第一表情進行分類
[0068]優選的,所述子步驟1122,包括:
[0069]子步驟S21,針對匹配上的各第一表情,基於每個表情類別下的各第二關鍵詞,以該第一表情下的各第一關鍵詞進行情感分類預測,確定所述第一表情的表情類別;
[0070]在本發明實施例中,使用通用的情感分析分類的方法,基於第一表情下面的第一關鍵詞進行預測,以對第一表情進行分類,從而確定每個表情的所屬類別。情感分析分類方法原理大致為:利用每個類別的標註樣本訓練分類器,比如利用樸素貝葉斯方法(NaiveBayes, NB)構建分類器,然後針對每個分類對象的分類特徵(在本發明實施例中,第一表情為分類對象,相應第一關鍵詞即為分類特徵)利用所述分類器進行識別。在本發明實施例中,對各個類別表情類別分別對應一個情感分值,比如大笑為+5,微笑+4,猥瑣的笑+3等,分別與分類器的分類結果對應。
[0071]子步驟S22,針對未匹配上的各第一表情,基於每個表情類別下的各第二關鍵詞,將所述第一表情標註為具體的表情類別。
[0072]而對於表情資源數據中的未匹配上的各第一表情,即沒有文本內容以挖掘第一關鍵詞的第一表情,本發明可以通過標註指派到具體的表情分類。
[0073]再分類完畢後,根據各表情所屬類別的關鍵詞以及挖掘的關鍵詞與表情的對應關係,即可構建字符序列和/或字詞序列與各表情類別之間的對應關係。
[0074]優選的,所述構建字符序列和/或字詞序列與每個主題的各種表情類別之間的對應關係包括:
[0075]子步驟S31,針對各第一表情,將其對應的第一關鍵詞和第二關鍵詞合併為該第一表情的標籤詞彙;
[0076]優選的,在合併之前,還包括:根據語聊資源數據中對各第一關鍵詞的使用頻率,對各第一關鍵詞進行篩選,將篩選後的第一關鍵詞和第二關鍵詞合併為該第一表情的標籤詞彙。
[0077]即將使用頻率大於閾值的第一關鍵詞保留,然後和第二關鍵詞合併為該第一表情的標籤詞彙。當然,對於不存在第一關鍵詞的第一表情,直接採用第二關鍵詞作為該第一表情的標籤詞彙。
[0078]優選的,在合併之前,可對類別關鍵詞進行優化,即將某一類別下的所有的表情的第一關鍵詞和初始確定的第二關鍵詞進行匯總,將在語聊資源數據中詞頻大於閾值的各關鍵詞作為最終的第二關鍵詞。
[0079]本步驟可優化類別的關鍵詞,使其更精準。
[0080]子步驟S32,根據所述第一表情與對應的各標籤詞彙、所述第一表情所屬的表情類別之間的對應關係,基於所述各標籤詞彙構建字符序列和/或字詞序列與每個主題的各表情之間的對應關係;具體包括:
[0081]子步驟S321,將各表情標籤詞彙進行匯總,構建索引;所述索引為各標籤詞彙到表情的對應關係。
[0082]其中,優選的,所述各標籤詞彙到表情的對應關係包括:
[0083]子步驟S322,針對每個標籤詞彙對應的各個表情,按照對應的表情類別在語料資源數據中的使用次數進行倒排。
[0084]即本發明實施例中,對每個表情的描述文字的各第一關鍵詞(如果如前所述,第一關鍵詞存在並可以從語聊資源數據獲取)和表情所在表情類別的各第二關鍵詞(如果該表情挖掘不到語聊資源數據,則對其標註類別得到)建立索引,生成標籤到表情的倒排信息表。倒排信息表中關鍵詞的順序是對應的第一表情在所有語聊資源數據中的使用次數。
[0085]優選的,所述根據所述第一表情與對應的各標籤詞彙、所述第一表情所屬的表情類別之間的對應關係,基於所述各標籤詞彙構建字符序列和/或字詞序列與每個主題的各表情之間的對應關係包括:
[0086]子步驟S323,將每個第一表情的各標籤詞彙構建為該第一表情的文本特徵向量;
[0087]子步驟S324,利用所述文本特徵向量對每個主題的第一表情進行聚類,獲得包含各主題的相關表情的簇並記錄簇關係,將所述簇關係作為字符序列和/或字詞序列與每個主題的各表情標籤之間的對應關係。
[0088]即使用第一表情的標籤詞彙作為文本特徵向量,使用餘弦相似度作為度量方法,計算兩個第一表情之間的相似度,以第一表情之間的相似度作為Canopy聚類方法的距離參數,再使用Canopy的聚類方法對表情集合進行聚類,生成包含相關表情的簇(如,包含阿狸、嘻哈猴、郭德綱三種哈哈大笑的表情均對應標籤「大笑」),記錄上述簇關係。在本發明中,簇關係一般以字符表情構建作為字符序列和/或字詞序列,字符表情又與簇中的其他表情關聯,因此即可得到字符序列和/或字詞序列與每個主題的各表情標籤之間的對應關係O
[0089]可以理解,其族關係中包含各主題的相關表情。
[0090]其中,Canopy算法流程大致如下:
[0091](I)、將數據集向量化得到一個list後放入內存,選擇兩個距離閾值:T1和T2,其中Τ1ΧT2,實線圈為Tl,虛線圈為T2,Tl和T2的值可以用交叉校驗來確定;
[0092](2)、從list中任取一點P,用低計算成本方法快速計算點P與所有Canopy之間的距離(如果當前不存在Canopy,則把點P作為一個Canopy),如果點P與某個Canopy距離在Tl以內,則將點P加入到這個Canopy ;其中,在本發明中點P即代表每個表情,點P與所有Canopy之間的距離為使用Jaccard或餘弦相似度作為度量方法,計算的兩個第一表情之間的相似度。
[0093](3)、如果點P曾經與某個Canopy的距離在T2以內,則需要把點P從list中刪除,這一步是認為點P此時與這個Canopy已經夠近了,因此它不可以再做其它Canopy的中心了 ;
[0094](4)、重複步驟2、3,直到list為空結束。
[0095]另外,為了及時更新前述字符序列和/或字詞序列與各表情類別之間的對應關係,還包括:
[0096]步驟113,定期將新獲取的各種來源的表情資源數據和語聊資源數據分別進行合併,再利用所述合併後的語聊資源數據對合併後的表情資源數據按表情類別構建字符序列和/或字詞序列與每個主題的各表情之間的對應關係。
[0097]即定期將新獲取的聊天表情內容和原始表情資料庫合併;定期將新獲取的用戶語聊日誌內容與原有原始日誌進行合併。然後再執行前述字符序列和/或字詞序列與每個主題的各表情之間的對應關係的構建步驟。
[0098]如上,在構建了字符序列和/或字詞序列與各表情類別之間的對應關係之後,輸入法即可實現豐富、便捷、快速的表情輸入:
[0099]在其他實施例中,所述對應關係可通過所述字符序列和/或字詞序列的近義詞和所述近義詞分別在各主題中的對應表情的進行構建。通過預置的詞典查找所述字符序列和/或字詞序列的近義詞,將各近義詞分別在各主題的表情包中進行檢索,獲取各近義詞分別對應的表情,從而得到所述字符序列和/或字詞序列與各表情類別之間的對應關係。
[0100]對於一個字符序列或者字詞序列,其存在一個近義詞的字符序列或者字詞序列,本發明可通過預置的詞典查找這些字符序列和/或字詞序列的近義詞,然後去個主題的表情資源中提取相應的表情,然後將這些表情與字符序列或者字詞序列進行對應,即可得到字符序列和/或字詞序列與各表情之間的對應關係。
[0101]步驟120,接收用戶輸入的輸入序列;
[0102]在本發明具體實現中,所述用戶輸入可以為用戶通過鍵盤輸入的編碼字符串。
[0103]優選的,在本發明實施例中,在輸入法啟動之後,接收用戶識別之前,還需判斷客戶端對應的當前的輸入環境是否需要表情輸入;當客戶端當前的環境是需要表情輸入端環境,則執行步驟130 ;當客戶端當前的環境是需要表情輸入端環境,則執行傳統的輸入法流程;
[0104]即輸入法識別用戶正在輸入的環境。如果是聊天環境、網頁輸入等較大可能有表情輸入需求的環境,則執行步驟130。
[0105]步驟130,根據所述對應關係針對所述輸入序列進行分析,將所述輸入序列與所述字符序列和/或字詞序列進行匹配,以獲得所述字符序列和/或字詞序列對應的各主題的表情;
[0106]在本發明具體實現中,根據所述對應關係針對所述用戶輸入進行分析,也即為根據所述對應關係針對所述編碼字符串進行分析。在本發明實施例中,由於對各種主題的表情資源均進行了分類,從而對不同主題的表情資源的同一類別的表情,其可對應於同一字符序列和/或字詞序列,那麼本發明實施例中,用戶輸入字符序列進行匹配後,如果匹配成功,則可獲得不同主題的表情的候選項。
[0107]在本發明具體實現中,對於用戶輸入的編碼字符串存在兩種分析過程:
[0108]其一,對於可轉換為文字的編碼字符串,則利用字詞庫將編碼字符串轉換為字詞,獲得字詞候選項,然後針對首個字詞候選項或者前幾個候選項、或者所有候選項,從所述候選項中提取標籤詞,然後以標籤詞去前述索引中進行檢索,獲得與該標籤詞相關的所有表情。
[0109]其二,對於與字符表情一致的編碼字符串,比如:),直接以前述簇關係,獲得與該字符表情相關的第一表情。
[0110]步驟140,將各主題的表情進行排序,並作為候選項在客戶端進行展示。
[0111]由於本發明對應字符序列或字詞序列可能存在多個主題的表情,因此本發明可對各主題的表情進行排序,排序後將各表情作為候選項在輸入法界面中展示。
[0112]優選的,述將各候選項進行排序包括:針對每個表情類別的各第一表情,根據所述第一表情在語聊資源數據中的出現次數和/或用戶的個性化信息對相應候選項進行排序。
[0113]在本發明實施例中,可能針對同一個字詞、字符表情對應的第一表情的表情候選項有多個,那麼本發明可利用各第一表情在語聊資源數據中的使用次數,(通過與第一表情對應的第二表情進行統計)對表情候選項進行排序;或者利用用戶的個性化信息(包括性另IJ、愛好等)對表情候選項進行排序,即在本發明中對於第一表情本身可預先設置其排序類別,這些排序類別與用戶的偏好進行對應,比如以性別再分類(年輕男士經常使用的,年輕女性經常使用的,中年男性經常使用的,中年女性經常使用的等等排序類別),那麼在排序時,獲取用戶的個性化信息,並與排序類別進行比較分析,將與個性化信息相似度更高的排序類別排前。
[0114]然後,將排好序的表情集合展示在輸入法表情周圍合適的位置,供用戶選擇或翻頁查看更多。
[0115]本發明實施例以海量用戶產生的語聊資源為分析的數據源頭,對各種表情資源數據(包括各種主題的表情資源數據)進行分類,構建字符序列和/或字詞序列與每個主題的各表情之間的對應關係,用戶在後續使用輸入法的過程中,可以獲得不同主題的、不同風格的相應表情作為候選項,本發明表情的範圍廣,覆蓋面積大,可以給用戶提供更多、更豐富的表情。另外,將表情作為輸入法的詞庫,可直接對用戶的輸入,根據字符序列和/或字詞序列與各表情之間的對應關係檢索到表情作為候選項在輸入法中進行展示,直接提供給用戶選擇。上述過程是通過精確匹配用戶表情輸入需求,提高表情的使用效率,降低用戶在表情輸入過程中翻找表情所花費的時間成本。該種方式不用考慮表情包的製作成本和內容,可以任意發揮製作方的創造力,降低對聊天表情的發展和廣泛使用的制約。由於本發明將各種表情進行集中分類處理,用戶不用到處下載各種安裝包,降低用戶尋找安裝包的時間成本。由於本發明的表情是輸入法的候選項,用戶在切換聊天平臺等輸入場景時,不需要重新下載或更新表情包,也避免用戶的常用表情收藏信息的移植問題。
[0116]實施例二
[0117]參照圖2,其示出了本發明優選的構建字符序列和/或字詞序列與各表情之間的對應關係的流程示意圖,具體可以包括:
[0118]步驟210,獲取語聊資源數據和各主題的表情資源數據;所述語聊資源數據包括第二表情及其對應的文本內容;
[0119]在本發明實施例中,步驟210-221是字符序列和/或字詞序列與各主題的表情之間的對應關係的構建步驟,可在雲端伺服器執行。為了更方便的說明該過程,在本發明實施例具體的上述對應關係可結合圖3進行說明。
[0120]如圖,步驟301獲取表情資源,可從三個方面獲取,包括從網際網路中獲取各主題的表情資源302 (如qq的阿狸、嘻哈猴、郭德綱真人誇張表情照片集等主題的表情包)、第三方合作資源303 (輸入法直接與卡通表情生產方進行合作並搭建獲取流程,即直接與第三方合作的各主題表情資源數據)、用戶產生表情304 (應用程式提供給用戶的自定義表情接口裡的表情,即自定義主題的表情資源數據)。
[0121]步驟305獲取語聊資源,可從三個方面獲取,包括聊天日誌306 (如匿名獲取qq、微信等聊天工具有表情輸入的聊天日誌)、社區評論307 (如京東、大眾點評等有表情輸入的評論內容)、社交內容308 (如qq空間、新浪微博、人人網等有表情輸入的狀態或評論內容)。
[0122]步驟211,將所述各主題的表情資源數據中的表情轉換為統一系統平臺下的標準格式的表情;
[0123]如圖3中步驟309將表情資源統一格式轉碼,存入原始表情資料庫310。
[0124]由於獲取的原始聊天表情資源(比如各第三方的主題表情包)與各個輸入環境之間存在兼容性的問題,因此,需要對各種渠道來源的表情制定標準,通過轉換和轉碼,實現規格和編碼在同一系統平臺的統一(即移動軟體平臺、PC軟體平臺均設立不同的標準)。可將整理完畢的各個主題的表情包與當前用戶的輸入法帳戶進行關聯。
[0125]步驟212,使用符號匹配規則和圖片內容判斷規則從所述語聊資源數據中提取所述第二表情和所述第二表情對應的文本內容;
[0126]如圖3中步驟311第二表情和文本內容的解析和提取過程,即為本發明實施例的使用符號匹配規則和圖片內容判斷規則從所述語聊資源數據中提取第二表情和對應的文本內容的過程,提取第二表情和對應的文本內容存入原始語聊信息庫312。
[0127]步驟213,將所述源表情資源數據中的第一表情與從所述語聊資源數據中提取的第二表情進行匹配;
[0128]如圖3中,將原始表情資料庫110中的第一表情和原始語聊資料庫中的第二表情進行匹配,對於匹配上的第一表情,將第二表情的文本內容和第一表情進行關聯,即圖3中的步驟313,匹配獲取表情和對應文本內容。
[0129]步驟214,對於匹配上的第一表情,則將其與第二表情的文本內容進行關聯,並從所述文本內容中挖掘各第一關鍵詞。
[0130]本步驟在圖3中的步驟315對應的第一表情分析和標註步驟中進行,其對匹配上的第一表情,從其對應的文本內容中獲取其第一關鍵詞。本發明實施例中抽取對每個表情進行描述的文本內容中的形容詞(美麗、漂亮等)和有一定情感意義的動詞(比如喜歡、可惡等),然後即可獲取對應第一表情的第一關鍵詞。
[0131]當然本發明實施例中,對於上述第一關鍵詞,可採用詞頻的統計方式,即統計各關鍵詞在語聊資源中出現的次數,然後將次數大於閾值的關鍵詞作為最終的第一關鍵詞。其可以從原始的語聊信息庫進行統計。
[0132]步驟215,針對匹配上的各第一表情,基於每個表情標籤下的各第二關鍵詞,以該第一表情下的各第一關鍵詞進行情感分類預測,確定所述第一表情的表情類別;
[0133]本步驟在圖3中的步驟315對應的第一表情分析步驟中進行,在本發明實施例中,可預先構建多個表情分類,包括微笑、哈哈大笑、猥瑣的笑等等,每個表情分類下,可根據統計和經驗,預先指定類別的關鍵詞,即上述的第二關鍵詞。
[0134]然後本發明即實施例即可用使用情感分析分類的方法,對每個表情下面的第一關鍵詞進行分類,從而確定每個表情的所屬類別。
[0135]步驟216,針對未匹配上的各第一表情,基於每個表情類別下的各第二關鍵詞,將所述第一表情標註為具體的表情類別。
[0136]在圖3中對於原始表情資料庫310中未匹配上的第一表情,本發明可基於各表情類別下的第二關鍵詞對其進行標註。當然本發明的標註可以採用自動標註,比如對於第三方表情包,以該表情包對各表情自身的標識/[目息與關鍵詞的對應匹配關係進行自動標註。也可以結合人工對各表情進行標註。
[0137]當然,如前所述,本發明對第二關鍵詞會進行優化,即將某一類別下的所有的表情的第一關鍵詞和初始確定的第二關鍵詞進行匯總,將在語聊資源數據中詞頻大於閾值的各關鍵詞作為最終的第二關鍵詞,其自動標註過程也可隨之優化。本發明實施例中優化後的各表情類別及其第二關鍵詞,可存入類別關鍵詞庫314。
[0138]步驟217,針對每個主題的第一表情,將其對應的第一關鍵詞和第二關鍵詞合併為所述第一表情的標籤詞彙;
[0139]然後,對於各第一表情、其所屬表情類別及其第一關鍵詞可存入圖3中的表情標籤關係庫316。
[0140]步驟218,將各表情標籤詞彙進行匯總,構建索引;所述索引為各標籤詞彙到表情的對應關係。
[0141]然後在圖3中的318建立表情索引中,基於類別關鍵詞庫314、表情標籤關係庫318構建索引。其原理大致為:對每個表情的描述文字的各第一關鍵詞(如果如前所述,第一關鍵詞存在並可以從語聊資源數據獲取)和表情所在表情類別的各第二關鍵詞(如果該表情挖掘不到語聊資源數據,則對其標註類別得到)建立索引,生成標籤到表情的倒排信息表。倒排信息表中關鍵詞的順序是對應的第一表情在所有語聊資源數據中的使用次數。然後即可以該倒排信息表建立圖3中的標籤索引庫317。
[0142]步驟219,將每個第一表情的各標籤詞彙構建該第一表情的文本特徵向量;
[0143]步驟220,利用所述文本特徵向量對每個主題的第一表情進行聚類,獲得包含各主題的相關表情的簇並記錄簇關係,將所述簇關係作為字符序列和/或字詞序列與每個主題的各表情標籤之間的對應關係。
[0144]即在圖3中的步驟319表情聚類中,使用第一表情的標籤詞彙作為文本特徵向量,使用餘弦相似度作為度量方法,計算兩個第一表情之間的相似度,以第一表情之間的相似度作為Canopy聚類方法的距離參數,再使用Canopy的聚類方法對表情集合進行聚類,生成包含相關表情的簇(如,包含阿狸、嘻哈猴、郭德綱三種哈哈大笑的表情均對應標籤「大笑」),記錄上述簇關係。然後即將聚類後形成的簇關係存入圖3中的相關表情資料庫。
[0145]如此,初始的字符序列和/或字詞序列與各表情之間的對應關係即可建立。在本發明實施例中,包括了字詞與表情的對應關係,其以標籤索引庫為基礎。還包括了字符(比如字符表情)與表情的對應關係,其以相關表情資料庫為基礎。
[0146]下面以一個實際例子一說明上述過程:
[0147]1,從微博默認表情,我們知道「V5」這個符號是一種表情。於是,將這個表情加入原始表情資料庫。
[0148]2,從新浪微博獲取帶有表情圖片的微博。例如,網友稱讚李娜獲得澳網冠軍的微博。參照圖3A。
[0149]3,利用微博數據接口獲得諸如此類的微博內容,利用原始表情資料庫的內容記錄,可以將微博識別成文字部分「李娜實在是太棒了!驕傲! 」和表情「V5」以及李冰冰微博的文字部分「你是我們李家的驕傲……」和表情「V5」。於是,這兩段文字都可以作為表情「V5」的描述文字。抽取其中的形容詞,可以發現「驕傲」出現了 2次,「太棒了」出現了 I次,提取其中的高頻詞彙可知,「驕傲」是所有類似微博所表達的核心情感的文字,因此,可以建立文字「驕傲」和表情「V5」之間的關係,並存入表情標籤關係庫。同理,更多包含表情「 V5 」的微博內容集中在一起可以獲得「 V5 」表情的描述關鍵詞集合。
[0150]採用相同的方法,可以獲知表情「大拇指」的描述關鍵詞也包括「驕傲」 「太棒了」。以描述關鍵詞集合為索引域,對所有表情建立倒排索引。可以得到倒排信息表,以供檢索系統使用。
[0151]那麼構建的索引如:
[0152]驕傲.—表情「大拇指」,表情「V5」……
[0153]太棒了一表情「大拇指」,表情「V5」……
[0154]4,使用表情關鍵詞「驕傲」 「太棒了」等關鍵詞作為文本特徵,使用Jaccard或餘弦相似度作為度量方法,計算表情之間的相似度可知,表情「大拇指」、「V5」非常相似,再使用Canopy的聚類方法對表情集合進行聚類,生成包含相關表情的簇,則這兩個表情被放入同一個族,將族關係存入相關表情資料庫320。
[0155]步驟221,定期將新獲取的各種來源的表情資源數據和語聊資源數據分別進行合併,轉入步驟211。
[0156]在本發明實施例中,由於語聊資源數據是在變化的,為了保證本發明字符序列和/或字詞序列與各表情之間的對應關係的及時與準確性,本發明會及時更新字符序列和/或字詞序列與各表情之間的對應關係。其首先會更新各種來源的表情資源數據和語聊資源數據。結合圖4,其為本發明實施例更新字符序列和/或字詞序列與各表情之間的對應關係的大致流程。對於定時抽取的新的數據401,包括各種來源的各主題的表情資源數據和語聊資源數據,分別將新獲取的聊天表情內容和原始表情資料庫合併,即圖4中的402 ;將新獲取的用戶語聊日誌內容與原有原始日誌進行合併,即圖4中的403。然後即可轉入圖3中的過程,得到圖4中的新標籤索引庫404和新相關表情資料庫405。
[0157]本發明實施例,本發明將各種來源的表情資源數據,利用語聊資源數據,比如聊天日誌(如匿名獲取qq、微信等聊天工具有表情輸入的聊天日誌)、社區評論(如京東、大眾點評等有表情輸入的評論內容)、社交內容(如qq空間、新浪微博、人人網等有表情輸入的狀態或評論內容),對所有獲取的表情資源數據進行分析,按表情類別構建字符序列和/或字詞序列與各主題的表情之間的對應關係;然後即可針對用戶的某一輸入,將對應的各主題的表情作為候選項排序展示給用戶。
[0158]上述過程中,其一,將表情作為輸入法的詞庫,可直接對用戶的輸入,根據字符序列和/或字詞序列與各主題的表情之間的對應關係檢索到各主題的表情作為候選項在輸入法中進行展示,直接提供給用戶選擇;其二,上述過程是通過精確匹配用戶表情輸入需求,提高表情的使用效率,降低用戶在表情輸入過程中翻找待輸入的表情所花費的時間成本;其三,該種方式不用考慮表情包的製作成本和內容,可以任意發揮製作方的創造力,降低對聊天表情的發展和廣泛使用的制約;其四,由於本發明將各主題的表情進行集中分類處理,用戶不用到處下載各主題的表情包,降低用戶尋找表情包的時間成本;其五,由於本發明的表情是輸入法的候選項,用戶在切換聊天平臺等輸入場景時,不需要重新下載或更新表情包,也避免用戶的常用表情收藏信息的移植問題;其六,本發明各主題的表情範圍廣,覆蓋面積大,可以給用戶提供更多、更豐富的表情。
[0159]實施例三
[0160]參照圖5,其示出了本發明基於實施例2的一種聊天表情輸入的方法的流程示意圖,具體可以包括:
[0161]步驟510,客戶端啟動輸入法;
[0162]步驟520,客戶端接收用戶輸入;
[0163] 步驟530,客戶端輸入法識別輸入環境,判斷客戶端對應的當前的輸入環境是否需要表情輸入;如果輸入環境需要表情輸入,則轉入步驟550 ;如果輸入環境不需要表情輸入,則轉入步驟540 ;
[0164]比如判斷輸入環境是即時聊天環境、微博環境、社區評論環境等則一般有表情輸入需求,如果是word等辦公輸入環境則一般沒有表情輸入需求。
[0165]步驟540,客戶端使用傳統輸入法輸入方式;
[0166]當然,在本發明的核心思想之內,前述步驟520的順序可以與步驟530-550任意調換,本發明不對其加以限制。,
[0167]步驟550,在雲端伺服器中,基於所述用戶輸入從標籤索引庫和/或相關表情資料庫中檢索各主題相關的所有表情。
[0168]如果對應用戶輸入的只有字詞,則從標籤索引庫中檢索相關的各主題的所有表情;如果對應用戶輸入的只有字符表情,則從相關表情數據中檢索相關的各主題的所有表情;如果兩者皆有,那麼對字詞和字符表情分別從相應資料庫檢索相關的各主題的所有表情。
[0169]當然,本發明實施例中,優選的是以輸入法對用戶輸入進行識別後產生的第一候選項作為檢索關鍵詞。
[0170]步驟560,在雲端伺服器中,根據表情的使用次數和/或用戶個性化信息對各主題的表情進行排序;
[0171]雲端將排完序的各表情返回至客戶端
[0172]步驟570,客戶端將各排序後的各主題的表情作為候選項在進行展示。
[0173]用戶輸入「hanxiao」時,在雲端伺服器中,基於待輸入的候選項「憨笑」從標籤庫和/或相關表情資料庫中檢索阿狸、嘻哈猴、郭德綱等各主題的表情包的表情,對「憨笑」和其近義詞「傻笑」進行匹配,得到主題為阿狸、嘻哈猴的表情包中對應標籤為「憨笑」的表情和主題為郭德綱的表情包中標籤為「傻笑」的表情,將三個表情排序後均下發至客戶端的候選項中,供用戶直接進行選擇。
[0174]實施例四
[0175]參照圖6,其示出了本發明基於實施例2的優選的一種聊天表情輸入的方法的流程示意圖,具體可以包括:
[0176]步驟610,客戶端啟動輸入法;
[0177]步驟620,客戶端接收用戶輸入;
[0178]步驟630,客戶端根據用戶輸入識別字詞和/或字符表情;
[0179]步驟631,判斷用戶輸入是否可以轉換為字詞,或者是否為字符表情;如果都不是,則轉入步驟650 ;如果是字詞,則轉入步驟640 ;如果是字符表情,則轉入步驟670。
[0180]步驟640,判斷客戶端對應的當前的輸入環境是否需要表情輸入;如果輸入環境需要表情輸入,則轉入步驟660 ;如果輸入環境不需要表情輸入,則轉入步驟650 ;
[0181]步驟650,客戶端使用傳統輸入法輸入方式;
[0182]本發明實施例中,客戶端可將基於用戶輸入識別的字詞和/或字符表情上傳至雲端伺服器。
[0183]步驟660,在雲端伺服器中,以所述字詞從標籤索引庫中檢索相關的各主題的所有表情;
[0184]步驟670,在雲端伺服器中,以所述字符表情在相關表情資料庫中檢索相關的各主題的所有表情;
[0185]步驟680,在雲端伺服器中,根據表情的使用次數和/或用戶個性化信息對各主題的表情進行排序;
[0186]雲端將排完序的各主題的表情返回至客戶端。
[0187]步驟690,客戶端將各排序後的各主題的表情作為候選項在進行展示。
[0188]在本實施例中,用對於表情輸入環境存在啟動判斷過程,用戶如果輸入字符表情時,一般來說其輸入環境是有表情輸入需求的,因此本發明實施例就直接轉入本發明的表情輸入流程,不再進行具體的環境判斷,降低資源消耗。
[0189]下面例舉例子二:對於前述例子一的索引,當用戶輸入「太棒了」,那麼會產生如圖6A的輸入界面,界面中與第一候選項對應的各表情即為本發明生成的表情,用戶可以通過快捷鍵Ctrl+數字選擇輸入哪一個表情。
[0190]實施例五
[0191]參照圖7,其示出了本發明實的一種聊天表情輸入的裝置的結構示意圖,具體可以包括:
[0192]表情關係預置模塊710,適於預設字符序列和/或字詞序列與各表情之間的對應關係;
[0193]優選的,所述表情關係預置模塊710包括:
[0194]第一預置模塊,適於通過收集語聊資源數據和各主題的表情資源數據,利用所述語聊資源數據對所述表情資源數據按表情類別構建字所述字符序列和/或字詞序列與各表情之間的對應關係;
[0195]或者通過所述字符序列和/或字詞序列的近義詞和所述近義詞分別在各主題中的對應表情的構建所述字符序列和/或字詞序列與各表情之間的對應關係。
[0196]優選的,所述第一預置模塊包括:
[0197]資源獲取模塊,適於獲取語聊資源數據和各主題的表情資源數據;所述語聊資源數據包括第二表情及其對應的文本內容;
[0198]構建模塊,適於結合所述語聊資源數據包括的對應第二表情的文本內容,對所述各主題的表情資源數據中的每個第一表情分別進行分類,構建字符序列和/或字詞序列與每個主題的各種表情之間的對應關係。
[0199]優選的,資源獲取模塊之後還包括:
[0200]轉換模塊,適於將所述各主題的表情資源數據中的表情轉換為統一系統平臺下的標準格式的表情。
[0201 ] 優選的,所述構建模塊包括:
[0202]關鍵詞挖掘模塊,適於根據所述語聊資源數據包括的第二表情及其文本內容,分別挖掘所述表情資源數據中各個第一表情對應的各第一關鍵詞;
[0203]分類模塊,適於根據所述第一關鍵詞和預置的對應每個表情類別的各第二關鍵詞,對所述各第一表情分別進行分類。
[0204]優選的,所述關鍵詞挖掘模塊包括:
[0205]內容提取模塊,適於使用符號匹配規則和圖片內容判斷規則從所述語聊資源數據中提取所述第二表情和所述第二表情對應的文本內容;
[0206]匹配模塊,適於在所述各主題的表情資源數據中,分別將所述第一表情與提取的第二表情進行匹配,匹配成功則分別將第一表情與第二表情的文本內容進行關聯,並從所述文本內容中挖掘各第一關鍵詞與第一表情進行對應。
[0207]優選的,所述分類模塊包括:
[0208]第一分類模塊,適於針對匹配上的各第一表情,基於每個表情標籤下的各第二關鍵詞,以該第一表情下的各第一關鍵詞進行情感分類預測,確定所述第一表情的表情類別;
[0209]第二分類模塊,適於針對未匹配上的各第一表情,基於每個表情類別下的各第二關鍵詞,將所述第一表情標註為具體的表情類別。
[0210]優選的,所述構建模塊包括:
[0211]合併模塊,適於合併模塊,適於針對每個主題的第一表情,將其對應的第一關鍵詞和第二關鍵詞合併為所述第一表情的標籤詞彙;
[0212]第一構建模塊,適於根據第一表情與各標籤詞彙、第一表情所屬表情類別之間的對應關係,構建字符序列和/或字詞序列與各表情之間的對應關係。
[0213]優選的,所述以第一構建模塊包括:
[0214]索引構建模塊,適於將各表情標籤詞彙進行匯總,構建索引;所述索引為各標籤詞彙到表情的對應關係。
[0215]優選的,所述索引構建模塊包括:
[0216]針對每個標籤詞彙對應的各個表情,按照對應的表情類別在語料資源數據中的使用次數進行倒排。
[0217]優選的,所述第一構建模塊包括:
[0218]特徵構建模塊,適於將每個第一表情的各標籤詞彙構建為該第一表情的文本特徵向量;
[0219]簇計算模塊,適於利用所述文本特徵向量對各第一表情進行聚類,獲得包含各相關表情的簇並記錄簇關係,將所述簇關係作為字符序列和/或字詞序列與各表情標籤之間的對應關係。
[0220]優選的,還包括:
[0221]更新模塊,適於定期將新獲取的各種來源的表情資源數據和語聊資源數據分別進行合併,再利用表情關係預置模塊對所述合併後的語聊資源數據對合併後的表情資源數據按表情類別構建字符序列和/或字詞序列與各表情之間的對應關係。
[0222]當然,優選的,所述表情關係預置模塊在雲端伺服器中。
[0223]接收模塊720,適於接收用戶輸入的輸入序列;
[0224]優選的,所述接收模塊720還包括:
[0225]上傳模塊,適於接收用戶輸入之後,將所述用戶輸入上傳至雲端伺服器。
[0226]表情候選項分析模塊730,適於根據所述對應關係針對所述輸入序列進行分析,將所述輸入序列與所述字符序列和/或字詞序列進行匹配,以獲得所述字符序列和/或字詞序列對應的各主題的表情;
[0227]優選的,所述表情候選項分析模塊730在雲端伺服器中。
[0228]展示模塊740,適於將各主題的表情進行排序,並作為候選項在客戶端進行展示。
[0229]優選的,所述展示模塊740包括:
[0230]排序模塊,適於針對每個表情類別下的各第一表情,根據所述第一表情在語聊資源數據中的出現次數和/或用戶的個性化信息對相應的各表情進行排序。
[0231]實施例五
[0232]參照圖8,其示出了本發明實的一種聊天表情輸入的系統的結構示意圖,具體可以包括:
[0233]客戶端810和雲端伺服器820 ;
[0234]所述客戶端810包括:
[0235]接收模塊811,適於接收用戶輸入的輸入序列;
[0236]展示模塊812,適於接收雲端伺服器返回的各表情,並將各作為候選項在客戶端進行展示;
[0237]當然客戶端還可包括上傳模塊,用於客戶端輸入法上傳用戶輸入至雲端伺服器;
[0238]客戶端還可包括環境判斷模塊,用於判斷客戶端對應的當前的輸入環境是否需要表情輸入;如果需要表情輸入,則進入822 ;如果不需要,則進入傳統輸入模塊,所述傳統輸入模塊執行傳統輸入法流程。
[0239]所述雲端伺服器820包括:
[0240]表情關係預置模塊821,適於預設字符序列和/或字詞序列與各表情之間的對應關係;所述對應關係通過收集語聊資源數據和各主題的表情資源數據,利用所述語聊資源數據對所述表情資源數據按表情類別進行構建;
[0241]優選的,所述表情關係預置模塊710包括:
[0242]第一預置模塊,適於通過收集語聊資源數據和各主題的表情資源數據,利用所述語聊資源數據對所述表情資源數據按表情類別構建字所述字符序列和/或字詞序列與各表情之間的對應關係;
[0243]或者通過所述字符序列和/或字詞序列的近義詞和所述近義詞分別在各主題中的對應表情的構建所述字符序列和/或字詞序列與各表情之間的對應關係。
[0244]優選的,所述第一預置模塊包括:
[0245]資源獲取模塊,適於獲取語聊資源數據和各主題的表情資源數據;所述語聊資源數據包括第二表情及其對應的文本內容;
[0246]構建模塊,適於結合所述語聊資源數據包括的對應第二表情的文本內容,對所述各主題的表情資源數據中的每個第一表情分別進行分類,構建字符序列和/或字詞序列與每個主題的各種表情之間的對應關係
[0247]優選的,資源獲取模塊之後還包括:
[0248]轉換模塊,適於將所述源表情資源數據中的表情轉換為統一系統平臺下的標準格式的表情。
[0249]優選的,所述構建模塊包括:
[0250]關鍵詞挖掘模塊,適於根據所述語聊資源數據包括的第二表情及其文本內容,分別挖掘所述表情資源數據中各個第一表情對應的各第一關鍵詞;
[0251]分類模塊,適於根據所述第一關鍵詞和預置的對應每個表情類別的各第二關鍵詞,對所述各第一表情分別進行分類。
[0252]優選的,所述關鍵詞挖掘模塊包括:
[0253]內容提取模塊,適於使用符號匹配規則和圖片內容判斷規則從所述語聊資源數據中提取所述第二表情和所述第二表情對應的文本內容;;
[0254]匹配模塊,適於在所述表情資源數據中,分別將所述第一表情與提取的第二表情進行匹配,匹配成功則分別將第一表情與第二表情的文本內容進行關聯,並從所述文本內容中挖掘各第一關鍵詞與第一表情進行對應。
[0255]優選的,所述分類模塊包括:
[0256]第一分類模塊,適於針對匹配上的各第一表情,基於每個表情標籤下的各第二關鍵詞,以該第一表情下的各第一關鍵詞進行情感分類預測,確定所述第一表情的表情類別;
[0257]第二分類模塊,適於針對未匹配上的各第一表情,基於每個表情類別下的各第二關鍵詞,將所述第一表情標註為具體的表情類別。
[0258]優選的,所述構建模塊包括:
[0259]合併模塊,適於針對各第一表情,將其對應的第一關鍵詞和第二關鍵詞合併為該第一表情的標籤詞彙;
[0260]第一構建模塊,適於根據第一表情與各標籤詞彙、第一表情所屬表情類別之間的對應關係,構建字符序列和/或字詞序列與各表情之間的對應關係。
[0261]優選的,所述以第一構建模塊包括:
[0262]索引構建模塊,適於將各表情標籤詞彙進行匯總,構建索引;所述索引為各標籤詞彙到表情的對應關係。
[0263]優選的,所述索引構建模塊包括:
[0264]針對每個標籤詞彙對應的各個表情,按照對應的表情類別在語料資源數據中的使用次數進行倒排。
[0265]優選的,所述第一構建模塊包括:
[0266]特徵構建模塊,適於將每個第一表情的各標籤詞彙構建為該第一表情的文本特徵向量;
[0267]簇計算模塊,適於利用所述文本特徵向量對每個主題的第一表情進行聚類,獲得包含各主題的相關表情的簇並記錄簇關係,將所述簇關係作為字符序列和/或字詞序列與每個主題的各表情標籤之間的對應關係。
[0268]優選的,還包括:
[0269]更新模塊,適於定期將新獲取的各種來源的表情資源數據和語聊資源數據分別進行合併,再利用表情關係預置模塊對所述合併後的語聊資源數據對合併後的表情資源數據按表情類別構建字符序列和/或字詞序列與各表情之間的對應關係。
[0270]表情候選項分析模塊822,適於根據所述對應關係針對所述輸入序列進行分析,將所述輸入序列與所述字符序列和/或字詞序列進行匹配,以獲得所述字符序列和/或字詞序列對應的各主題的表情;
[0271]排序模塊823,適於將各主題的表情進行排序,並作為候選項在客戶端進行展示。
[0272]優選的,所述排序模塊還用於針對每個表情類別下的各第一表情,根據所述第一表情在語聊資源數據中的出現次數和/或用戶的個性化信息對相應的各表情進行排序。
[0273]本發明實施例解決了如下問題:
[0274]1.用戶的聊天行為屬於即時通信,時效性極強。因此,表情輸入的時效性非常重要。如果用戶喜歡並安裝的各種主題的表情庫有多個(包括阿狸、嘻哈猴、輕鬆熊、冷兔等等),每個表情庫又包含上百種表情符號或圖片(如微笑、哈哈大笑、猥瑣的笑、抹眼淚、嚎啕大哭等等)。那麼,有限的時間內,在眾多表情庫中逐一翻找到合適的表情所花費的時間成本,會成為用戶有效使用各種表情增強溝通效果的瓶頸。
[0275]2.因為考慮到用戶使用表情的操作成本,表情包製作方也會酌情精簡表情內容,這也從某種程度上制約了聊天表情的發展和廣泛使用。
[0276]3.大多數聊天工具只會提供默認表情。默認表情相對比較單調,更多豐富的多元化的主題聊天表情資源可以有效提高與朋友聊天的好感度,但是為了使用這些表情,用戶需要經過很多網上操作步驟,從各種渠道獲取表情包信息並將表情包下載到本地,由於各種商業原因,有時還需要進行手工加載,應用程式才可以正常使用表情包。對於操作生疏或者沒有足夠耐心的用戶,在網絡資源中成功獲取並安裝合適的表情包所花費的時間成本,可能會導致他們選擇放棄。
[0277]4.對於下載好的表情包,如果用戶切換聊天平臺等輸入場景,表情包需要重新下載或更新,用戶的常用表情收藏信息也同樣面臨移植的問題。
[0278]5.輸入的候選表情內容僅限於第三方製作好的表情包。若非特意整理,很多明星人物、政治人物的誇張表情照片、GIF等多媒體資源並不能夠及時的作為候選表情,方便用戶輸入。
[0279]6.表情包的內容如果長時間不變,用戶的新鮮感會逐漸減退。雖然每個主題的表情包(如阿狸表情)一直更新,但用戶需要定時定期逐一更新已下載的表情包,才能夠獲得不斷更新的表情內容。因此,更新維護的成本也是阻礙用戶持續使用表情包的重要問題之一。
[0280]本發明實施例達到了如下效果:
[0281]1.通過檢索的方法解決用戶翻找表情的問題;
[0282]2.通過精確匹配用戶表情輸入需求,提高表情的使用效率;
[0283]3.通過雲端表情收集和整理,節省用戶安裝表情包的成本;
[0284]4.通過雲端自動更新機制,節省用戶更新表情包的成本;
[0285]5.通過統一定製規格,使用戶可以在不同輸入環境共享表情;
[0286]6.通過統一定製規格,擴展表情使用範圍,使之不受限於卡通表情,而形成更多媒體、更多豐富內容表情;
[0287]7.通過雲端更新機制和相應的多樣性排序算法,可以保持用戶對不同表情的新鮮感。
[0288]以上對本申請所提供的一種聊天表情輸入的方法、裝置和系統,進行了詳細介紹,本文中應用了具體個例對本申請的原理及實施方式進行了闡述,以上實施例的說明只是用於幫助理解本申請的方法及其核心思想;同時,對於本領域的一般技術人員,依據本申請的思想,在【具體實施方式】及應用範圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本申請的限制。
【權利要求】
1.一種聊天表情輸入的方法,其特徵在於,包括: 預設字符序列和/或字詞序列與各表情之間的對應關係; 接收用戶輸入的輸入序列; 根據所述對應關係針對所述輸入序列進行分析,將所述輸入序列與所述字符序列和/或字詞序列進行匹配,以獲得所述字符序列和/或字詞序列對應的各主題的表情; 將各主題的表情進行排序,並作為候選項在客戶端進行展示。
2.如權利要求1所述的方法,其特徵在於,所述預設字符序列和/或字詞序列與各表情之間的對應關係包括: 通過收集語聊資源數據和各主題的表情資源數據,利用所述語聊資源數據對所述表情資源數據按表情類別構建字所述字符序列和/或字詞序列與各表情之間的對應關係; 或者通過所述字符序列和/或字詞序列的近義詞和所述近義詞分別在各主題對應的表情構建所述字符序列和/或字詞序列與各表情之間的對應關係。
3.如權利要求1或2所述的方法,其特徵在於,所述預設字符序列和/或字詞序列與各表情之間的對應關係,包括: 獲取語聊資源數據和各主題的表情資源數據;所述語聊資源數據包括第二表情及其對應的文本內容; 結合所述語聊資源數據包括的對應第二表情的文本內容,對所述各主題的表情資源數據中的每個第一表情分別進行分類,構建字符序列和/或字詞序列與每個主題的各種表情之間的對應關係。
4.如權利要求3所述的方法,其特徵在於,所述結合所述語聊資源數據包括的對應第二表情的文本內容,對所述各主題的表情資源數據中的每個第一表情分別進行分類,包括: 根據所述語聊資源數據包括的第二表情及其文本內容,分別挖掘所述表情資源數據中每個主題的各個第一表情對應的各第一關鍵詞; 根據所述第一關鍵詞和預置的對應每個表情類別的各第二關鍵詞,對所述各第一表情分別進行分類。
5.如權利要求4所述的方法,其特徵在於,根據所述語聊資源數據包括的第二表情及其文本內容,分別挖掘所述表情資源數據中每個主題的各個第一表情對應的各第一關鍵詞,包括: 使用符號匹配規則和圖片內容判斷規則從所述語聊資源數據中提取所述第二表情和所述第二表情對應的文本內容; 在所述各主題的表情資源數據中,分別將所述第一表情與提取的第二表情進行匹配,匹配成功則分別將第一表情與第二表情的文本內容進行關聯,並從所述文本內容中挖掘各第一關鍵詞與第一表情進行對應。
6.如權利要求4所述的方法,其特徵在於,所述根據所述第一關鍵詞和預置的每個表情類別下的各第二關鍵詞,對所述各第一表情分別進行分類,包括: 針對匹配上的各第一表情,基於每個表情類別下的各第二關鍵詞,以該第一表情下的各第一關鍵詞進行情感分類預測,確定所述第一表情的表情類別; 針對未匹配上的各第一表情,基於每個表情類別下的各第二關鍵詞,將所述第一表情標註為具體的表情類別。
7.如權利要求4所述的方法,其特徵在於,所述構建字符序列和/或字詞序列與每個主題的各種表情之間的對應關係包括: 針對每個主題的第一表情,將其對應的第一關鍵詞和第二關鍵詞合併為所述第一表情的標籤詞彙; 根據所述第一表情與對應的各標籤詞彙、所述第一表情所屬的表情類別之間的對應關係,基於所述各標籤詞彙構建字符序列和/或字詞序列與每個主題的各表情之間的對應關係O
8.如權利要求7所述的方法,其特徵在於,所述基於所述各標籤詞彙構建字符序列和/或字詞序列與每個主題的各表情之間的對應關係包括: 將每個第一表情的各標籤詞彙構建為該第一表情的文本特徵向量; 利用所述文本特徵向量對每個主題的第一表情進行聚類,獲得包含各主題的相關表情的簇並記錄簇關係,將所述簇關係作為字符序列和/或字詞序列與每個主題的各表情標籤之間的對應關係。
9.如權利要求1所述的方法,其特徵在於,所述將各主題的表情進行排序包括: 針對每個表情類別下的各第一表情,根據所述第一表情在語聊資源數據中的出現次數 和/或用戶的個性化信息對相應的各主題的表情進行排序。
10.如權利要求1所述的方法,其特徵在於,在接收用戶輸入的輸入序列之後還包括: 判斷客戶端對應的當前的輸入環境是否需要表情輸入;如果需要表情輸入,則根據所述字符序列和/或字詞序列與各表情之間的對應關係對所述輸入序列進行分析,以獲得對應用戶輸入的各主題的表情。
11.一種聊天表情輸入的裝置,其特徵在於,包括: 表情關係預置模塊,適於預設字符序列和/或字詞序列與各表情之間的對應關係; 接收模塊,適於接收用戶輸入的輸入序列; 表情候選項分析模塊,適於根據所述對應關係針對所述輸入序列進行分析,將所述輸入序列與所述字符序列和/或字詞序列進行匹配,以獲得所述字符序列和/或字詞序列對應的各主題的表情; 展示模塊,適於將各主題的表情進行排序,並作為候選項在客戶端進行展示。
12.如權利要求11所述的裝置,其特徵在於,所述表情關係預置模塊包括: 第一預置模塊,適於通過收集語聊資源數據和各主題的表情資源數據,利用所述語聊資源數據對所述表情資源數據按表情類別構建字所述字符序列和/或字詞序列與各表情之間的對應關係; 或者通過所述字符序列和/或字詞序列的近義詞和所述近義詞分別在各主題對應的表情構建所述字符序列和/或字詞序列與各表情之間的對應關係。
13.如權利要求11或12所述的裝置,其特徵在於,所述第一預置模塊包括: 資源獲取模塊,適於獲取語聊資源數據和各主題的表情資源數據;所述語聊資源數據包括第二表情及其對應的文本內容;構建模塊,適於結合所述語聊資源數據包括的對應第二表情的文本內容,對所述各主題的表情資源數據中的每個第一表情分別進行分類,構建字符序列和/或字詞序列與每個主題的各種表情之間的對應關係。
14.如權利要求11所述的裝置,其特徵在於,所述展示模塊包括: 排序模塊,適於針對每個表情類別下的各第一表情,根據所述第一表情在語聊資源數據中的出現次數和/或用戶的個性化信息對相應的各主題的表情進行排序。
15.如權利要求11所述的裝置,其特徵在於,在接收模塊之後還包括: 環境判斷模塊,適於判斷客戶端對應的當前的輸入環境是否需要表情輸入;如果需要表情輸入,則根據所述字符序列和/或字詞序列與各表情之間的對應關係對所述輸入序列進行分析,以獲 得對應用戶輸入的各主題的表情。
【文檔編號】G06F3/023GK104076944SQ201410251401
【公開日】2014年10月1日 申請日期:2014年6月6日 優先權日:2014年6月6日
【發明者】顧思宇, 劉華生, 張闊 申請人:北京搜狗科技發展有限公司