進行文本處理的方法和系統的製作方法
2023-09-20 00:10:05 3
專利名稱:進行文本處理的方法和系統的製作方法
技術領域:
本發明總體上涉及對數據進行處理的方法和系統,特別的本發明涉及對文本進行處理的方法和系統。
背景技術:
數據挖掘(Data mining)是資料庫知識發現中的一個步驟。數據挖掘一般是指從大量的數據中自動搜索隱藏於其中的有著特殊關係性的信息的過程。數據挖掘與數據分析是信息技術領域重要的研究課題,在此之上存在很多的子研究課題。其中自然語言處理技術中的信息抽取研究為人們提供更有力的信息獲取工具,以應對信息爆炸帶來的嚴重挑戰。信息抽取技術並不試圖全面理解整篇文檔,只是對文檔中包含相關信息的部分進行分析。對象共指(Object Coreference)技術是信息抽取研究中的一種應用,可以在一定程度確認文本中的共指關係。在目前的自然語言處理技術中,對象共指主要用於分析人物共指。比如對於一段文字「今天張市長訪問了新建的博物館...市長饒有興致地與博物館的工作人員進行交談...他細緻地詢問起有關情況...」。傳統的自然語言處理技術可以確定「張市長」,「市長」以及「他」指的是同一個人。美國專利US6438543B1披露了一種用於檢索多篇文章中的具有不同名字的同一主體。該專利的說明書詳細介紹了如何判斷不同位置的Clinton指的是同一個人。
發明內容
現有技術可以實現利用指代消解技術來獲得人物共指關係的方法,但是現有技術並沒有能夠很好的實現對實體的對象共指。而在數據挖掘領域實現對實體詞的對象共指可以有助於解決很多實際問題。本發明總體上利用對現有的對象共指技術的擴展實現自動的、更全面的、準確的、有效的文本數據的分析和處理。比如照相機製造商希望通過對網絡上大量文章的分析獲得用戶對其產品的各種各樣的評價。假如「五星」是一款照相機品牌,
某網友在一篇Blog中寫道「我剛剛購買了一架五星照相機......我的新照相機比舊照相
機好用多了,可以進行連續拍攝......」。僅利用現有技術,很難知道後面提到的「新照相
機」就是前文中所述的「五星照相機」,因此也就很難挖掘出對「五星照相機」的評價,即「可以進行連續拍攝」。再如五星公司可能希望在網友的文章中插入嵌入式廣告。比如該網友
的文章中如果提到了「......在景區很多人都拿著相機紛紛拍照。我也忍不住拿起相機
來拍,我們家的相機效果很不錯,這些照片的效果非常好,我家小女兒總是把相機搶過去拍
那些小動物......」,照相機製造商完全可以在不影響文章完整性的情況下,插入嵌入式廣
告。當然,上面兩個例子僅僅示出了本發明的一些應用場景,實際上可以在本發明的基礎上開發更多的應用可能。本發明總體上利用對現有的對象技術的擴展實現自動的、更全面的、 準確的、有效的文本數據的分析和處理。具體而言,本發明提供了一種文本處理方法,包括獲取待處理的文本;從所述文本中提取主體詞和與所述主體詞對應的實體詞;對所述主體詞進行分組,以形成主體詞分組;根據所述主體詞分組確定指向同一關注對象的實體詞;以及對指向同一關注對象的實體詞生成處理策略。本發明還提供了一種文本處理系統,包括文本獲取裝置,用於獲取待處理的文本;詞提取裝置,用於從所述文本中提取主體詞和與所述主體詞對應的實體詞;主體詞分組裝置,用於對所述主體詞進行分組,以形成主體詞分組;實體詞確定裝置,用於根據所述主體詞分組確定指向同一關注對象的實體詞;以及處理策略生成裝置,用於對指向同一關注對象的實體詞生成處理策略。
本說明中所參考的附圖只用於示例本發明的典型實施例,不應該認為是對本發明範圍的限制。圖1示出了文本處理方法的總體流程圖。圖2示出了按照本發明的一個實施例的確定指向同一關注對象的實體詞的流程圖。圖3A示出了一個文本的例子。圖!3B-3G示出了利用本發明的文本處理方法和系統對圖3A中的例子進行處理所得到的一些處理結果的例子。圖3H示出了另一個文本的例子。圖4示出了文本處理系統的總體框圖。
具體實施例方式下列討論中,提供大量具體的細節以幫助徹底了解本發明。然而,很顯然對於本領域技術人員來說,即使沒有這些具體細節,並不影響對本發明的理解。並且應該認識到,使用如下的任何具體術語僅僅是為了方便描述,因此,本發明不應當局限於只用在這樣的術語所表示和/或暗示的任何特定應用中。本發明總體上利用對現有的對象技術的擴展實現自動的、更全面的、準確的、有效的文本數據的分析和處理。圖1示出了文本處理方法的總體流程圖。其中在步驟101獲取待處理的文本。所述文本可以是一篇也可以是多篇。所述多篇文本可以出自同一作者(比如,同一作者的多篇博文)也可以出自不同作者。所示文本可以從公開的渠道獲得(比如網際網路上公開的博客、 論壇、個人網頁等)獲得、也可以從私有渠道獲得(比如以許可的方式從私有資料庫)。就技術方面而言,本發明對待處理的文本的類型沒有任何限制,可以是博文、小說、新聞等任何類型,並且本發明對待處理的文本的存儲格式也沒有任何限制,其可以是xml文檔、html 文檔、word文檔等任何文檔格式。在步驟103從所述文本中提取主體詞和與所述主體詞對應的實體詞。提取主體詞可以通過主體詞檢測(也叫主體詞識別)技術實現。所述主體詞為表示單個或者多個主體概念的詞語,所述主體概念既可以位於句子的主語部分,也可以位於賓語部分或其它部分。 以圖3A中的文本為例。在博文中描述了「在景區很多人都拿著相機紛紛拍照。我也忍不住拿起相機來拍,我們家的相機效果很不錯,這些照片的效果非常好,我家小女兒總是把相機
搶過去拍那些小動物......」。其中「很多人」、「我」、「我們家」、「小女兒」都是表示主體概
念的詞語。所述主體概念即包括人物主體、也包括機構主體,比如「ABC餐館的餐具非常別致」中的「ABC餐館」也可以被提取出來。當然根據應用的需要,也可以設置各種各樣的規則對提取出的主體詞進行限制,比如僅提取人物主體詞、僅提取主語中的主體詞等。除了提取主體詞以外還需要提取與所述主體詞對應的實體詞。可以利用命名實體識別技術提取實體詞。所述實體詞為表示單個或者多個實體概念的詞語。比如圖3A例子中的「相機」。當然根據應用的需要,也可以設置各種各樣的規則對提取出的實體詞進行限制,比如僅提取某一範疇內的實體詞(具體而言比如僅提取與IT產品有關的實體詞)、或者僅提取與某一個或某一類關注對象有關的實體詞(具體而言比如僅與照相機有關的實體詞)、或者提取所有的實體詞等。在步驟105對所述主體詞進行分組,以形成主體詞分組。本發明創新性的使用了對主體詞進行分組的方法從而確定出指向共同關注對象的與不同主體相關的實體。為了對主體詞進行分組,需要首先建立主體關係網,根據不同的應用需求,可以建立個人關係網、 家庭關係網、同事關係網、朋友關係網等,然後根據建立好的主體關係網對主體詞進行分組。所述主體關係網可以依據關注對象進行建立。比如,對於照相機、汽車、房屋這樣的對象在大多數情況下是以家庭為單位擁有或使用的、而像手機、飾品等對象在大多數情況下是以個人為單位擁有或使用的,而對於印表機、伺服器、投影儀等對象可能是由工作單位擁有或使用的。可以根據實際應用的需要制定不同的規則從而對於不同的關注對象按照不同的關係網進行分組。以圖3A為例,由於該例中的關注對象為照相機,因此可以使用家庭關係網對主體詞以家庭為單位進行分組,分組結果如下所示{ 「很多人」 },{ 「我」,「我們家」,「我家小女兒」 }其中分組1包括一個主體詞「很多人」;分組2包括三個主體詞「我」、「我們家」、「我家小女兒」。可以理解,如果圖3A中僅出現「小女兒」而沒有出現「我家小女兒」,並且在上下文中曾經提到「小女兒」是我家的,則在步驟105中也可以將「小女兒」歸類到第2組。關注對象可以從多種渠道獲得,所述關注對象可以通過接收關注對象列表獲得, 所述關注對象列表中包含至少一個關注對象。按照本發明的一種應用場景(第一種應用場景),文本處理方法可以用於挖掘有關某一實體的大量的評論數據,比如某一照相機製造商 (五星公司)希望通過網絡了解其產品的用戶評價,則可以通過本發明的方法將網絡上的大量討論五星照相機的文章進行收集並提取有關五星照相機的句子或短語。在這一應用場景中,關注對象列表中的關注對象為五星照相機。在本發明的另一個應用場景中(第二種應用場景),文本處理方法還可以用於推薦文章中插入嵌入式廣告的插入位置。如果有多個廠商希望通過在他人的文章中插入嵌入式廣告,那麼關注對象列表將包含多個關注對象包括照相機、手機、汽車等。在這一應用中關注對象列表可以不必是某種特定品牌的產品,也就是說,如果某人的博客中提到了照相機而沒有指明具體是什麼品牌的照相機,那麼照相機廠商就可以在爭得其同意的基礎上插入嵌入式廣告。所述關注對象也可能根據對所述文本的語法結構的分析從而進行確定的。可以利用已知的OOV技術(Out of Vocabulary)獲得關注對象。本發明對OOV技術的實現方案沒有任何限定,可以參考US6243677B1、US60760M等專利或非專利文獻。在本發明的第二種應用場景中,網絡服務平臺提供者可能並沒有一個清晰明確的關注對象列表,而是希望通過文本處理方法挖掘出網絡上可以插入嵌入式廣告的產品。利用OOV技術,通過對文本的語法結構進行分析,包括識別其中的關鍵動詞,能夠確定關注對象的產品名稱。例如如果某人在網絡上的博文中寫道「我今天購買了一款新潮的mp4」,則OOV技術可以通過分析其中的關鍵動詞「購買」從而確定關注對象的產品名稱「mp4」。按照本發明的一個實施例,還可以利用自然語言處理技術中的別名技術(Alias) 對至少一個關注對象進行名詞擴展。本發明對別名技術的實現方案沒有任何限定,可以參考US20060036866A1等專利或非專利文獻。別名技術是通過分析大量文檔以及詞與詞之間的縮寫規則來實現對同一產品的不同的名稱進行擴展。通常情況下一個關注對象可能存在若干同義詞,比如「相機、照相機、DC、單反等」都是指照相機,「手機、手提電話、無繩電話、無線電話等」都是指手機。利用別名技術可以更全面的挖掘文本中關於某一種或多種產品的 fn息ο在步驟107根據所述主體詞分組確定指向同一關注對象的實體詞。一篇文章中可能多次談到照相機,但是並不一定所有的照相機都是指同一部照相機,在圖3A所示的例子中,「很多人都拿著相機紛紛拍照」中的「相機」就與「我也忍不住拿起相機來拍」中的「相機」不是同一部。步驟107可以確定文章中指向同一部相機的實體詞。按照如上所述的第一種應用場景,五星公司只想知道對五星牌照相機的評價,本發明中的文本處理方法可以幫助五星公司識別出文章中所有對其照相機的評價。按照如上所述的第二種應用場景,網絡服務平臺提供者可以幫助廠商在適當的位置插入嵌入式廣告。詳細的步驟將在下文中進行更加詳細的描述。在步驟109對指向同一關注對象的實體詞生成處理策略。區分不同的應用場景和實際需求,生成處理策略的具體內容可能會有所不同。對於如上所述的第一種應用場景,對指向同一關注對象的實體詞生成處理策略的步驟可以進一步提取指向同一關注對象的實
體詞所處的句子或短語。比如,如圖3H所示,對於「我剛剛購買了一架五星照相機......我
的新照相機比舊照相機好用多了,可以進行連續拍攝......」而言,可以提取「我的新照相
機比舊照相機好用多了,可以進行連續拍攝」這個句子作為對該款五星照相機的具體評價, 當然也可以提取「連續拍攝」這個短語作為對該款五星照相機的具體評價。本發明可以進一步對所提取的句子或短語進行情感分類。利用情感分析技術,本發明可以對提取出的評價進行分類,比如分成正面評價和負面評價,從而提供出更具有可讀性的評價報告。按照如上所述的第二種應用場景,所述對指向同一關注對象的實體詞生成處理策略的步驟還可以進一步對指向同一關注對象的至少兩個實體詞生成修改建議。所述修改建議可以存儲於另一個文件中,也可以在原文上以修訂模式(track change)進行存儲。按照本發明的一種實施例,所述生成修改建議的步驟進一步包括根據指向同一關注對象的至少兩個實體詞在所述文本中的出現位置生成修改建議。作為一種簡單的實施方式可以在每次出現指向同一關注對象的實體詞前加入廣告品牌。但是為了避免由於嵌入式廣告的加入而影響到文本原有的流利度,在本發明的一個實施例中,可以設置一些規則從而根據實體詞在文本中的位置從而對某一實體詞決定是否生成修改建議。這些規則可以包括下列各項之一項或多項如果指向同一關注對象的多個實體詞出現在同一句話中,則僅在第一個實體詞出現的地方插入嵌入式廣告;如果指向同一關注對象的多個實體詞出現在同一段落中,則僅在第一個實體詞出現的地方插入嵌入式廣告;如果指向同一關注對象的多個實體詞出現在同一文本中,每隔N個實體詞插入一次嵌入式廣告,N大於等於1。除此以外,還可以根據實際應用需要,制定任何其它規則。按照本發明的一種實施例,所述生成修改建議的步驟進一步包括根據對指向同一關注對象的至少兩個實體詞的情感分析結果生成修改建議。可以利用情感分析技術對指向同一關注對象的實體詞所在的句子或者短語進行分析,如果該句子或短語表達的是對關注對象的負面評價,則不對該實體詞產生修改建議或者建議不進行修改。如圖3F所示,在文本中出現了對手機的負面評價「剛買的手機信號非常不好,總是聽不清楚」,因此不對其提出修改建議或建議不進行修改。修改建議中的修改包括下列各項中的至少一項用另一個詞替換指向同一關注對象的至少兩個實體詞,如圖3B中用「五星相機」代替「我也忍不住拿起相機來拍」和「我們家的相機效果很不錯」中的「相機」;為指向同一關注對象的至少兩個實體詞插入相同圖標,如圖3C中在「我也忍不住拿起相機來拍」和「我們家的相機效果很不錯」的「相機」前插入圖標「FS」;對指向同一關注對象的至少兩個實體詞添加相同的連結,如圖3D中對「我也忍不住拿起相機來拍」、「我們家的相機效果很不錯」和「我家小女兒總是把相機搶過去拍那些小動物」的「相機」添加超級連結。當然本發明並不限於上述任何一種或多種修改方案,根據實際應用的需要,還可以設計出更多的修改方案。按照本發明的一種實施例,還可以利用關聯實體詞插入隱式廣告。所謂關聯實體詞是指與上文所述的指向同一關注對象的實體詞存在關聯關係的實體詞。比如「在景區很多人都拿著相機紛紛拍照。我也忍不住拿起相機來拍,我們家的相機效果很不錯,這些照片的效果非常好,我家小女兒總是把相機搶過去拍那些小動物」中的「照片」就是「相機」的關聯實體詞。對關聯實體詞進行修改的例子可以參見圖3E「這些(我家五星相機拍的)照片的效果非常好」。為了對關聯實體詞進行上述修改,需要首先識別指向同一關注對象的至少兩個實體詞的關聯實體詞,然後對所述關聯實體詞進行處理。識別關聯實體詞既可以通過匹配給定的與關注對象存在關聯關係的實體詞列表(比如照片、膠捲等都屬於相機的關聯實體詞)進行,也可以通過自然語言分析技術對文本進行分析而獲得關聯實體詞。圖2示出了按照本發明的一個實施例的確定指向同一關注對象的實體詞的流程圖。步驟201和203主要是為了確定指向同一關注對象的同組實體詞,步驟205和207主要是為了排除指向同一關注對象的同組實體詞。因此步驟201、203與205、207可以是並行執行的兩組步驟,也可以是先後執行的兩組步驟,如果先後執行,既可以先執行步驟201、 203再執行205、207,也可以先執行步驟205、207再執行步驟201、203。圖2隻是以一種執行順序為例進行說明。步驟201識別同一主體詞分組對應的實體詞,作為同組實體詞。該步驟進一步包括對所述文本的語法結構進行分析,從而識別從屬於同一主體詞分組下的每個主體詞所對應的實體詞。以圖3A中的文本為例,步驟201識別主體詞分組{ 「我」,「我們家」,「我家小女兒」}中所有主體詞對應的實體詞,比如「我也忍不住拿起相機來拍」中的「相機」,「我們家的相機效果很不錯」中的「相機」和「我家小女兒總是把相機搶過去拍那些小動物」中的「相機」。步驟203判斷所述同組實體詞是否指向同一關注對象,在上面的例子中,剛好三個位置的「相機」都是指向同一關注對象。但是在實際處理過程中,也可能存在同組實體詞指向不同關注對象的情況,比如如果在圖3A的例子中再增加一句「我家小女兒總是喜歡戴著遮陽帽」,那麼很顯然「遮陽帽」與「相機」指向的是不同的關注對象。如果在前述提取實體詞的步驟中(參見圖1中的步驟103)僅提取與某一個關注對象(比如照相機)有關的實體詞,則此處的步驟203也可以省略。上文提到過,按照本發明的一個實施例,還可以利用自然語言處理技術中的別名技術(Alias)對至少一個關注對象進行名詞擴展,因此判斷所述同組實體詞是否指向同一關注對象的步驟還可以進一步包括判斷所述同組實體詞是否與擴展後的所述至少一個關注對象匹配。步驟209確定指向同一關注對象的同組實體詞。在不執行205和207的情況下,也可以確定指向同一關注對象的同組實體詞,但是實際效果中可能引入一些誤判的現象。因此步驟205和207可以幫助使得所確定的指向同一關注對象的同組實體詞能夠更加準確。在步驟205中從所述文本中提取比較連詞。所述比較連詞可以包括「比」、「相對於」、「比較」等。在步驟207中根據文本中的比較連詞判斷指向不同關注對象的實體詞。如在文本「我剛託人從香港買了個相機,比我以前的那個相機好用多了 」中出現了比較連詞 「比」,因此可以判斷「我剛託人從香港買了個相機」中的「相機」與「比我以前的那個相機」 中所指的「相機」指向不同的關注對象。對於上文所述的第二種應用場景,可以僅對第一個 「相機」進行處理,插入嵌入式廣告,如圖3G所示「我剛託人從香港買了個五星相機,比我以前的那個相機好用多了」。對於如上文所述的第一種應用場景,則提取指向同一關注對象的實體所處的句子或短語作為對關注對象的評價,比如僅提取圖3H中的文本中的「可以進行連續拍攝」作為對「我剛剛購買了一架五星照相機」中的「五星照相機」的評價。圖4示出了文本處理系統的總體框圖。該文本處理系統401包括文本獲取裝置 403,用於獲取待處理的文本;詞提取裝置405,用於從所述文本中提取主體詞和與所述主體詞對應的實體詞;主體詞分組裝置407,用於對所述主體詞進行分組;實體詞確定裝置 409,用於根據分組後的主體詞確定指向同一關注對象的實體詞;以及處理策略生成裝置 411,用於對指向同一關注對象的實體詞生成處理策略。所述裝置所執行的步驟與圖1中的各個步驟對應,在此不再贅述。所述實體詞確定裝置409進一步用於識別同一主體詞分組對應的實體詞,作為同組實體詞;判斷所述同組實體詞是否指向同一關注對象;以及確定指向同一關注對象的同組實體詞。實體詞確定裝置409所執行的上述功能與圖2中的相應步驟對應,在此也不再贅述。所述實體詞確定裝置409還可以進一步用於從所述文本中提取比較連詞;以及根據文本中的比較連詞判斷指向不同關注對象的實體詞。利用上述功能,可以從而進一步提高所確定的指向同一關注對象的實體詞的準確度。所述文本處理系統401還進一步包括擴展裝置(圖中未示出),用於對至少一個關注對象進行名詞擴展,利用擴展裝置可以進一步識別出指向同一關注對象,但是使用不同的名稱實體詞。所述處理策略生成裝置411進一步用於對指向同一關注對象的至少兩個實體詞生成修改建議。該功能可以使本發明為上述第二種應用場景插入嵌入式廣告。所述處理策略生成裝置411還可以用於提取指向同一關注對象的實體詞所處的句子或短語。該功能可以使本發明為上述第一種應用場景收集特定產品的評論信息。本發明的文本處理系統所執行的其它功能與上文中文本處理方法所執行的對應功能類似,在此不再贅述。所屬技術領域的技術人員知道,本發明可以體現為系統、方法或電腦程式產品。 因此,本發明可以具體實現為以下形式,即,可以是完全的硬體、完全的軟體(包括固件、駐留軟體、微代碼等)、或者本文一般稱為「電路」、「模塊」或「系統」的軟體部分與硬體部分的組合。此外,本發明還可以採取體現在任何有形的表達介質(medium of expression)中的電腦程式產品的形式,該介質中包含計算機可用的程序碼。可以使用一個或多個計算機可用的或計算機可讀的介質的任何組合。計算機可用的或計算機可讀的介質例如可以是——但不限於——電的、磁的、光的、電磁的、紅外線的、或半導體的系統、裝置、器件或傳播介質。計算機可讀介質的更具體的例子(非窮舉的列表)包括以下有一個或多個導線的電連接、可攜式計算機磁碟、硬碟、隨機存取存儲器 (RAM)、只讀存儲器(ROM)、可擦式可編程只讀存儲器(EPR0M或快閃記憶體)、光纖、可攜式緊湊磁碟只讀存儲器(CD-ROM)、光存儲器件、諸如支持網際網路或內部網的傳輸介質、或者磁存儲器件。注意計算機可用的或計算機可讀的介質甚至可以是上面印有程序的紙張或者其它合適的介質,這是因為,例如可以通過電掃描這種紙張或其它介質,以電子方式獲得程序,然後以適當的方式加以編譯、解釋或處理,並且必要的話在計算機存儲器中存儲。在本文件的語境中,計算機可用的或計算機可讀的介質可以是任何含有、存儲、傳達、傳播、或傳輸供指令執行系統、裝置或器件使用的或與指令執行系統、裝置或器件相聯繫的程序的介質。計算機可用的介質可包括在基帶中或者作為載波一部分傳播的、由其體現計算機可用的程序碼的數據信號。計算機可用的程序碼可以用任何適當的介質傳輸,包括-但不限於-無線、電線、 光纜、RF等等。用於執行本發明的操作的電腦程式碼,可以以一種或多種程序設計語言的任何組合來編寫,所述程序設計語言包括面向對象的程序設計語言-諸如JaVa、Smalltalk、C++ 之類,還包括常規的過程式程序設計語言-諸如」 C」程序設計語言或類似的程序設計語言。程序碼可以完全地在用戶的計算上執行、部分地在用戶的計算機上執行、作為一個獨立的軟體包執行、部分在用戶的計算機上部分在遠程計算機上執行、或者完全在遠程計算機或伺服器上執行。在後一種情形中,遠程計算機可以通過任何種類的網絡——包括區域網 (LAN)或廣域網(WAN)-連接到用戶的計算機,或者,可以(例如利用網際網路服務提供商來通過網際網路)連接到外部計算機。以下參照按照本發明實施例的方法、裝置(系統)和電腦程式產品的流程圖和/ 或框圖描述本發明。要明白的是,流程圖和/或框圖的每個方框以及流程圖和/或框圖中各方框的組合,都可以由電腦程式指令實現。這些電腦程式指令可以提供給通用計算機、專用計算機或其它可編程數據處理裝置的處理器,從而生產出一種機器,使得通過計算機或其它可編程數據處理裝置執行的這些指令,產生實現流程圖和/或框圖中的方框中規定的功能/操作的裝置。也可以把這些電腦程式指令存儲在能指令計算機或其它可編程數據處理裝置以特定方式工作的計算機可讀介質中,這樣,存儲在計算機可讀介質中的指令產生一個包括實現流程圖和/或框圖中的方框中規定的功能/操作的指令裝置(instruction means) 的製造品。也可以把電腦程式指令加載到計算機或其它可編程數據處理裝置上,使得在計算機或其它可編程數據處理裝置上執行一系列操作步驟,以產生計算機實現的過程,從而在計算機或其它可編程裝置上執行的指令就提供實現流程圖和/或框圖中的方框中規定的功能/操作的過程。附圖中的流程圖和框圖,圖示了按照本發明各種實施例的系統、方法和電腦程式產品的可能實現的體系架構、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段、或代碼的一部分,所述模塊、程序段、或代碼的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。也應當注意,在有些作為替換的實現中,方框中所標註的功能也可以以不同於附圖中所標註的順序發生。例如,兩個接連地表示的方框實際上可以基本並行地執行,它們有時也可以按相反的順序執行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執行規定的功能或操作的專用的基於硬體的系統來實現,或者可以用專用硬體與計算機指令的組合來實現。本文中所用的術語,僅僅是為了描述特定的實施例,而不意圖限定本發明。本文中所用的單數形式的「一」和「該」,旨在也包括複數形式,除非上下文中明確地另外指出。還要知道,「包含」一詞在本說明書中使用時,說明存在所指出的特徵、整體、步驟、操作、單元和/或組件,但是並不排除存在或增加一個或多個其它特徵、整體、步驟、操作、單元和/或組件,以及/或者它們的組合。以下的權利要求中的對應結構、材料、操作以及所有功能性限定的裝置(means) 或步驟的等同替換,旨在包括任何用於與在權利要求中具體指出的其它單元相組合地執行該功能的結構、材料或操作。所給出的對本發明的描述其目的在於示意和描述,並非是窮盡性的,也並非是要把本發明限定到所表述的形式。對於所屬技術領域的普通技術人員來說, 在不偏離本發明範圍和精神的情況下,顯然可以作出許多修改和變型。對實施例的選擇和說明,是為了最好地解釋本發明的原理和實際應用,使所屬技術領域的普通技術人員能夠明了,本發明可以有適合所要的特定用途的具有各種改變的各種實施方式。
權利要求
1.一種文本處理方法,包括 獲取待處理的文本;從所述文本中提取主體詞和與所述主體詞對應的實體詞; 對所述主體詞進行分組,以形成主體詞分組; 根據所述主體詞分組確定指向同一關注對象的實體詞;以及對指向同一關注對象的實體詞生成處理策略。
2.一種如權利要求1所述的方法,其中確定指向同一關注對象的實體詞進一步包括 識別同一主體詞分組對應的實體詞,作為同組實體詞;以及判斷所述同組實體詞是否指向同一關注對象。
3.—種如權利要求2所述的方法,其中所述識別同一主體詞分組對應的實體詞進一步包括識別從屬於同一主體詞分組下的每個主體詞所對應的實體詞。
4.一種如權利要求2所述的方法,進一步包括 對關注對象進行名詞擴展,所述判斷所述同組實體詞是否指向同一關注對象的步驟進一步包括 判斷所述同組實體詞是否與擴展後的所述關注對象匹配。
5.一種如權利要求1所述的方法,其中確定指向同一關注對象的實體詞進一步包括 從所述文本中提取比較連詞;以及根據文本中的比較連詞判斷指向不同關注對象的實體詞。
6.一種如權利要求1-5中任意一個所述的方法,其中所述對指向同一關注對象的實體詞生成處理策略進一步包括對指向同一關注對象的至少兩個實體詞生成修改建議。
7.—種如權利要求6所述的方法,其中所述對指向同一關注對象的至少兩個實體詞生成修改建議進一步包括根據指向同一關注對象的至少兩個實體詞在所述文本中的出現位置生成修改建議。
8.—種如權利要求6所述的方法,其中所述對指向同一關注對象的至少兩個實體詞生成修改建議進一步包括根據對指向同一關注對象的至少兩個實體詞的情感分析結果生成修改建議。
9.一種如權利要求6所述的方法,其中所述修改建議中的修改包括下列各項中的至少一項用另一個詞替換指向同一關注對象的至少兩個實體詞; 對指向同一關注對象的至少兩個實體詞插入相同圖標; 對指向同一關注對象的至少兩個實體詞添加相同的連結。
10.一種如權利要求6所述的方法,進一步包括接收關注對象列表,所述關注對象列表中包含至少一個關注對象。
11.一種如權利要求6所述的方法,進一步包括根據對所述文本的語法結構的分析,確定至少一個關注對象。
12.—種如權利要求6所述的方法,進一步包括識別指向同一關注對象的至少兩個實體詞的關聯實體詞;以及對所述關聯實體詞進行處理。
13.—種如權利要求1-5中任意一個所述的方法,其中所述對指向同一關注對象的實體詞生成處理策略進一步包括提取指向同一關注對象的實體詞所處的句子或短語。
14.一種如權利要求13所述的方法,進一步包括 對所提取的句子或短語進行情感分類。
15.一種文本處理系統,包括文本獲取裝置,用於獲取待處理的文本;詞提取裝置,用於從所述文本中提取主體詞和與所述主體詞對應的實體詞; 主體詞分組裝置,用於對所述主體詞進行分組,以形成主體詞分組; 實體詞確定裝置,用於根據所述主體詞分組確定指向同一關注對象的實體詞;以及處理策略生成裝置,用於對指向同一關注對象的實體詞生成處理策略。
16.一種如權利要求15所述的系統,其中所述實體詞確定裝置進一步用於 識別同一主體詞分組對應的實體詞,作為同組實體詞;判斷所述同組實體詞是否指向同一關注對象;以及確定指向同一關注對象的同組實體詞。
17.一種如權利要求16所述的系統,進一步包括 擴展裝置,用於對關注對象進行名詞擴展。
18.—種如權利要求15所述的系統,其中所述實體詞確定裝置進一步用於 從所述文本中提取比較連詞;以及根據文本中的比較連詞判斷指向不同關注對象的實體詞。
19.一種如權利要求15-18中任意一個所述的系統,其中所述處理策略生成裝置進一步用於對指向同一關注對象的至少兩個實體詞生成修改建議。
20.—種如權利要求15-18中任意一個所述的系統,其中所述處理策略生成裝置進一步用於提取指向同一關注對象的實體詞所處的句子或短語。
全文摘要
本發明總體上利用對現有的對象共指技術的擴展實現自動的、更全面的、準確的、有效的文本數據的分析和處理。具體而言,本發明提供了一種文本處理方法,包括獲取待處理的文本;從所述文本中提取主體詞和與所述主體詞對應的實體詞;對所述主體詞進行分組;根據分組後的主體詞確定指向同一關注對象的實體詞;以及對指向同一關注對象的實體詞生成處理策略。本發明還提供了實現這種方法的系統。本發明可以用於挖掘有關某一實體的大量的評論數據,本發明還可以用於推薦文章中插入嵌入式廣告的插入位置。
文檔編號G06F17/27GK102262632SQ20101018862
公開日2011年11月30日 申請日期2010年5月28日 優先權日2010年5月28日
發明者張小洵, 祝慧佳, 蘇中, 蔡柯柯, 馬瑞 申請人:國際商業機器公司