一種基於概念符號的文本領域的獲取系統及方法

2023-09-12 14:30:15 5

專利名稱：：一種基於概念符號的文本領域的獲取系統及方法
技術領域：
：本發明涉及利用計算機科學與技術對文本進行語言文字信息處理的領域，特別涉及一種基於概念符號的文本領域的獲取系統及方法。
背景技術：
：文本分類技術是利用計算機，根據一定的規則、知識和步驟，把一篇文本歸為一個或多個領域類別的方法和過程。文本分類的一般方法是將文本表示成特徵向量，當兩篇文本的特徵向量的"夾角"小於某個角度時，它們被歸為同一類別。一般選取詞語作為文本特徵構成文本的特徵向量，特徵向量的構造方法多採用TF*IDF方法或由此衍生的TF*IWF方法，TF*IDF即用詞語在文檔中的出現頻率和在文檔集合中出現頻率的倒數之乘積作為特徵向量中該特徵詞語對應的取值。文本分類的K近鄰方法、貝葉斯方法、支持向量機、神經網絡、決策樹等都是以文本的向量空間模型為基礎的統計方法，在分類之前要求有事先分類好的大量文本集進行參數優化訓練，訓練後可以將新文本歸入到某一定義好的類別中。中國專利文件(公開號CN100353361)公開了一種新的面向文本分類的特徵向量權重的方法和裝置，在TF*IWF方法的基礎上引入了DBV和TF的n詞方根，通過按詞語頻率選取各分類領域的不同特徵詞數(50、100、200、500、1000、1500、2000、2500、3000、3500、4000)的實驗，發現取3500詞時其實驗系統性能較好。由於文本分類方法要求事先知道文本的領域類別集合和分類標準，在分類類別不確定和訓練文本集獲取困難的情況下，文本分類方法將很難實施。因此，又出現了文本聚類技術。常用的文本聚類方法的典型代表是K-Means算法，即首先從文本集中任選K個文本作為聚類中心，其它文本根據與聚類中心的特徵向量"距離"劃歸到距離最近的那個聚類中；然後再以K個類中所有文本的特徵向量的均值作為新的聚類中心，所有文本又根據與聚類中心的距離再聚類，如此迭代計算直到評價函數收斂為止。但是，文本自動聚類得到的領域類別非常粗糙，由於缺乏分類指導其結果很難適應實際的需求。而且同一個文本聚類方法，對某個文本集效果較好，對另一個文本集效果卻可能很差，即文本聚類的實用性和穩定性都存在缺點。綜上，文本分類的統計方法需要大量的事先分類好的訓練語料，這往往是分類時所難以提供的。而文本聚類雖然能克服這一缺點，但聚類結果卻很難與分類的實際需求相結合。
發明內容為了克服上述現有技術中的問題，本發明提供了一種基於概念符號的文本領域的獲取系統及方法，該系統及方法具有分類標準可配置和分類方法規則化的特點，可以在沒有訓練語料的情況下獲得文本的基本領域分類，並可以根據實際需要定製文本的分類類別，可用於文本的自動聚類。為了達到上述目的，本發明提供的一種基於概念符號的文本領域的獲取系統，如圖1所示，包括一領域概念符號集，用於表達詞語概念和領域類別，並向領域判別器提供所需的領域概念符號。一詞語知識庫，用於存儲詞語及其概念符號，並向分詞處理器和語句語義分析器提供所需的詞語及其概念符號。一分詞處理器，用於把輸入文本切分為段落、語句、詞語，並送入語句語義分析器。一語句語義分析器，用於對語句進行語義分析，得到語句的概念類別和構成語句的語義塊，包括語義塊的角色、邊界和內部構成。一領域判別器，用於根據領域概念符號集和詞語知識庫中的語義概念符號得到語句中的激活詞語；然後根據語句中的激活詞語的語義塊類型、領域概念符號關係、出現頻次及出現位置對激活詞語的領域概念符號進行綜合評分，取得分最高的領域概念符合作為語句的領域；接著對段落中的語句按照其領域概念符號進行合併，得到句群及其領域；最後根據輸入文本標題、句群在輸入文本中出現頻次和位置得到輸入文本的領域。其中，所述語義塊的角色類型分為特徵語義塊E、作用者語義塊A、對象語義塊B及內容語義塊C;所述特徵語義塊類型E分為兩種類型a)全局特徵語義塊Eg，是語句第一級層次中的特徵語義塊E;b)局部特徵語義塊E/，是語義塊中嵌套語句S'時嵌套語句S'的特徵語義塊E。其中，所述領域概念符號集包括以下高層節點符號"71，72"表示心理活動及精神狀態；"8"表示人類思維活動；"a,b"表示專業及追求活動(第二類勞動)；"d"表示理念活動；"q6"表示第一類勞動；"q7"表示業餘活動；"q8"表示信仰活動；"6m"表示本能活動，其中m=0~5;"3228a"表示災禍，其中a=8~b;"503,50a"表示狀態，其中a=8b;領域概念高層節點表示的領域71,72心理活動及精神狀態8人類思維活動a，b專業及追求活動(第二類勞動)d理念活動q6第一類勞動q7業餘活動q8信仰活動6m(m=05)本能活動3228a(a=8b)災禍503,50a(a=8b)狀態以及所述高層節點向下延伸的更具體的領域概念節點符號。其中，所述領域判別器按如下方法確定語句S的領域首先，從句類分析的結果中獲得激活詞語所處語義塊的類型；然後，按全局特徵語義塊Eg〉局部特徵語義塊E/〉內容語義塊C〉(對象語義塊B或作用者語義塊A)的語義塊類型順序依次確定語句S的領域；當同一類型語義塊中有多個激活詞語(WhW2,.,.,Wn)時，假設激活詞語對應的領域概念符號分別為(D,，D2,…,D。)，那麼根據如下計算公式計算每一個領域概念符號在語句中的得分S(Di)=Rel(i)+Fre(i)+Pos(i)，1必n;其中，Rel(i)表示第i個領域概念符號Di在語句中與其它領域概念符號Dj(j戎l5j^i)的關係得分；Fre(i)表示第i個領域概念符號D,在語句S中的出現頻次，頻次越高其值越大；Pos(i)表示第i個領域概念符號Di在語句S中的出現位置，位置越靠後其值越大。將得分s(Di)最高的第i個領域概念符號Di作為語句S的領域。其中，所述領域判別器判斷文本領域的原則還包括如果文本中有標題，那麼標題的領域作為文本的領域；如果文本中沒有標題，那麼文本中最先出現的頻次最多的句群領域作為文本的領域。本發明提供的一種基於概念符號的文本領域的獲取方法，如圖2所示，包括以下步驟(1)分段分句分詞分詞處理器把輸入文本切分為段落、語句、詞語。一個輸入文本在計算機中被作為一個字符串T。以字符串T中的"回車、換行"符為切分點，把文本T切分為若干個段落P。以段落P中的"句號、問號、嘆號和分號"等字符為切分點，把段落P切分成若干個語句S。語句S由漢字和其他字符構成。設A、B、C是語句S中出現的漢字，若"AB"是詞語知識庫中的詞語，則"ABC"切分為"AB/C";同理，若"BC"是詞中的詞語，則"ABC"切分為"A/BC"。如果"AB"和"BC"都是詞庫中的詞語，那麼按照左切分原則切分為"A/BC";如果"ABC"是詞庫中的詞語，那麼按照最大詞長原則切分為"/ABC/"。於是，語句S被切分為若干個詞語W，分詞結束。(2)語句語義分析語句語義分析器對語句進行語義分析，得到語句的概念類別和構成語句的語義塊，包括語義塊的角色、邊界和內部構成。對於每一個語句S，分析語句得到其語義類別(句類)代碼SCode，格式代碼SFomat,句類表達式SExpression，構成語句的語義塊的種類、範圍、在句類表達式中的具體名稱等等。特別是確定語義塊的類型是E(特徵語義塊)、A(作用者語義塊)、B(對象語義塊)、還是C(內容語義塊)。在特徵語義塊類型E中，又分為兩種類型一種是Eg(全局特徵語義塊)，是語句第一級層次中的特徵語義塊E;—種是E/(局部特徵語義塊)，它是語義塊中嵌套語句S'時嵌套語句S'的特徵語義塊E。(3)獲取激活詞語領域判別器根據領域概念符號集和詞語知識庫中的語義概念符號得到語句中的激活詞語。激活詞語是語句S中含有領域概念符號的詞語。詞語知識庫包括詞形、音調、義項數、義項號、概念類別、詞頻及語境、語義知識、句類代碼、格式變換、@S、@K、@CA、@CT。其中語義知識就是用概念基元的符號表達的，而領域符號也是概念基元符號體系中的一個子集，因此詞語的概念符號中可能蘊含著領域概念符號信息。在概念基元符號體系中，並不是所有的概念基元節點都用於描述領域，與領域相關的概念的高層節點有71,72(心理活動及精神狀態)；8(人類思維活動)；a,b(專業及追求活動(第二類勞動))；d(理念活動)；q6(第一類勞動)；q7(業餘活動)；q8(信仰活動)；6m(n^05)(本能活動)；3228a(o^8b)(災禍)；503，50a(a=8~b)(狀態)。這些領域概念符號的高層節點可以向下延伸得到更為具體的領域概念節點符號，例如a(專業活動)向下延伸為al(政治)、a2(經濟)、a3(文化)、a4(軍事)、a5(法律)、a6(科技)、a7(教育)、a8(衛保)，而al(政治)向下可依次延伸為all(政權活動)，a113(最高領導人(國家或地方政府)更迭)，all3b(選舉)。領域的概念符號和詞語知識庫中語義知識的概念符號使用的是同一個概念基元符號體系，當一個詞語W的語義知識的概念符號中出現了領域概念符號的高層節點或其衍生節點時，詞語W就是就是激活詞語。領域概念符號表達了某一層次或類型的領域，語句S中的激活詞語所蘊含的所有領域概念符號被作為語句S的候選領域。(4)語句領域判別領域判別器根據語句中激活詞語的語義塊類型、領域概念符號關係、出現頻次及出現位置對激活詞語的領域概念符號進行綜合評分，取得分其中，所述步驟(4)中語句領域來源於激活詞語的領域概念符號。當語句S中有多個激活詞語時，按如下方法確定語句領域首先，從句類分析的結果中獲得激活詞語所處語義塊的類型；然後按全局特徵語義塊Eg〉局部特徵語義塊E/〉內容語義塊O對象語義塊B或作用者語義塊A的語義塊類型順序依次確定語句S的領域，即若Eg中有激活詞語W則取W的領域概念符號作為語句領域，若Eg中沒有激活詞語則從E/則，若E/中沒有激活詞語則從C中取，若C中沒有則從B或A中取。當同一類型的語義塊中有多個激活詞語(Wl,W2,.,.，Wn)時，假設激活詞語對應的領域概念符號分別為(Dl,D2,…,Dn)，那麼根據如下計算公式計算每一個領域概念符號在語句中的得分S(Di)=Rel(i)+Fre(i)+Pos(i)，15Sn。在公式S(Di"Rel(i)+Fre(i)+Pos(i)中，Rel(i)表示第i個領域概念符號Dj在語句中與其它領域概念符號Dj(j戎l5j^i)的關係得分；Fre(i)表示第i個領域概念符號Di在語句S中的出現頻次，頻次越高其值越大；Pos(i)表示第i個領域概念符號Di在語句S中的出現位置，位置越靠後其值越大。將得分S(DO最高的第i個領域概念符號Di作為語句S的領域。Rd(i)的分值來自領域概念符號Di與Dj的關係。當Di是D」的概念延伸表示時，Di的分值加1;當Di與Dj強相關時，Di的分值加1。如果計算完S(Di)後Di是語句的領域，D,前有否定概念修飾，那麼應取Di'(即其相反領域概念符號)作為語句的領域。如果如果計算完S(Dj)後Di是語句的領域，而Dj的Rd(i)+Fre(i)得分與Dj相同，且Di與Dj是同一概念節點的子節點，那麼取Di與Dj的上一級父節點領域概念符號作為語句的領域。如果一個激活詞語Wi(l^^i)中有多個領域概念符號(Di!,Di2，…,Dim)，那麼這m個領域概念符號都需要計算S(Di)的領域分值，只是在計算Rel(i)時不需要考慮Dij(l5j^n)與Dik(^i，l5k5m)之間的領域概念符號關係。如果Dij與Dlk的最終計算分值S(Dij)和S(Dik)依然相同，那麼取詞語知識庫中排在前面的領域概念符號作為語句S的領域。(5)句群及其領域判別領域判別器對段落中的語句按照其領域概念符號進行合併，得到句群及其領域。句群由連續的描述同一中心話題的語句組成。句群的中心話題是指相同或近似的領域概念符號所表達的話題或領域。最小的句群為一個語句，最大的句群為一個段落。所述步驟(5)中，對於文本T的某個段落Pi中的語句(SbS^.^Sn),每個語句的句群歸屬依據以下步驟確定，如圖3所示(5a)取第一個語句Sd乍為句群Gi，取Si的領域D!作為句群G!的領域D(K;(5b)S!為當前語句Si，Gi為當前句群Gj，轉(5g);(5c)如果Si的領域Di是Sw的領域Dw的符號延伸，那麼語句Si歸入Gj，G|的領域改為Di，轉(5g);(5d)如果Sw的領域Dw是Si的領域Di的符號延伸，那麼語句Si歸入Gj，轉(5g);(5e)如果當前語句Si的領域Di與上一語句Sw的領域Dw相同，那麼語句S,歸入Gj，轉(5g);(5f)取Si的下一語句Sw為新句群Gjw,領域DGj+i為語句Sw的領域Dw;(5g)如果當前語句Sj為最後一個語句Sn，那麼轉(5n);(5k)如果Si的領域為空且Si是Sp那麼語句S2歸入Gi，G!的領域改為D2，把S2作為當前語句Si，轉(5c);(51)如果S,的領域為空且Si不是S!，那麼語句Si歸入Gj，轉(5g);(5m)如果Si的領域不為空，那麼把Sw作為當前語句Si，轉(5c);(5n)對獲得的所有句群Gj，將相鄰的領域相同的句群合併為一個句群，其中經過上述步驟的併合操作，一個段落就被劃分為若干個句群，同時它們的領域也根據語句的領域確定下來，實現了段落中句群的劃分以及句群領域的判別。(6)文本領域判別領域判別器根據文本標題、句群在輸入文本中出現頻次和位置得到輸入文本的領域。其中，所述步驟(6)還包括如果輸入文本中有標題，那麼標題的領域被作為輸入文本的領域，如果標題段落Pi中只有一個句群，那麼該句群的領域就是文本的領域；如果段落P!中有多個句群，那麼選取段落P!中第一個句群的領域和最後一個句群的領域共同作為文本的領域。如果文本中沒有標題，那麼文本中所有句群的領域被作為文本領域的候選領域。文本T中n個句群的領域按句群出現順序記為D=(DG1,DG2,...,DGn)，從DG1到D^按以下步驟操作，如圖4所示(6a)把Dd作為D(ji，統計D中與D(3i領域概念符號相同的領域個數CGi，將Dcji與Qji存入表HTab中；(6b)如果DGi為Dcta，那麼轉(6f)(6c)把D(jiw作為DGi;(6d)如果DGi的領域概念符號已經被存入表HTab中，那麼轉(6c);(6e)統計D中與DG,領域概念符號相同的領域個數CGl，將Dcji與Qii存入表HTab中，轉(6b);(6f)得到表HTab=((DG1,CG1),...，(DGm,CGm))，其中l￡m5n;(6g)對表HTab中的元素(Dgj,Cgj)，BjSn按照CGj的大小從大到小排序，得到新表HTab'=((DG1'，CG1'),...,(DGm'，CGm'))。把新表中的第一個元素的領域概念符號作為文本T的領域，當文本T中沒有標題時文本T的領域可以用上述步驟獲取。本發明的優點在於1、本發明提供的文本領域獲取系統及方法用於文本分類時，不需要事先分類好的大量訓練語料，只需要確定與分類類別相關的領域概念符號。2、本發明提供的文本領域獲取系統及方法的領域概念符號具有層次性特點，既可以適應種類繁多的同層次分類類別，還可以適應具體的細小類別的跨層次分類。3、本發明提供的文本領域獲取系統及方法主要採用語義分析的方法深入概念層次確定文本的領域類別，同時又引入統計特性的頻次特徵，使文本領域的獲取方法更加準確和適合大規模文本的處理。4、本發明提供的文本領域獲取系統及方法提出的句群領域可用於文本的分類處理，也可用於文本的聚類分析與文本的話題分析。圖l是本發明文本領域的獲取系統的結構圖2是本發明文本領域的獲取方法的流程圖3是本發明句群及其領域的確定方法的流程圖4是本發明文本沒有標題時文本領域獲取方法的流程圖。具體實施例方式下面結合具體實施例及附圖對本發明做詳細說明。首先，從網際網路下載了一些關於2004年雅典奧運會比賽的新聞報導文本11篇，共60個自然段，6501個漢字。其次，根據《語言概念空間的基本定理和數學物理表示式》(海洋出版社，2004年7月)中的設計原則和設計符號具體完善了q73(比賽)領域的概念符號，得到關於比賽領域的概念符號集。同時豐富了詞語知識庫中關於比賽的詞語及其語義知識。第三，使用分詞處理器對一篇文本進行分段、分句和分詞處理。例如以下文本-Title:馬來西亞"小旗手"一名之差未進跳水半決賽新華網雅典8月27日電在當地時間27日下午舉行的奧運會男子十米跳臺跳水的比賽中，來自馬來西亞的布萊恩-尼克森預賽成績排名第十九，未能晉級半決賽。根據規則，預賽的33名選手中，成績排在前18名的選手晉級半決賽。經過分詞處理器的處理後，得到的結果如下[馬來西亞]["小旗手"][一名之差][未進][跳水][半決賽][雅典][8月27日]電在[當地][時剛[27日][下午][舉行]的[奧運會][男子][十米][跳臺][跳水]的[比賽]中[馬來西亞]的布萊恩-尼克森[預賽][成劍[排名]第[十九][晉級][半決賽][根據][規則]的[33名][選手]中排在前[18名]的[選手][晉級][半決賽]第四，使用語句語義分析器對語句進行分析，然後使用領域判別器獲取激活詞語並分析句群及其領域，在合併句群領域後得到如下結果〃DOM:(q734)Title:[馬來西亞]["小旗手"]一名之差未進[跳水(a339V0][半決賽(q734)]新華網[雅典(a219U0pw)]8月27日電在[當地][時間]27日[下午][舉行(a02)]的[奧運會(a339i)][男子]十米[跳臺(a339W)][跳水(a339M)]的[比賽(q73)]中，[來自][馬來西亞]的布萊恩-尼克森[預賽(q734)][成績(a0099b)][排名(q730e25d0[n])]第十九，[未能][晉級(a01ad0ne25)][半決賽(q734)]。[根據][規則(a009a9)]，[預賽(q734)]的33名[選手(q730)]中，[成績(a0099b)]排在前18名的[選手(q730)][晉級(a01ad0ne25)][半決賽(q734)]。在文本中，第一個語句"Title:馬來西亞'小旗手'一名之差未進跳水半決賽"，其語義分析結果為"Title:馬來西亞'小旗手'(SB川一名之差未進(SO)II跳水半決賽(SC)"。由於全局特徵語義塊Eg(即SO)沒有領域概念符號信息，所以從含有領域信息的內容語義塊C(即SC)中選取語句的領域。SC語義塊中的"跳水"和"半決賽"都含有領域概念符號信息，通過分值計算它們的領域關係得分和頻次得分都一樣，但是"半決賽"的位置得分要大於"跳水"，所以語句的領域為"q734"。因此第一個段落總共就一個語句，整個段落是一個句群，句群的領域就是"q734"。由於第一個段落是文本標題，所以文本的領域也就是"q734"。這樣，依據激活詞語的領域概念符號，通過分析激活詞語在語句中所處的語義塊的類型以及詞語位置、頻次等可得到語句的領域、句群的領域，最終得到了文本的領域。權利要求1、一種基於概念符號的文本領域的獲取系統，其特徵在於，所述獲取系統包括一領域概念符號集，用於表達詞語概念和領域類別，並向領域判別器提供所需的領域概念符號；一詞語知識庫，用於存儲詞語及其概念符號，並向分詞處理器和語句語義分析器提供所需的詞語及其概念符號；一分詞處理器，用於把輸入文本切分為段落、語句、詞語，並送入語句語義分析器；一語句語義分析器，用於對語句進行語義分析，得到語句的概念類別和構成語句的語義塊，包括語義塊的角色、邊界和內部構成；一領域判別器，用於根據領域概念符號集和詞語知識庫中的語義概念符號得到語句中的激活詞語；然後根據語句中的激活詞語的語義塊類型、領域概念符號關係、出現頻次及出現位置對激活詞語的領域概念符號進行綜合評分，取得分最高的領域概念符合作為語句的領域；接著對段落中的語句按照其領域概念符號進行合併，得到句群及其領域；最後根據輸入文本標題、句群在輸入文本中出現頻次和位置得到輸入文本的領域。2、根據權利要求1所述的文本領域的獲取系統，其特徵在於，所述語義塊的角色類型分為特徵語義塊E、作用者語義塊A、對象語義塊B及內容語義塊C;所述特徵語義塊類型E分為兩種類型a)全局特徵語義塊Eg，是語句第一級層次中的特徵語義塊E;b)局部特徵語義塊E/，是語義塊中嵌套語句S'時嵌套語句S'的特徵語義塊E。3、根據權利要求1所述的文本領域的獲取系統，其特徵在於，所述領域概念符號集包括以下高層節點符號-tableseeoriginaldocumentpage2以及所述高層節點向下延伸的更具體的領域概念節點符號。4、根據權利要求1所述的文本領域的獲取系統，其特徵在於，所述領域判別器按如下方法確定語句S的領域首先，從語句語義分析的結果中獲得激活詞語所處語義塊的類型；然後，按"全局特徵語義塊Eg〉局部特徵語義塊E^內容語義塊0對象語義塊B或作用者語義塊A"的語義塊類型順序依次確定語句S的領域；當同一類型語義塊中有多個激活詞語W,，W2,…,W。時，假設激活詞語對應的領域概念符號分別為D!,D2，…,Dn，那麼根據如下計算公式計算每一個領域概念符號在語句中的得分S(D0=Rel(i)+Fre(i)+Pos(i)，1必n;其中，Rd(i)表示第i個領域概念符號Di在語句中與其它領域概念符號Dj(j^U^^n)的關係得分；Fre(i)表示第i個領域概念符號Di在語句S中的出現頻次，頻次越高其值越大；Pos(i)表示第i個領域概念符號Di在語句S中的出現位置，位置越靠後其值越大，將得分S(Di)最高的第i個領域概念符號Di作為語句S的領域。5、根據權利要求1所述的文本領域的獲取系統，其特徵在於，所述領域判別器判斷文本領域的原則還包括如果文本中有標題，那麼標題的領域作為文本的領域；如果文本中沒有標題，那麼文本中最先出現的頻次最多的句群領域作為文本的領域。6、一種基於概念符號的文本領域的獲取方法，包括以下步驟(1)分段分句分詞分詞處理器把輸入文本切分為段落、語句、詞語；(2)語句語義分析語句語義分析器對語句進行語義分析，得到語句的概念類別和構成語句的語義塊，包括語義塊的角色、邊界和內部構成；(3)獲取激活詞語領域判別器根據領域概念符號集和詞語知識庫中的語義概念符號得到語句中的激活詞語；(4)語句領域判別領域判別器根據語句中激活詞語的語義塊類型、領域概念符號關係、出現頻次及出現位置對激活詞語的領域概念符號進行綜合評分，取得分最高的領域概念符號作為語句的領域；(5)句群及其領域判別領域判別器對段落中的語句按照其領域概念符號進行合併，得到句群及其領域；(6)文本領域判別領域判別器根據文本標題、句群在輸入文本中出現頻次和位置得到輸入文本的領域。7、根據權利要求6的文本領域的獲取方法，其特徵在於，所述步驟(4)按如下方法確定語句S的領域首先，從語句語義分析的結果中獲得激活詞語所處語義塊的類型；然後，按"全局特徵語義塊Eg〉局部特徵語義塊E/〉內容語義塊0對象語義塊B或作用者語義塊A"的語義塊類型順序依次確定語句S的領域；當同一類型語義塊中有多個激活詞語WhW2,…,Wn時，假設激活詞語對應的領域概念符號分別為D1，D2，...,Dn，那麼根據如下計算公式計算每一個領域概念符號在語句中的得分:S(D0=Rel(i)+Fre(i)+Pos(i)，1必n;其中，Rel(i)表示第i個領域概念符號Dj在語句中與其它領域概念符號Dj(j沐l^^n)的關係得分；Fre(i)表示第i個領域概念符號Di在語句S中的出現頻次，頻次越高其值越大；Pos(i)表示第i個領域概念符號Di在語句S中的出現位置，位置越靠後其值越大，將得分S(Dj)最高的第i個領域概念符號Di作為語句S的領域。8、根據權利要求6的文本f域的獲取方法，其特徵在於，所述步驟(5)中，對於文本T的某個段落Pi中的語句ShS2,…,Sn，每個語句的句群歸屬依據以下步驟確定(5a)取第一個語句S!作為句群Gp取Si的領域Di作為句群G!的領域DcM;(5b)S!為當前語句Si，Gi為當前句群Gj，轉(5g);(5c)如果Si的領域D,是Sw的領域Di.i的符號延伸，那麼語句Si歸入Gj，Gj的領域改為Di，轉(5g);(5d)如果Sw的領域D"是Si的領域Di的符號延伸，那麼語句Si歸入G」，轉(5g);(5e)如果當前語句Si的領域Di與上一語句Sw的領域Dw相同，那麼語句Si歸入Gj，轉(5g);(5f)取S,的下一語句Sw為新句群Gjw，領域DQjw為語句Sw的領域Dw;(5g)如果當前語句Si為最後一個語句Sn，那麼轉(5n);(5k)如果Si的領域為空且Si是Si，那麼語句S2歸入Gi，Gi的領域改為D2，把S2作為當前語句Si,轉(5c);(51)如果Si的領域為空且Si不是Sp那麼語句S,歸入Gj，轉(5g);(5m)如果Si的領域不為空，那麼把Sw作為當前語句Si，轉(5c);(5n)對獲得的所有句群Gj，將相鄰的領域相同的句群合併為一個句群，其中9、根據權利要求6的文本領域的獲取方法，其特徵在於，所述步驟(6)還包括如果輸入文本中有標題，那麼標題的領域被作為輸入文本的領域；如果輸入文本中沒有標題，那麼輸入文本中最先出現的頻次最多的句群領域被作為輸入文本領域的候選領域的步驟。10、根據權利要求9所述的文本領域的獲取方法，其特徵在於，如果文本中沒有標題，文本T中n個句群的領域按句群出現順序記為D=(DG1，DG2，...，DGn)，從DG1到D^按以下步驟操作獲取文本領域(6a)把Dm作為Da,統計D中與Doi領域概念符號相同的領域個數Cffi，將Dcji與Qji存入表HTab中；(6b)如果DGi為D(jn，那麼轉(6f);(6c)把D(}i+1作為DGi;(6d)如果Dci的領域概念符號己經被存入表HTab中，那麼轉(6c);(6e)統計D中與Da領域概念符號相同的領域個數Qji，將Da與Qji存入表HTab中，轉(6b);(6f)得到表HTab-((D(m,C(h)，…，(DGm，CGm))，其中BmSn;(6g)對表HTab中的元素(Dgj，Cgj)，1^jSm按照Cq的大小從大到小排序，得到新表HTab'=((DG1'),...，(DGm'，CGm'))，把該新表中的第一個元素的領域概念符號作為文本T的領域。全文摘要本發明公開了一種基於概念符號的文本領域的獲取系統及方法。該系統包括一用於表達詞語概念和領域類別的概念符號集、一存儲詞語及其概念符號的詞語知識庫、一分詞處理器、一語句語義分析器、一領域判別器。該方法包括以下步驟(1)把輸入文本切分為段落、語句、詞語；(2)對語句進行語義分析，得到語句的概念類別和語義塊；(3)根據領域概念符號集和詞語知識庫中的語義概念符號得到語句中的激活詞語；(4)對激活詞語的領域概念符號進行綜合評分，取得分最高的領域概念符號作為語句的領域；(5)對段落中的語句按照其領域概念符號進行合併，得到句群及其領域；(6)根據文本標題、句群在文本中出現頻次和位置得到文本的領域。文檔編號G06F17/30GK101645083SQ200910077018公開日2010年2月10日申請日期2009年1月16日優先權日2009年1月16日發明者全張,繆建明,韋向峰,黃曾陽申請人:中國科學院聲學研究所

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

一種基於概念符號的文本領域的獲取系統及方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法