多義詞的信息檢索裝置以及程序的製作方法
2023-10-04 07:20:34 2
專利名稱:多義詞的信息檢索裝置以及程序的製作方法
技術領域:
本發明涉及進行考慮了詞語的多義性的檢索的多義詞的信息檢索
裝置及程序。例如,"WINS"這一詞語存在計算機用語和賽馬用語這兩 種。只輸入"WINS"進行檢索時,與計算機用語相關聯的檢索結果、和 與賽馬的用語相關聯的檢索結果混合輸出。如果用戶只想要與計算機用 語相關聯的報導的檢索結果時,上述的檢索結果不方便,所以,需要解 決該問題。
背景技術:
以往,有提供用於檢索的關鍵詞進行信息檢索的技術(參照非專利 文獻l)。但是,在檢索的階段,不能進行考慮了單詞的多義的輸入。
非專利文獻1:"位置情報t分野情報全用Wc:情報検索"村田真樹,馬青, 內元清貴,小作浩美,內山將夫,井佐原均,自然言語処理(言語処理學會誌) 2000年4月,7巻,2號,p.141 ~ p.160
上述以往的提供關鍵詞進行信息檢索的技術,在檢索的階段不能進 行考慮了單詞的多義的輸入,所以,有時檢索出不需要的信息輸出。
發明內容
本發明謀求解決上述問題,其目的在於進行考慮了詞語的多義性的 檢索而僅檢索(輸出)需要的信息。
圖1是本發明的多義詞的信息檢索裝置的說明圖。在圖1中,l是 輸入部(輸入單元),2是檢索提取部(檢索提取單元),4是資料庫 (保存單元),5是輸出部(輸出單元)。
本發明具有用於解決所述以往的課題的如下單元。 (1):具備輸入單元l,輸入關鍵詞和領域;資料庫4,保存各 領域的報導;檢索提取單元2,從所述資料庫4提取包含所述輸入的關 鍵詞和領域的報導,並提取傾向於該提取出的報導組而出現的單詞組A, 在包含所述輸入的關鍵詞的報導當中,從較多地包含所述單詞組A的報 道開始,依次進行輸出。因此,能夠使用多義詞的關鍵詞,檢索所輸入的領域的報導。
(2) :具備輸入單元l,輸入關鍵詞和領域;資料庫4,保存各 領域的報導;檢索提取單元2,從所述資料庫4中提取包含所述輸入的 關鍵詞和領域這兩者的報導,並提取該提取出的報導組B的類似報導, 在該提取出的類似報導中,僅提取包含所述輸入的關鍵詞的報導並輸 出。因此,能夠使用多義詞的關鍵詞,檢索所輸入的領域的報導。
(3) :在所述(2)的多義詞的信息檢索裝置中,所述檢索提取單 元2在所述提取的類似報導中,僅提取包含所述輸入的關鍵詞的報導並 輸出的情況下,從與所述報導組B的類似度高的報導開始依次進行輸 出。因此,能夠使用多義詞的關鍵詞,檢索所輸入的領域的報導。
(4) :具備輸入單元l,輸入關鍵詞;資料庫4,保存各領域的 報導;檢索提取單元2,從所述資料庫4提取包含所述輸入的關鍵詞的 報導,並對該提取出的報導組進行分組,提取在各分組中有傾向而出現 的表現;查詢單元,選擇在所述各分組中有傾向地出現的表現,所述檢 索提取單元2輸出由所述查詢單元所選擇的表現的分組的報導。因此, 僅輸入關鍵詞能夠容易地檢索想要的領域的報導。
(5) :在所述(1 ) (3)的多義詞的信息檢索裝置中,對所述輸 入單元1輸入關鍵詞,由所述檢索提取單元2從所述資料庫4提取包含 所述輸入的關鍵詞的報導,並對該提取出的報導組進行分組,提取在各 分組中有傾向地出現的表現,具有查詢單元,該查詢單元選擇在所述各 個分組中有傾向地出現的表現,將由所述查詢單元選擇的表現作為輸入 到所述輸入單元1的領域來使用。因此,輸入關鍵詞,能夠容易地檢索 想要的領域的報導。
(6) : —種程序,使計算機起到如下單元的作用輸入單元l,輸 入關鍵詞和領域;資料庫4,保存各領域的報導;檢索提取單元2,從 所述資料庫4提取包含所述輸入的關鍵詞和領域的報導,並提取傾向於 該提取出的報導組而出現的單詞組A,在包含所述輸入的關鍵詞的報導 中,從較多地包含所述單詞組A的報導開始,依次進行輸出。因此,對 計算機安裝該程序,由此,容易地提供多義詞的信息檢索裝置,其能夠
使用多義詞的關鍵詞,檢索輸入的領域的報導。
(7) : —種程序,使計算機起到如下單元的作用輸入單元l,輸 入關鍵詞和領域;資料庫4,保存各領域的報導;檢索提取單元2,從所述資料庫4中提取包含所述輸入的關鍵詞和領域這兩者的報導,並提 取該提取出的報導組B的類似報導,在該提取出的類似報導中,僅提取 包含所述輸入的關鍵詞的報導並輸出。因此,對計算機安裝該程序,由 此,容易地提供多義詞的信息檢索裝置,其能夠使用多義詞的關鍵詞, 檢索輸入的領域的報導。
(8): —種程序,使計算機起到如下單元的作用輸入單元l,輸 入關鍵詞;資料庫4,保存各領域的報導;檢索提取單元2,從所述數 據庫提取包含所述輸入的關鍵詞的報導,並對該提取出的報導組進行分 組,提取在各分組中有傾向地出現的表現;查詢單元,選擇在所述各分 組中有傾向地出現的表現;輸出由所述查詢單元所選擇的表現的分組的 報導的所述檢索提取單元2。因此,容易地提供多義詞的信息檢索裝置, 通過將該程序安裝到計算機,僅輸入關鍵詞,就能夠容易地檢索想要的 領域的報導。
根據本發明,具有如下效果。
(1) :由檢索提取單元從資料庫提取包含輸入的關鍵詞和領域的 報導,並提取傾向於該提取的報導組而出現的單詞組A,在包含所述輸 入的關鍵詞的報導中,從較多地包含所述單詞組A的報導開始依次進行 輸出,所以,能夠使用多義詞的關鍵詞,檢索輸入的領域的報導。
(2) :由檢索提取單元從資料庫4提取包含輸入的關鍵詞和領域 這兩者的報導,提取該提取出的報導組B的類似報導,在該提取出的類 似報導中,僅提取包含所述輸入的關鍵詞的報導並輸出,所以,使用多 義詞的關鍵詞,能夠檢索輸入的領域的報導。
(3) :在由檢索提取單元在提取的類似報導中,僅提取包含輸入 的關鍵詞的報導並輸出的情況下,從與報導組B的類似度高的報導開 始,依次進行輸出,所以,使用多義詞的關鍵詞,能夠可靠地檢索輸入 的領域的報導。
(4) :由檢索提取單元從資料庫提取包含輸入的關鍵詞的報導, 對該提取的報導組進行分組,提取在各分組中有傾向地出現的表現,由 查詢單元選擇在所述各個分組中有傾向地出現的表現,由所述檢索提取 單元,輸出由所述查詢單元選擇的表現的分組的報導,因此僅使用關鍵 詞,就能夠容易地檢索需要的領域的報導。;
(5) :由檢索提取單元從資料庫提取包含輸入的關鍵詞的報導,對該提取的報導組進行分組,提取在各分組中有傾向地出現的表現,由 查詢單元選擇在所述各分組中有傾向地出現的表現,將由所述查詢單元 選擇的表現作為輸入到所述輸入單元的領域使用,因此,輸入關鍵詞, 能夠容易地檢索想要的領域的報導。
圖1是本發明的多義詞的信息檢索裝置的說明圖。
圖2是本發明的多義詞的信息檢索的流程圖(1)。
圖3是本發明的多義詞的信息檢索的流程圖(2)。
圖4是本發明的具有查詢部的多義詞的信息檢索裝置的說明圖。
圖5是本發明的多義詞的信息檢索的流程圖(3)。
符號說明
1輸入部(輸入單元)
2檢索提取部(檢索提取單元)
4資料庫(保存單元)
5輸出部(輸出單元)
具體實施例方式
本發明的多義詞的信息檢索裝置用於在信息檢索中進行檢索,該檢 索考慮了詞語的多義性。例如,"WINS"這一單詞,有計算機用語和賽 馬用語這兩種。在只輸入"WINS"進行檢索的情況下,與計算機用語相 關聯的檢索結果和與賽馬的用語相關聯的檢索結果混合輸出。如果用戶 只想要與計算機用語相關聯的報導的檢索結果時,能夠以下面說明的解 決方法(解決方法1~3)解決。
(1):多義詞的信息檢索裝置的說明
圖1是多義詞的信息檢索裝置的說明圖。在圖1中,多義詞的信息 檢索裝置(系統)中設置有輸入部(輸入單元)1、檢索提取部(檢索 提取單元)2、資料庫(保存單元)4、輸出部(輸出單元)5。
輸入部1是輸入關鍵詞等信息的輸入單元。檢索提取部2是進行單 詞的提取、檢索處理等的檢索提取單元。資料庫4是保存信息的保存單 元(還包含Web等信息)。輸出部5是進行顯示或印刷從而輸出信息的 輸出單元。(2):多義詞的信息檢索的說明1 (解決方法1) 能夠使用戶輸入的形態如"關鍵詞(領域)"這樣,指定領域進行輸 入。例如,如果是前面的例子,則輸入為"WINS (計算機)"。
完成該輸入時,首先提取包含"WINS"的報導。並且,在該報導組 中,提取包含計算機的報導。在包含"WINS"的報導組中,提取傾向於 包含計算機的報導組而出現的單詞組A。在包含"WINS"的報導中,從較 多地包含單詞組A的報導開始依次輸出。單詞組A是在計算機相關領域 的報導中較多出現的表現,預想較多出現這種表現的報導為計算機相關 的領域的報導。通過輸出這種報導以解決問題。 (流程圖的說明)
圖2是多義詞的信息檢索的流程圖(1 )。以下,根據圖2的處理 S1 S5,進行多義詞的信息檢索(解決方法l)的說明。
Sl:通過輸入部1,用戶指定領域地輸入關鍵詞,並轉移到處理S2。 S2:檢索提取部2從資料庫4提取包含所輸入的關鍵詞的報導,轉 移到處理S3。
S3:檢索提取部2在所提取的報導組中,提取包含已指定的領域的 報導,並轉移到處理S4。
S4:檢索提取部2在包含已輸入的關鍵詞的報導組中,提取傾向於 包含已指定的領域的報導組而出現的單詞組A,轉移到處理S5。
S5:檢索提取部2在包含已輸入的關鍵詞的報導中,從較多地包含 單詞組A的報導開始,依次輸出到輸出部5。
a)傾向於某報導組B而出現的單詞組A的提取方法的說明1 (解 決方法l)
例如,可以將傾向於包含計算機的報導組而出現的單詞組A在進行 提取時等使用。將包含報導組B的、更大的報導組設為C。這裡,報導 組C既可以是整個資料庫,也可以是一部分。如果根據上述解決方法1, 則C成為包含"WINS"的報導組。
但是,上述的解決方法1也能夠有其它方法,並不是在包含"WINS" 的報導組中,取出傾向於包含計算機的報導組而出現的單詞組A,而在 整個資料庫的報導組中,取出傾向於包含計算機的報導組而出現的單詞 組A,並利用該取出的單詞組A來處理也可以。此時,C成為整個數據 庫。首先,求C中的A的出現率和B中的A的出現率。 c中的a的出現率k:中的a的出現次數/c中的單詞總數 B中的A的出現率=8中的A的出現次數/B中的單詞總數 接著,求B中的A的出現率/C中的A的出現率,該值越大,越成 為傾向於報導組B而出現的單詞。
b)傾向於某報導組B而出現的單詞組A的提取方法的說明2 (利用顯著誤差檢驗的說明) 二項檢驗的情況下的說明
設A在C中的出現數為N。設A在B中的出現數為Nl。 設N2:N-Nl。
假設A出現在C中時,其出現在B中的概率為0.5,在N的總出現
當中,求N2次以下、A出現在C而不出現在B的概率。
該鬥既率以 PI =2 C(N1+N2,x) * 0.5 '(x) * 0.5飛Nl+N2—x)
(其中,S是從X=0到X=N2的和)
(其中,C (A, B)是從A個不同的當中取出B個情況的數目) (其中,a表示指數)
表示,該概率的值如果充分小,則可以判斷Nl和N2不是等價的 扭無率,即,N1與N2相比顯著地大。
如果5%檢驗、則PI小於5%,如果10%檢驗、則PI小於10%,這 成為是否是顯著地大的判斷基準。
將判斷為Nl與N2相比顯著地大的結果作為傾向於報導組B而出 現的單詞。另外,設P1越小,越是非常傾向於報導組B而出現的單詞。
-卡方(力^二乗)檢驗的情況下的說明
將B中的A的出現次數設為Nl,將B中的單詞的總出現數設為Fl, 將在C中而不在B中的、A的出現次數設為N2, 將在C中而不在B中的單詞的總出現數為設為F2。 作為N=N1+N2,
求卡方值=(,(Fl* (N2-F2) - (Nl-Fl)*F2)A2)/( ( Fl+F2 ) * (N- (Fl+F2) ) *N1*N2)
並且,可以說該卡方值越大,Rl和R2就越存在明顯誤差,並且可以說卡方值比3.84大時,存在顯著水平為5%的明顯誤差,在卡方值比 6.63大時,可以i兌存在顯著水平為1%的顯著誤差。
假設在N1〉N2且卡方值越大,越是非常傾向於報導組B而出現的 單詞。
.比的檢-瞼,正確而言為比率的差的4企-瞼的說明 作為
p= (Fl+F2) / (Nl+N2)
pl=Rl
p2=R2
求Z叫pl -p2|/sqrt ( p* ( 1 - p ) * (薩+ l/N2)), (其中sqrt指平方根),並且,可以說Z越大,R1和R2就存在 明顯誤差,在Z比1.96大時,存在顯著水平為5%的明顯誤差,在Z比 2.58大時,可以說存在顯著水平為1%的明顯誤差。
N^N2且Z越大,越是非常傾向於報導組B而出現的單詞。
也可以將這三種4企馬全方法、和前面單純地求B中的A的出現率/C 中的A的出現率而進行判定的方法進行組合。
例如,在存在顯著水平為5%以上的明顯誤差當中,B中的A的出 現率/C中的A的出現率的值越大,越成為非常傾向於報導組B而出現 的單詞。
c)較多包含單詞組A的報導的提取方法的說明(解決方法l) 作為信息檢索的基礎知識,有以下的式子。這裡,取Score(D)較 大的。
(1 )基本方法(TF IDF法)的說明 以score(D)= 2: (tf ( w, D ) *log ( N/df ( w))) WeW進4亍力口法運算, W是用戶輸入的關鍵詞的集合, tf ( w,D )是文件D中的w的出現次數 df ( w)是在所有文件中出現W的文件的數量, N是文件的總數,
將score (D)較高的文件作為檢索結果進行輸出。 (2 ) Robertson等的Okapi weighting的i兌明 眾所周知(文獻)村田真樹,馬青,內元清貴,小作浩美,內山將夫,井佐原均"位置情報i:分 野情報^用V、廣c情報検索"自然言語処理(言語処理學會誌)2000年4月,7巻,2 號,p.141 ~ p.160
的(1 )式性能較好。在該式子(1 )的2中,取積之前的tf項和idf 項的積成為Okapi的加;f又法,將該值用於單詞的4又重。 在Okapi的式子中,以
score ( D ) =S (tf ( w, D ) / (tf ( w, D )十length/delta ) *log(N/df (w)))
WeW進行加法運算,
length是報導D的長度,delta是報導長度的平均, 報導的長度使用報導的字節數,或報導中所包含的單詞數。 進而,也可以進行以下的信息檢索。 (Okapi的參考文獻)
S.E.Robertson,S.Walker,S. Jones,M.MHancock-Beaulieu,and M.Gatford Okapi at TREC-3,TREC-3,1994 (SMART的參考文獻) Amit Singhal AT&T at REC-6,TREC-6,1997
作為更高的信息檢索的方法,並不是僅使用tf.idf的式子,可以使 用這些Okapi和SMART的式子。
在這些方法中,並不只是tf.idf的式子,也利用報導的長度等,可 以進行更高精度的信息檢索。
在本次的較多地包含單詞組A的報導的提取方法中,還可以使用 Rocchio,s formula。 (文獻)
"J.J.Rocchio","Relevance in information retrieval","The SMART retrieval System","Edited by G.Salton","Prentice Hall,Inc.","page 313-323", 1971
代替log (N/df ( w)),該方法使用
卿+ k—af * (RatioC(t) - RatioD(O)} *log(N/df(w))
E(t)=l (原來的檢索中的關鍵詞) =0 ( 1^jt匕《夕卜)RatioC (t)是在報導組B中的t的出現率, RatioD (t)是在報導組C中的t的出現率,通過以上式替換log (N/df(w))的式子,求score(D),其值越大, 越作為較多地包含單詞組A的報導來取出。在score (D)的Z的加法運算時相加的單詞w的集合W作為原來 的關鍵詞和單詞組A這兩者。其中,原來的關鍵詞和單詞組A不重複。另外,作為其它的方法,在score (D)的2:的相加運算時加上。單 詞w的集合W僅作為單詞組A。其中,原來的關鍵詞和單詞組A不重 復。這裡,在roccio的式子中採取了複雜的方法,但是,既可以是單純 地單詞組A的單詞的出現次數之和越大,越作為較多地包含單詞組A 的報導取出,另外,可以是單詞組A的出現的差異越大,越作為較多地 包含單詞組A取出。(3)多義詞的信息檢索的說明2 (解決方法2)可以如"關鍵詞(領域)"這樣使用戶輸入的形態指定領域輸入。例 如,如果是前面的例子,則輸入為"WINS (計算機)"。該輸入完成時, 首先提取包含"WINS"和計算機這兩者的報導。並且,提取該報導組B 的類似報導。在該類似報導中,僅提取包含"WINS"的報導,並將其作 為檢索結果進行輸出。此時,從與報導組B的類似度較高的報導開始輸 出。這也被認為是能夠提取與計算機相關聯的領域的報導的方法。 (流程圖的說明)圖3是多義詞的信息檢索的流程圖(2)。以下,根據圖3的處理 S11 S14,說明多義詞的信息檢索(解決方法2)。Sll:通過輸入部l,用戶指定領域輸入關鍵詞,轉移到處理S12。S12:檢索提取部2從資料庫4提取包含輸入的關鍵詞和領域這兩 者的報導,轉移到處理S13。S13:檢索提取部2提取已提取出的報導組B的類似報導,轉移到 處理S14。S14:檢索提取部2在已提取的類似報導中,僅提取包含所輸入的 關鍵詞的報導,並將其作為檢索結果進行輸出。此時,從與報導組B的 類似度高的報導開始輸出到輸出部5。a)提取報導組B的類似報導的方法的說明(解決方法2)定義報導彼此的類似度。該類似度可以使用tf'idf、 okapi或smart。 可以是tf.idf、 okapi或smart等中的、比較報導D與詢問(query )的兩 個才艮道x和y。並且,將x、 y兩者中所包含的單詞作為w即可。生成將各單詞作為維數、將各單詞的得分(score )作為要素的向量, 使用報導x中所包含的單詞,使報導x的向量為向量(vector—x),另 外,使用寺艮道y中所包含的單詞,使才艮道y的向量為(vector—y),可 以將這些向量的餘弦(cos ( vector_x, vector_y))的值作為報導的類似 度。在各單詞的得分的計算中,可以使用tf.idf、 okapi或smart。這些式 子的S的後面的部分的式子成為得分的計算式。該式子的值成為各單詞 的得分。如果是tf'idf,貝'Jtf(w, D) *log(N/df(w)), 如果是okapi,則tf ( w, D ) / (tf ( w,D )十length/delta) *log ( N/df (w))成為該式子。另夕卜,在較多地包含單詞組A的報導的提取中,也可以求該向量的 餘弦(cos (vector_x, vector_y))的<直,越是該it越大的才艮道,越可以 判斷為是較多地包含單詞組A的報導。此時,使用單詞組A中所包含的 單詞作成向量(vector—x),使用報導中所包含的單詞作成向量(vector_y) 並進行求出。在才艮道組B和報導x的類似度中,存在以下的方法等。-將在報導組B當中與報導x最類似的報導、和報導x的類似度作 為該類似度的方法-將在報導組B當中與報導x最不類似的報導、和報導x的類似度 作為該類似度的方法-將報導組B的所有報導和報導x的類似度的平均作為該類似度的方法也可以是其它的方法,但是這樣求報導組B和報導x的類似度,可 以將該類似度大的報導取出作為類似報導。另外,作為其它方法,利用前面的方法取出傾向於報導組B而出現 的單詞,並且,也利用該單詞,計算基於Rocchio,s formula的Score( D ), 可以將Score (D)大的報導取出作為類似報導。(4):多義詞的信息檢索的說明3 (解決方法3)用戶僅輸入"關鍵詞"。例如,如果是前面的例子,輸入"WINS"。在 該輸入完成時,首先提取包含"WINS"的淨艮道。並且,對該報導組進行 分組(clustering) 。 ^是取在各個分組中有傾向而出現的表現。例如,分 割成兩個分組,傾向於各個分組而出現的表現分別為"計算機"和"賽馬"。 此時,向用戶詢問是與"計算機"和"賽馬,,的哪一個相關聯。然後,用戶 選擇該任意一個。選擇之後,將所選擇的表現作為輸入的"領域",與上 述解決方法1、 2同樣地進行處理,或者將所選擇的分組作為檢索結果 進行輸出。(具有詢問部的多義詞的信息檢索裝置的說明)圖4是具有查詢部的多義詞的信息檢索裝置的說明圖。在圖4中, 在具有查詢部的多義詞的信息檢索裝置(系統)中,設置有輸入部(輸 入單元)1、檢索提取部(檢索提取單元)2、查詢部(查詢單元)3、 資料庫(保存單元)4、輸出部(輸出單元)5。輸入部1是用於輸入關鍵詞等的信息的輸入單元。檢索提取部2是 進行單詞的提取、檢索處理等的檢索提取單元。查詢部3是向用戶詢問 傾向於分組而出現的表現(技術領域等)、並且用戶進行選擇的查詢單 元。資料庫4是保存信息的保存單元。輸出部5是進行顯示和印刷從而 輸出信息的輸出單元。 (流程圖的說明)圖5是多義詞的信息檢索的流程圖(3)。以下,根據圖5的處理 S21 S26,說明具有查詢部的多義詞的信息4企索(解決方法3)。 S21:通過輸入部l,用戶僅輸入關鍵詞,轉移到處理S22。 S22:檢索提取部2從資料庫4提取包含所輸入的關鍵詞的報導, 轉移到處理S23。S23:檢索提取部2對所提取出的報導組進行分組,轉移到S24。 S24:檢索提取部2提取在各分組中有傾向而出現的表現,轉移到 處理S25。S25:查詢部3向用戶進行詢問,使得選擇在各分組中有傾向而出 現的表現,轉移到處理S26 。S26:檢索提取部2將所選擇的分組的報導輸出到輸出部5。 a)分組的說明(解決方法3) 在分組方面有各種方法。以下記述通常的方法。(分層分組(自底向上分組)的說明) 使最接近的成員彼此不斷靠近,生成分組。分組和分組彼此也(分 組和成員彼此也)使最接近的分組彼此靠近。由於分組之間的距離的定義各種各樣,以下進行說明。有下方法-對於分組A和分組B的距離,將分組A的成員和分組B的成員的 距離中最小的作為該距離的方法-對於分組A和分組B的距離,將分組A的成員和分組B的成員的 距離中最大的作為該距離的方法.對於分組A和分組B的距離,將所有分組A的成員和分組B的成 員的距離的平均作為該距離的方法.對於分組A和分組B的距離,將所有分組A的成員的位置的平均 作為該分組的位置,將所有分組B的成員的位置的平均作為該分組的位 置,將該位置彼此的距離的平均作為該距離的方法-淨皮稱為沃德(ward)法的方法。以下i兌明沃德法。formula see original document page 15A表示指數。第一個S是從i=l到產g的加法運算,第二個S是從j4到j=ni的加法運算, x (i, _j)是第i分組的第j成員的位置, ave—x (i)是第i分組的所有成員的位置的平均。 使分組彼此靠近時,W的值增加,但是在沃德法中,以儘量不使W 的值變大的方式使分組彼此靠近。對於成員的位置來說,從報導中取出單詞,將該單詞的種類作為向 量的維數,並生成向量,且將其作為該成員的位置,其中,該向量是將 各單詞的向量的要素的值作為單詞的頻度、或該單詞的tf.idf(即,tf( w, D) *log (N/df (w)))、該單詞的Okapi的式子(即,tf (w, D) / (tf (w, D)十length/delta) *log (N/df (w)))的向量。 (自上向下分組(非分層分組)的說明) 以下,說明自上向下的分組(非分層分組)的方法。 (最大距離算法的說明)取某成員。接著,取與該成員距離最遠的成員。將這些成員作為各個分組的中心。將成員與各個分組中心的距離的最小值作為各成員的距 離,將該距離最大的成員作為新的分組的中心。對此進行重複。在成為 預先決定的數量的分組時,停止重複。另外,在分組間的距離成為預先決定的數以下時,停止重複。另外,存在如下方法通過AIC信息量基 準等評價分組的好處,利用該值,停止重複。各個成員成為最近的分組 中心的成員。(K平均法的說明)考慮分組成預先決定的個數k個。隨機地選擇k個成員,將其作為 分組的中心。各個成員成為最近的分組中心的成員。將分組內的各個成 員的平均作為各個分組的中心。各個成員成為最近的分組中心的成員。 另外,將分組內各個成員的平均作為各個分組的中心。對這些進行重複。 並且,在分組的中心不移動時,停止重複。或者,僅重複預先決定的次 數後停止。使用該最終的分組中心時的分組中心,求出分組。各個成員 成為最近的分組中心的成員。這樣進行分組。分組的方法除此之外還有4艮多,所以,也可以利用 它們。b)傾向於各個分組而出現的表現的提取的說明(解決方法3) 考慮通過與"傾向於某一報導組B而出現的單詞組A的提取方法的說明1 (解決方法1)"同樣的方法取出,那樣進行也可以。更單純地,按每個分組,將只在該分組中出現的單詞按頻度順序排列,作為傾向於各個分組而出現的表現而取出也可以。 (5):使用多個關鍵詞的情況下的說明關於所述解決方法l、 2,最初提供的關鍵詞為"WINS (計算機)", 但是可以如AB (B,) C (C,)這樣為多個。這表示單詞A、單詞B (其 中,領域B,的意思的情況下的單詞B)和單詞C (其中,領域C,的意思 的情況下的單詞C)的AND檢索。a) 解決方法1的"i兌明在將 其通過解決方法1進行的情況下,取出包含A、 B、 C的報導 組X。接著,從報導組X中取出包含B,、 C,的報導組X,。取出報導組 X的傾向於才艮道組X,而出現的單詞組Y。並且,取出才艮道組X的專交多 地包含單詞組Y的報導並輸出。b) 解決方法2的說明在將其通過解決方法2進行的情況下,取出包含A、 B、 B,、 C、 C, 的報導組X。接著,提取報導組X的類似報導。在類似報導中,取出包 含A、 B、 C的報導並輸出。
c)解決方法3的說明
即使通過解決方法也能夠進行。首先,輸入A、 B、 C。接著,取出 包含A、 B、 C的報導組。進行分組,輸出傾向於各個分組而出現的單 詞Z。使用戶選擇該單詞,將所選擇的表現作為輸入的"領域",可以與 上述解決方法1、 2同樣地進行處理,或者將所選擇的分組作為檢索結 果進行輸出。
進而,在解決方法3中,將傾向於各分組而出現的單詞組Z與輸入 的A、 B、 C對應地表示也可以。
例如,單詞組Z按照頻度順序,成為Zl, Z2, Z3,......。將Zl,
Z2, Z3,......與經常和A、 B、 C同現的接近地表示也可以。
在Z1與A經常同現,Z2和C經常同現,Z3和B經常同現的情況
下,
如
分組1 AZ1、 BZ3、 CZ2 分組2
這樣來表示, -使用戶選擇Z1, Z2, Z3......,或使用戶選擇分組。
另外,對於該表示來說,如果知道輸入關鍵詞和Zl, Z2,......的關聯,
則其它形式也可以。
Z1是否與A經常同現,存在以下情況。
Z1和A都出現的報導數越多,就越是經常同現。
.使用所述的傾向的識別的方法,判斷為在包含Z1的報導中,A常
傾向地出現的情況下,就為經常同現。
設Z1和A都出現的報導數為a,僅Zl出現的報導數為b,僅A出
現的報導數為c,全部報導數為d,則a
2a/(2a+b+c)
n(ad-bcr2/(a+b)/(c+d)/(a+c)/(b+d)n( I ad-bc i -n/2)_2/(a+b)/(c+d)/(a+c)/(b+d)log (an/(a+b)/(a+c))(ad -bc)/((a+c)(b+d))'0.5a log (an/(a+b)/(a+c)) + b log (bn/(a+b)/(b+d)) + c log (cn/(a+c)/(c+d)) + d log (dn /(b+d)/(c+d))a/(bc+ad) a/(ad-bc) a/b/c等的值較大的作為(使用這些當中的哪個式子)經常同現。像這樣,Zl與A是否經常同現有各種。另外,在所述實施方式中,記載為"值越大的越取出"的處理能夠為 "將值為闊值以上的取出"。另夕卜,記載為"將值越大的按大小順序取出預 定的值的個數以上的,,的處理可以為,"求出對於所取出的值的最大值乘 以預定的比例後的值,取出具有該求出的值以上值的"。進而,可以預 先決定這些閾值、預定的值,用戶可以適當對值進行變更、設定。 (9):程序安裝的說明輸入部(輸入單元)1、檢索提取部(檢索提取單元)2、查詢部(查 詢單元)3、資料庫(保存單元)4、輸出部(輸出單元)5等可以由程 序構成,主控制單元(CPU)執行,並保存在主存中。該程序由一般的 計算機(信息處理裝置)處理。該計算機由主控制單元、主存、文件裝置、顯示裝置、鍵盤等的輸入單元即輸入裝置等硬體構成。對該計算機安裝本發明的程序。對於該安裝來說,使這些程序預先 存儲在軟盤、光磁碟等可移動型的記錄(存儲)媒體中,對於計算機具 有的記錄媒體,經由用於訪問的驅動器裝置,或者經由LAN等網絡, 安裝在計算機中設置的文件裝置中。並且,從該文件裝置中將處理所需 要的程序步驟讀出到主存中,並且主控制部執行。
權利要求
1.一種多義詞的信息檢索裝置,其特徵在於,具備輸入單元,輸入關鍵詞和領域;資料庫,保存各領域的報導;以及檢索提取單元,從所述資料庫中提取包含所述輸入的關鍵詞和領域的報導,並提取傾向於該提取出的報導組而出現的單詞組A,在包含所述輸入的關鍵詞的報導中,從包含很多所述單詞組A的報導開始,依次進行輸出。
2. —種多義詞的信息檢索裝置,其特徵在於,具備 輸入單元,輸入關鍵詞和領域;資料庫,保存各領域的報導;以及檢索提取單元,從所述資料庫中提取包含所述輸入的關鍵詞和領域 這兩者的報導,並提取該提取出的報導組B的類似報導,在該提取出的 類似報導中,僅提取包含所述輸入的關鍵詞的報導並輸出。
3. 如權利要求2的多義詞的信息檢索裝置,其特徵在於, 所述檢索提取單元在所述提取的類似報導中,僅提取包含所述輸入的關鍵詞的報導並輸出的情況下,從與所述報導組B的類似度高的報導 開始依次輸出。
4. 一種多義詞的信息檢索裝置,其特徵在於,具備輸入單元,輸入關鍵詞;資料庫,保存各領域的報導;檢索 提取單元,從所述資料庫提取包含所述輸入的關鍵詞的報導,並對該提 取出的報導組進行分組,提取在各分組中有傾向地出現的表現;查詢單 元,選擇在所述各分組中有傾向地出現的表現,所述檢索提取單元對由所述查詢單元所選擇的表現的分組的報導 進行輸出。
5. 如權利要求1~3任意一項的多義詞的信息檢索裝置,其特徵在於,對所述輸入單元輸入關鍵詞,由所述檢索提取單元從所述資料庫提 取包含所述輸入的關鍵詞的報導,並對該提取出的報導組進行分組,提 取在各分組中有傾向地出現的表現,具有選擇在所述各個分組中有傾向地出現的表現的查詢單元, 將由所述查詢單元選擇的表現用作輸入到所述輸入單元中的領域。
6. —種程序,使計算機起到如下單元的作用 輸入單元,輸入關鍵詞和領域;資料庫,保存各領域的報導;以及檢索提取單元,從所述資料庫提取包含所述輸入的關鍵詞和領域的 報導,並提取傾向於該提取出的報導組而出現的單詞組A,在包含所述 輸入的關鍵詞的報導中,從包含很多所述單詞組A的報導開始,依次進 行輸出。
7. —種程序,使計算機起到如下單元的作用 輸入單元,輸入關鍵詞和領域;資料庫,保存各領域的報導;以及檢索提取單元,從所述資料庫中提取包含所述輸入的關鍵詞和領域 這兩者的報導,並提取該提取出的報導組B的類似報導,在該提取出的 類似報導中,僅提取包含所述輸入的關鍵詞的報導並輸出。
8. —種程序,使計算機起到如下單元的作用 輸入單元,輸入關鍵詞;資料庫,保存各領域的報導;檢索提取單元,從所述資料庫提取包含所述輸入的關鍵詞的報導, 並對該提取出的報導組進行分組,提取在各分組中有傾向地出現的表 現;以及查詢單元,選擇在所述各分組中有傾向地出現的表現, 所述檢索提取單元,輸出由所述查詢單元所選擇的表現的分組的報導。
全文摘要
本發明涉及多義詞的信息檢索裝置以及程序。使用多義詞的關鍵詞可靠地檢索所輸入的領域的報導。具有輸入單元(1),輸入關鍵詞和領域;資料庫(4),保存各領域的報導;檢索提取單元(3),從所述資料庫(4)提取包含所述輸入的關鍵詞和領域的報導,並提取傾向於該提取出的報導組而出現的單詞組A,在包含所述輸入的關鍵詞的報導中,從較多包含所述單詞組A的報導開始,按順序輸出。
文檔編號G06F17/30GK101405725SQ20078000868
公開日2009年4月8日 申請日期2007年3月9日 優先權日2006年3月10日
發明者三森智裕, 土井晃一, 村田真樹, 福田安志 申請人:獨立行政法人情報通信研究機構