檢索關鍵詞改進裝置、伺服器及方法
2023-04-30 05:14:06
專利名稱:檢索關鍵詞改進裝置、伺服器及方法
技術領域:
本發明涉及信息檢索領域,更具體地講,涉及一種檢索關鍵詞改 進裝置、伺服器和方法,其中,該檢索關鍵詞改進裝置、伺服器和方 法能夠通過擴展用戶為信息檢索而輸入的關鍵詞來檢索適當縮減的 信息。
背景技術:
作為通過筒單操作來執行信息檢索的技術,已公知一種根據用戶
指定的關鍵詞從共現率(co-occurrence ratio )關鍵詞資料庫中獲取輔 助關鍵詞,並利用指定的關鍵詞和輔助關鍵詞進行檢索的技術(例如, 參見日本特開2006-79366 )。
由於在傳統的技術中並不更新定義的關鍵詞,所以例如當作為檢 索目標的文檔的屬性改變或者出現新文檔時,無法獲得準確的檢索結 果。
發明內容
根據本發明的一方面,提供了一種檢索關鍵詞改進裝置,該裝置 包括歷史累積單元,被配置為以彼此關聯的關係累積多個第一文檔 或與所述第一文檔對應的索引和多個第一檢索目標識別信息項目,所 述多個第一檢索目標識別信息項目對應於與用於檢索的關鍵詞相關 聯的第一檢索目標,所述第一檢索目標識別信息項目被用於檢索第一 文檔;提取單元,被配置為在包括在笫一文檔中的新文檔和用於檢索 所述新文檔的新的檢索目標識別信息項目被累積在歷史累積單元中 的情況下,從所述新文檔中提取作為附加關鍵詞候選項的詞,所述詞 在所述新文檔中的出現次數大於所述詞在第 一文檔中的除了所述新文檔之外的每個文檔中的出現次數;附加關鍵詞累積單元,被配置為 累積與所述附加關鍵詞候選項不同的多個附加關鍵詞和與這些附加 關鍵詞對應的多個第二檢索目標識別信息項目;存儲單元,被配置為 存儲所述附加關鍵詞候選項和與所述附加關鍵詞候選項對應的第三 檢索目標識別信息項目;查詢產生單元,被配置為基於輸入關鍵詞、 與所述輸入關鍵詞相關聯的第二檢索目標、以及與對應於第二檢索目 標的第四檢索目標識別信息項目對應的附加關鍵詞中的一個附加關 鍵詞來產生第一檢索查詢,並且被配置為基於所述輸入關鍵詞、第二 檢索目標和與笫四檢索目標識別信息項目對應的附加關鍵詞候選項
來產生第二檢索查詢;列表產生單元,被配置為產生包括與第一檢索 查詢和第二檢索查詢對應的檢索結果的第一檢索結果列表;笫一選擇
單元,被配置為從第一檢索結果列表中選擇作為期望的檢索結果的第 二文檔;和移動單元,被配置為在第一選擇單元從與第二檢索查詢對 應的第二檢索結果列表中選擇期望的檢索結果的情況下,將所述附加 關鍵詞候選項和第三檢索目標識別信息項目移動到附加關鍵詞累積 單元,其中第二檢索結果列表包括在第一檢索結果列表中。
根據本發明的另一方面,提供了一種伺服器裝置,該伺服器裝置 包括歷史累積單元,被配置為以彼此關聯的關係累積從由多個檢索 結果形成的檢索結果列表中選擇為期望的檢索結果的多個第一文檔 和對應於與用於檢索的關鍵詞相關聯的檢索目標的多個檢索目標識 別信息項目,檢索目標識別信息項目被用於檢索第一文檔;提取單元, 被配置為在包括在第一文檔中的新文檔和用於檢索所述新文檔的新 的檢索目標識別信息項目被累積在歷史累積單元中的情況下,從所述 新文檔中提取作為附加關鍵詞候選項的詞,所述詞在所述新文檔中的 出現次數大於所述詞在第一文檔中的除了所述新文檔之外的每個文 檔中的出現次數;和存儲單元,被配置為存儲所述附加關鍵詞候選項 和與所述附加關鍵詞候選項對應的另一檢索目標識別信息項目。
圖l是示出了根據實施例的檢索關鍵詞改進裝置的框圖2是示出了圖1中示出的關鍵詞輸入單元的輸入屏幕的示例的
圖3是示出了圖1中示出的檢索目標累積單元的內容示例的表; 圖4示出了由圖1中示出的檢索目標呈現/指定單元呈現的顯示 屏幕示例的圖5是示出了圖1中示出的附加關鍵詞累積單元的內容示例的
表;
圖6是示出了圖1中示出的附加關鍵詞候選項保持單元的內容示 例的表;
圖7A是示出了包括在由圖1中示出的檢索結果接收單元接收的 檢索結果中的第一檢索結果的表;
圖7B是示出了包括在檢索結果中的第二檢索結果的表;
圖8示出了圖1中示出的檢索結果列表產生單元的操作示例的流
程圖9是示出了由圖1中示出的檢索結果列表產生單元產生的檢索 結果列表的示例的圖IO是示出了由圖1中示出的檢索結果呈現單元呈現的檢索結 果列表的示例的圖ll是示出了當在圖10中選擇了標號1001表示的項目時的作 為圖1中示出的檢索結果呈現單元呈現的檢索結果的正文的示例的 圖12是示出了圖1中示出的正確答案確定/選擇單元的操作示例 的流程圖13是示出了累積在圖1中示出的歷史累積單元110中的歷史 的示例的表;
圖14是示出了累積在附加關鍵詞累積單元中並由圖1中示出的 附加關鍵詞更新單元更新的內容示例的表;
圖15是示出了圖1中示出的附加關鍵詞候選項提取單元的操作示例的流程圖;以及
圖16是示出了根據實施例的變型例的檢索關鍵詞改進裝置和服 務器的框圖。
具體實施例方式
將參照附圖詳細描述根據實施例的檢索關鍵詞改進裝置和服務 器。在下面的描述中,相同的標號表示相同的元件,並將避免重複的 描述。
本實施例是一種向用戶提供用戶接口的網際網路檢索輔助裝置,該 用戶接口是在用戶的PC上可操作用於網際網路檢索的軟體,並且用於 訪問網際網路上的稱作搜尋引擎的服務。
本實施例的檢索關鍵詞改進裝置、伺服器和方法可以獲取準確的 檢索結果。
參照圖l,將描述本實施例的檢索關鍵詞改進裝置。
本實施例的檢索關鍵詞改進裝置包括關鍵詞輸入單元101、檢索 目標呈現/指定單元102、附加關鍵詞累積單元103、檢索查詢產生單 元104、檢索查詢發送單元105、檢索結果接收單元106、檢索結果列 表產生單元107、呈現單元108、正確答案確定/選擇單元109、歷史 累積單元110、附加關鍵詞候選項提取單元111、附加關鍵詞候選項 保持單元112、附加關鍵詞更新單元113、檢索目標累積單元114和 關鍵詞分析單元115。呈現單元108包括檢索結果呈現單元116和菜 單呈現單元117。
關鍵詞輸入單元101接受用作檢索線索的用戶的關鍵詞輸入。可 利用作為用於接受使用鍵盤進行的字符輸入的現有軟體組件的文本 框形式來輸入關鍵詞。另選地,可以使用利用諸如滑鼠的定點裝置從 顯示在屏幕上的文檔中選擇的字符串作為關鍵詞。後面將參照圖2來 描述關鍵詞輸入單元101的屏幕示例。
檢索目標累積單元114累積與關鍵詞有關的檢索目標的候選項。 每個檢索目標被用於檢索文檔。後面將參照圖3描述檢索目標累積單元114的內容示例。
關鍵詞分析單元115對通過關鍵詞輸入單元101輸入的每個關鍵 詞的語義類別進行分析,並將分析結果傳送到檢索目標呈現/指定單元 102。預先設定關鍵詞分析單元115分析的語義類別的類型。在本實 施例中,例如,將"人名"、"公司名"、"車站名"、"設施名,,和"地名" 設定為預先設定的語義類別。關鍵詞分析單元115是通過已知的固有 表示提取方法(例如,記載在Yumi Ichimura等人所寫的"A Study of the Relations among Question Answering, Japanese Named Entity Extraction, and Named Entity Taxonomy", IPSJ SIG Technical Report, NL-161-3, 2004中)實現的。因此,這裡將不進行詳細的描述。
檢索目標呈現/指定單元102從檢索目標累積單元114讀取與關 鍵詞分析單元115的分析結果有關的檢索目標的多個候選項,並利用 包含在呈現單元108中的菜單呈現單元117來呈現讀取的候選項。檢 索目標呈現/指定單元102還接收用戶對期望檢索目標的指定。針對每 個呈現的檢索目標,呈現預先設定的候選項。另選地,可呈現基於輸 入關鍵詞的意思而縮減的候選項。後面將參照圖4來描述菜單呈現單 元117所呈現的屏幕示例。
附加關鍵詞累積單元103針對每個檢索目標累積將被添加到用 戶輸入的關鍵詞的附加關鍵詞,從而能夠適當地檢索每個檢索目標。 圖5示出了附加關鍵詞累積單元103的內容示例。
檢索查詢產生單元104從附加關鍵詞累積單元103讀取與檢索目 標呈現/指定單元102指定的檢索目標對應的附加關鍵詞,並將它們與 輸入到關鍵詞輸入單元101的關鍵詞合併,以根據預先設定的格式產 生檢索查詢。檢索查詢產生單元104可從後面描述的附加關鍵詞候選 項保持單元112讀取與在附加關鍵詞累積單元103中累積的附加關鍵 詞不同的附加關鍵詞,以產生多個檢索查詢。後面將參照圖5和圖6 來描述與檢索查詢產生單元104相關的更多細節。
當檢索查詢產生單元104已產生多個檢索查詢時,檢索查詢發送 單元105將這些查詢順序地發送到檢索服務。例如,檢索查詢發送單
ii元105經由網際網路將這些查詢發送到稱作搜尋引擎的現有檢索服務。 檢索查詢發送單元105可以以用戶指定的檢索目標為單位訪問不同的 搜尋引擎。另外,並不總是需要將檢索查詢發送單元105連接到互聯 網上的檢索服務。檢索查詢發送單元105可連接到用於對存儲在本地 PC硬碟中的文件進行檢索的稱作桌面搜尋引擎的搜尋引擎,或者可 連接到內聯網上的資料庫管理系統。後面將參照圖6詳細描述檢索查 詢發送單元105。
檢索結果接收單元106讀取由外部搜尋引擎執行的檢索的結果。 如果檢索查詢發送單元105已經將多個檢索查詢發送到搜尋引擎,則 檢索結果接收單元106從搜尋引擎順序地讀取與所述查詢對應的檢索 結果。後面將參照圖6、 7A和7B詳細描述檢索結果接收單元106。
檢索結果列表產生單元107根據由檢索結果接收單元106讀取的 檢索結果產生檢索結果列表。當檢索結果接收單元106已讀取了多個 檢索結果時,這些檢索結果被合併到單個檢索結果列表中。後面將參 照圖8和圖9來詳細描述合併多個檢索結果的方法。
基於檢索結果列表產生單元107產生的檢索結果列表,包含在呈 現單元108中的檢索結果呈現單元116向用戶呈現每個檢索結果的標 題、URL或摘要,並且呈現與用戶指定的文檔對應的檢索結果的正文。 可經由網際網路通過檢索結果接收單元106來獲取每個檢索結果的正 文。另選地,當用戶已選擇了檢索結果中的任何一個時,檢索結果呈 現單元116可直接訪問網際網路以獲取正文。後面將參照圖10和圖11 來描述檢索結果呈現單元116呈現的檢索結果列表示例。
正確答案確定/選擇單元109監視用戶對檢索結果呈現單元116 的操作,根據通過監視而獲取的信息來確定檢索結果列表中的哪個文 檔是用戶期望的文檔,並選擇該期望的檢索結果。因此,正確答案確 定/選擇單元109從通過合併多個檢索結果而獲得的檢索結果列表中 選擇作為期望的檢索結果的文檔。另外,正確答案確定/選擇單元109 從檢索結果列表產生單元107獲取檢索列表。
後面將參照圖12來詳細描述正確答案確定/選擇單元109的確定處理。正確答案確定/選擇單元109可僅選擇一個文檔作為用戶期望的 文檔,可選擇多個文檔作為用戶期望的文檔,或者可確定檢索結果都 不是用戶期望的檢索結果。後面將參照圖12來詳細描述正確答案確 定/選擇單元109的向附加關鍵詞更新單元113發送指令的處理。
歷史累積單元110累積正確答案確定/選擇單元109的確定結果。 具體地講,歷史累積單元110累積指示由用戶指定的檢索目標的信息 以及被確定為用戶期望的文檔(即確定為正確)的文檔的正文。歷史 累積單元IIO可累積XJRL作為與確定為正確的文檔相關的索引,而 不是累積文檔的正文。另外,當檢索查詢產生單元104已產生了多個 檢索查詢並且被正確答案確定/選擇單元109確定為正確的文檔僅與 所述查詢中的一個對應時,或者當包括在對應於檢索查詢之一的檢索 結果列表中的元素的排位(rank)高於包括在對應於其它檢索查詢的 檢索結果列表中的同一元素的排位時,歷史累積單元110指示附加關 鍵詞更新單元113更新附加關鍵詞。圖13示出了歷史累積單元110 的內容示例。
當從正確答案確定/選擇單元109接收到指令時,附加關鍵詞更 新單元113向附加關鍵詞累積單元103發送在保持在附加關鍵詞候選 項保持單元112中的附加關鍵詞候選項中包括的並且由正確答案確定 /選擇單元109選擇的附加關鍵詞候選項,從而更新在附加關鍵詞累積 單元103中累積的附加關鍵詞。後面將參照圖14詳細描述附加關鍵 詞更新單元113。
當歷史累積單元110累積新的歷史信息時,附加關鍵詞候選項提 取單元111對歷史信息執行統計處理,確定對應於檢索目標的附加關 鍵詞中的哪個應該被更新,並從歷史累積單元110中提取新的附加關 鍵詞候選項。後面將參照圖15詳細描述附加關鍵詞候選項提取單元 111的處理。
附加關鍵詞候選項保持單元112保持(存儲)由附加關鍵詞候選 項提取單元111提取的附加關鍵詞候選項。圖6示出了附加關鍵詞候 選項保持單元112的內容示例。
13現在參照圖2,將描述關鍵詞輸入單元101的屏幕示例。
圖2示出了用戶已輸入了關鍵詞"東京公園"的情況。當用戶操作
檢索按鈕201將該關鍵詞輸入到關鍵詞輸入單元101時,檢索目標呈
現/指定單元102從檢索目標累積單元114讀取對應於與該關鍵詞相關
的檢索目標候選項的ID (識別數據)。
然後參照圖3,將描述在檢索目標累積單元114中累積的檢索目
標示例。
在圖3中,例如,標號301表示寫為"檢索地圖"的檢索目標。例 如,如果輸入的關鍵詞表示地名或設施名,則用戶選擇這個檢索目標 來檢索與該關鍵詞對應的地圖信息。相似地,標號302表示寫為"檢 索新聞"的檢索目標。如果用戶希望檢索與輸入的關鍵詞相關的新聞 信息,則用戶選擇這個檢索目標。
參照圖4,將描述由檢索目標呈現/指定單元102呈現的屏幕示例。
在此假定用戶選擇了圖4中寫為"檢索地圖"的檢索目標401 。即, 假定用戶希望檢索與關鍵詞"東京公園"相關的地圖信息。當用戶指定 了檢索目標時,檢索查詢產生單元104利用與指定的檢索目標對應的 檢索目標ID (檢索目標識別信息)作為索引,從附加關鍵詞累積單元 103讀取附加關鍵詞。
然後參照圖5,將描述在附加關鍵詞累積單元103中累積的附加 關鍵詞示例。
在圖5的情況下,檢索查詢產生單元104利用與指定的檢索目標 "檢索地圖"對應的檢索目標ID "T001"(由圖3中的標號303表示) 作為索引,從附加關鍵詞累積單元103讀取附加關鍵詞"地圖"、"方 向"和"位置,,(由圖5中的標號501表示)。
之後,檢索查詢產生單元104根據用戶指定的關鍵詞"東京公園" 和從附加關鍵詞累積單元103讀取的附加關鍵詞,產生第一檢索查詢。 在這個實施例中,檢索查詢產生單元104通過OR (或)邏輯將附加 關鍵詞相互連接,然後通過AND (與)邏輯將這樣連接的附加關鍵詞與用戶輸入的關鍵詞連接,從而產生得到的布爾公式數據作為檢索查
詢。即,在上述的示例中,產生第一檢索查詢"東京公園AND地圖 OR位置OR方向"。產生檢索查詢的過程並不限於上述過程。例如, 產生適於各個檢索目標的檢索查詢的過程可以例如以腳本的形式與 附加關鍵詞一起存儲在附加關鍵詞累積單元103中。在這種情況下, 檢索查詢產生單元104讀取該腳本,並根據讀取的腳本產生第一檢索 查詢。
之後,檢索查詢產生單元104參考附加關鍵詞候選項保持單元 112,並利用指定的檢索目標的檢索目標ID作為索引來在其中檢測與 用戶指定的檢索目標對應的附加關鍵詞候選項,然後讀取它們。
參照圖6,將描述保持在附加關鍵詞候選項保持單元112中的附 加關鍵詞候選項的示例。後面將參照圖15描述選擇保持在附加關鍵 詞候選項保持單元112中的附加關鍵詞候選項的方法。
在該實施例中,關鍵詞"周邊地圖"被保持作為與檢索目標 ID"T001"對應的附加關鍵詞候選項,並被檢索查詢產生單元104讀 取。在檢索查詢產生單元104從附加關鍵詞候逸項保持單元112讀取 了一個或多個附加關鍵詞候選項之後,除了已經產生的第一檢索查詢 之外,它根據讀取的附加關鍵詞候選項產生第二檢索查詢。在該實施 例中,檢索查詢產生單元104通過OR邏輯連接附加關鍵詞候選項, 並通過AND邏輯將連接的附加關鍵詞與用戶輸入的關鍵詞連接,從 而產生得到的布爾公式數據作為檢索查詢。在這個示例中,由於僅有 一個附加關鍵詞候選項,所以不需要執行通過OR邏輯的附加關鍵詞 候選項連接,因此,產生第二檢索查詢"東京公園AND周邊地圖"。
由檢索查詢產生單元104產生的第一檢索查詢和第二檢索查詢 被發送到檢索查詢發送單元105。如果沒有產生第二檢索查詢,則僅 將第一檢索查詢發送到檢索查詢發送單元105,並僅對第一檢索查詢 執行下面的處理。
檢索查詢發送單元105將第一檢索查詢和第二檢索查詢轉換成 與不包括本實施例的現有搜尋引擎匹配的格式,並將得到的數據發送到搜尋引擎。與網際網路上的現有搜尋引擎匹配的檢索查詢格式是公知 的,因此不再進行詳細描述。
檢索結果接收單元106接收與從檢索查詢發送單元105發送的檢 索查詢對應的檢索結果。這時,檢索結果接收單元106從檢索查詢發 送單元105接收與從其發送到搜尋引擎的檢索查詢相關的信息,並根 據該信息來區分分別與第一檢索查詢和第二檢索查詢對應的笫一檢 索結果和第二檢索結果。
參照圖7A和圖7B,將描述由檢索結果接收單元106接收的檢 索結果的示例。
圖7A示出了與第一檢索查詢對應的第一檢索結果的示例,圖7B 示出了與第二檢索查詢對應的第二檢索結果的示例。圖7A和圖7B
僅示出了作為檢索結果的排位、標題和URL。然而,可以接收檢索結 果文檔的正文或摘要作為每個檢索結果的另外的元素。另外,儘管圖 7A和圖7B僅示出了第一至第五排位的檢索結果,但是更大數量的元 素可被添加到每個檢索結果。
參照圖8,將描述檢索結果列表產生單元107的操作示例。 檢索結果列表產生單元107利用由檢索結果接收單元106接收的 每個檢索結果作為輸入,根據圖8的流程圖來產生檢索結果列表。
(5801) 從檢索結果接收單元106讀取第一檢索結果(例如,圖7A 中示出的內容)。
(5802) 確定是否從檢索結果接收單元106接收到第二檢索結果。 如果接收到了第二檢索結果,則該程序進行到步驟S803,而如果沒有 接收,則該程序進行到步驟S805。
(5803) 從檢索結果接收單元106讀取第二檢索結果(例如,圖7B 中示出的內容)。
(5804) 從第二檢索結果中去除包括在步驟S803讀取的第二檢索 結果中同時也包括在第一檢索結果中的檢索結果文檔。
(5805) 重新設置或刪除現有的檢索結果列表。
(5806) 當在步驟S803讀取了第二檢索結果時,確定在步驟S801讀取的第一檢索結果和在步驟S803讀取的第二檢索結果是否均為空。 如果它們均為空,則該程序進行到步驟S811,而如果第一檢索結果和 第二檢索結果中的至少 一個不為空,則該程序進行到步驟S807。
如果在步驟S802確定沒有接收到第二檢索結果,則確定在步驟 S801讀取的第一檢索結果是否為空。如果確定第一檢索結果為空,則 該程序進行到步驟S811,而如果確定第一檢索結果不為空,則該程序 進行到步驟S807。
(5807) 確定在步驟S801讀取的第一檢索結果是否為空。如果確 定第一檢索結果為空,則該程序進行到步驟S809,而如果確定第一檢 索結果不為空,則該程序進行到步驟S808。
(5808) 在步驟S801讀取的第一檢索結果的最高級別的元素被移 動到檢索結果列表。
(5809) 確定在步驟S803讀取的第二檢索結果是否為空。如果確 定第二檢索結果為空,則該程序進行到步驟S806,而如果確定第二檢 索結果不為空,則該程序進行到步驟S810。
(5810) 在步驟S803讀取的第二檢索結果的最高級別的元素被移 動到檢索結果列表。之後,該程序返回至步驟S806。
(5811) 得到的檢索結果列表被輸出到檢索結果呈現單元116。 然後參照圖9,將描述檢索結果列表產生單元107產生的檢索結
果列表的示例。
基於圖7中示出的第一檢索結果和笫二檢索結果,檢索結果列表 產生單元107根據圖8的流程圖產生圖9中示出的檢索結果列表。在 圖9的"源,,列中,"2"被記錄在與從第二檢索結果複製的文檔對應的 單元格中,而"l,,被記錄在其它單元格中。
參照圖10,將描述由檢索結果呈現單元116呈現的檢索結果列 表的示例。
檢索結果,並將該列表呈現給用戶,如圖10所示。
圖IO按順序示出了包含在檢索結果列表中的標題和URL。標題
17和各個URL通過超連結進行連結,從而當用戶利用諸如滑鼠的定點 裝置點擊每個字符串時,檢索結果呈現單元116利用已知的網際網路連 接技術將該串與對應的URL連接,從而獲取對應的文檔並呈現獲取 的文檔的正文。
當觀看圖IO的檢索結果列表時,用戶能夠檢測檢索結果列表中 的哪個檢索結果對應於期望的信息,並選擇認為合適的標題或URL。 在此假定由於用戶想檢索與"東京公園"有關的地圖,所以他們確定圖 10中由標號1001指示的第二排位的檢索結果"東京公園周邊地圖"是 他們最想要的檢索結果,並且點擊標號1001指示的標題或URL。圖 ll示出了當點擊標號1001指示的標題或URL時與由檢索結果呈現單 元116呈現的並與所選擇的檢索結果對應的正文的示例。
現在參照圖12,將描述正確答案確定/選擇單元109的操作示例。 正確答案確定/選擇單元109監視用戶對檢索結果呈現單元116 的操作,確定用戶認為檢索結果列表中的檢索結果中的哪一個是期望 的,並選擇該期望的檢索結果。
(51201) 保持正確候選項的變量c被重新設置為空狀態。
(51202) 定時器變量t被重新設置為0。
(51203) 確定檢索結果呈現單元116是否呈現正文。如果確定顯 示正文,則該程序進行到步驟S1204,而如果確定沒有顯示正文,則 該程序進行到步驟S1201。
(51204) 確定由檢索結果呈現單元116呈現的文檔是否與保持在 變量c中的文檔相同。如果確定呈現的文檔與保持在變量c中的文檔 不同,則該程序進行到步驟S1205。
(51205) 檢索結果呈現單元116呈現的文檔作為正確候選項被賦 值給變量c。
(51206) 定時器變量t增加1。
(51207) 確定定時器變量t是否大於預先設置的閾值D。如果確定 定時器變量t大於預先設置的閾值D,則該程序進行到步驟S1208, 而如果確定定時器變量t不大於預先設置的閾值D,則該程序返回到步驟S1203。
(51208) 確定保持在變量c中的檢索結果元素的源是否包括在第 二檢索結果中。如果確定所述檢索結果元素包括在第二檢索結果中, 則該程序進行到步驟S1209,而如果所述檢索結果元素不包括在第二 檢索結果中,則該處理終止。
(51209) 與保持在變量c中的文檔對應的檢索目標ID被輸出到附 加關鍵詞更新單元113。
作為圖12所示的過程的結果,這樣的文檔被確定為正確,即, 該文檔包括在正文已被用戶瀏覽過的文檔中,並且其正文被用戶瀏覽 了預定時間或更長時間,而沒有瀏覽任何其它的文檔。這裡假定具有 圖ll所示的正文的文檔,即,與圖10中的標號1001對應的文檔, 被確定為正確。如果確定為正確的文檔僅包括在第二檢索結果中,即, 如果圖9中的"源單元格,,中的值為2,則正確答案確定/選擇單元109 將與由檢索目標呈現/指定單元102指定的檢索目標對應的檢索目標 ID發送到附加關鍵詞更新單元113(S1209)。在這種情況下,"T001" 作為檢索目標ID被發送到附加關鍵詞更新單元113。
另外,當正確答案確定/選擇單元109確定某一文檔為正確時, 該文檔的標題、正文和檢索目標ID被累積在歷史累積單元110中。 圖13示出了累積在歷史累積單元110中的歷史示例。
參照圖13和圖14,將描述附加關鍵詞更新單元113。
在從正確答案確定/選擇單元109接收到檢索目標ID時,附加關 鍵詞更新單元113從附加關鍵詞候選項保持單元112讀取與接收的檢 索目標ID對應的一個或多個附加關鍵詞候選項,並從附加關鍵詞候 選項保持單元112刪除所述候選項。在這個示例中,附加關鍵詞更新 單元113讀取作為附加關鍵詞候選項的"周邊地圖,,(由圖6中的標號 601表示)。
之後,附加關鍵詞更新單元113將從附加關鍵詞候選項保持單元 112接收的附加關鍵詞候選項添加到累積在附加關鍵詞累積單元103 中並與檢索目標ID對應的附加關鍵詞中。在這個示例中,項目"周邊地圖"被添加到與檢索目標ID"001,,對應的附加關鍵詞"地圖、方向、 位置"(由圖5中的標號501表示)中(圖14中的S1401)。即,當 在利用附加關鍵詞的檢索中不能檢測到的正確文檔能夠在利用附加 關鍵詞候選項的檢索中被檢測到時,附加關鍵詞候選項被添加作為附 加關鍵詞。
參照圖15,將描述附加關鍵詞候選項提取單元111的操作示例。 當新的歷史元素被添加到歷史累積單元110時,附加關鍵詞候選 項提取單元111根據圖15的流程提取新的附加關鍵詞候選項。
(51501) 作為新添加的歷史元素的檢索目標ID被賦值給保持檢索 目標ID的變量T。例如,T祐z沒置為TOOl。
(51502) 將計數器變量i重新設置為0。
(51503) 使得用於保持詞排列(word arrangement)的變量X為
空
(51504) 確定計數器變量i是否小於歷史元素的數量。如果i小於 歷史元素的數量,則該程序進行到步驟S1505,而如果i不小於歷史 元素的數量,則該程序進行到步驟S1511。
(51505) 從歷史累積單元110讀取第i歷史元素的正文、標題和檢 索目標ID。
(51506) 以字符類型為單位劃分讀取的正文和標題,以獲得詞。 例如,字符類型包括數字、日文字、符號、英文字和漢字。
(51507) 確定在步驟S1505讀取的作為歷史元素的檢索目標ID與 在步驟S1501設置的T是否相同。如果確定它們相同,則該程序進行 到步驟S1508,而如果確定它們不同,則該程序進行到步驟S1510。
(51508) 在步驟S1506獲得的詞;故添加到變量X,並且該程序進 行到步驟S1510。
(51509) 在步驟S1506獲得的詞被添加到變量Y,並且該程序進 行到步驟S1510,其中,變量Y也保持詞排列並且與變量X不同。
(51510) 計數器變量i增加1,並且該程序返回至步驟S1504。
(51511) 將與計數器變量i不同的計數器變量j重新設置為0。(51512) 確定j是否小於變量X保持的詞的數量。如果確定j小 於所述詞的數量,則該程序進行到步驟S1513,而如果確定j不小於 所述詞的數量,則該程序終止。
(51513) 計算變量X所保持的第j詞Kj的統計分數Dj。後面將 描述統計分數Dj的計算方式。
(51514) 確定Dj是否大於預先設置的閾值P。如果確定Dj大於 預先設置的閾值P,則該程序進行到步驟S1515,而如果確定Dj不大 於閾值P,則該程序進行到步驟S1517。
(51515) 確定詞Kj是否已經存儲在附加關鍵詞累積單元103或附 加關鍵詞候選項保持單元112中。如果確定詞Kj已經存儲在附加關 鍵詞累積單元103或附加關鍵詞候選項保持單元112中,則程序進行 到步驟S1517,而如果確定詞Kj沒有被存儲,則程序進行到步驟 S1516。
(51516) 詞Kj被添加到附加關鍵詞候選項保持單元112中。
(51517) 變量j增加1,並且該程序返回至步驟S1S12。 在步驟S1513計算的統計分數Dj例如通過下式給出, Dj=(n/N)/(m/M)
其中,n:變量X中的詞Kj的出現次數
N:變量X中的所有詞的總出現次數
m:變量Y中的詞Kj的出現次數
M:變量Y中的所有詞的總出現次數
如果m-O,則預先設置的常數值Dmax ( >P )被賦值給Dj。 定性地看,如果一個詞在與某個檢索目標ID對應的正確文檔中
出現很多次並且在與其它檢索目標ID項目對應的正確文檔中出現的
次數不多,則假定該詞的統計分數Dj的值高。統計分數不是必須由
上述的表達式給出,也可以通過任何其它表達式給出。只要給出的統
計分數具有相似的定性性質就足夠了 。 (變型例)
現在參照圖16,將描述該實施例的變型例。在該變型例中,包括在圖1中示出的檢索關鍵詞改進裝置中的歷
史累積單元110、附加關鍵詞候選項提取單元111和附加關鍵詞候選 項保持單元112在伺服器1600上工作,其中,伺服器1600不同於改 進裝置的其它單元在其上進行工作的PC。另外,伺服器1600上的單 元(歷史累積單元110、附加關鍵詞候選項提取單元111和附加關鍵 詞候選項保持單元112)被多個PC訪問。即,根據該變型例的檢索 關鍵詞改進裝置包括關鍵詞輸入單元101、檢索目標呈現/指定單元 102、附加關鍵詞累積單元103、檢索查詢產生單元104、檢索查詢發 送單元105、檢索結果接收單元106、檢索結果列表產生單元107、呈 現單元108、正確答案確定/選擇單元109、附加關鍵詞更新單元113、 檢索目標累積單元114和關鍵詞分析單元115。呈現單元108包括檢 索結果呈現單元116和菜單呈現單元117。
在這個變型例中,歷史累積單元110累積多個用戶產生的檢索歷 史,並且附加關鍵詞候選項提取單元lll從用戶的檢索歷史中提取附 加關鍵詞候選項。因此,可以將從其它用戶的檢索歷史中提取的附加 關鍵詞候選項添加到附加關鍵詞累積單元103,因此,檢索關鍵詞改 進裝置的用戶可以使用這些附加關鍵詞。這意味著檢索關鍵詞改進裝 置的用戶能夠更方便地使用該裝置。
在上述的實施例和變型例中,當執行越來越多的檢索時,設置越 來越多的適當關鍵詞,可以降低開發關鍵詞所需的成本。另外,即使 在作為檢索目標的文檔的屬性發生變化時,逐漸地設置符合改變的屬 性的關鍵詞,因而可以獲得適當的檢索結果。
其它的優點和變型例對於本領域技術人員來說也是容易想到的。
性實施例。因此,在不脫離由權利要求及其等同物限定的總體發明構 思的精神或範圍的情況下,可以作出各種變型。
權利要求
1、一種檢索關鍵詞改進裝置,該裝置包括歷史累積單元,被配置為以彼此關聯的關係累積多個第一文檔或與所述第一文檔對應的索引和多個第一檢索目標識別信息項目,所述多個第一檢索目標識別信息項目對應於與用於檢索的關鍵詞相關聯的第一檢索目標,所述第一檢索目標識別信息項目被用於檢索第一文檔;提取單元,被配置為在包括在第一文檔中的新文檔和用於檢索所述新文檔的新的檢索目標識別信息項目被累積在歷史累積單元中的情況下,從所述新文檔中提取作為附加關鍵詞候選項的詞,所述詞在所述新文檔中的出現次數大於所述詞在第一文檔中的除了所述新文檔之外的每個文檔中的出現次數;附加關鍵詞累積單元,被配置為累積與所述附加關鍵詞候選項不同的多個附加關鍵詞和與這些附加關鍵詞對應的多個第二檢索目標識別信息項目;存儲單元,被配置為存儲所述附加關鍵詞候選項和與所述附加關鍵詞候選項對應的第三檢索目標識別信息項目;查詢產生單元,被配置為基於輸入關鍵詞、與所述輸入關鍵詞相關聯的第二檢索目標、以及與對應於第二檢索目標的第四檢索目標識別信息項目對應的附加關鍵詞中的一個附加關鍵詞來產生第一檢索查詢,並且被配置為基於所述輸入關鍵詞、第二檢索目標和與第四檢索目標識別信息項目對應的附加關鍵詞候選項來產生第二檢索查詢;列表產生單元,被配置為產生包括與第一檢索查詢和第二檢索查詢對應的檢索結果的第一檢索結果列表;第一選擇單元,被配置為從第一檢索結果列表中選擇作為期望的檢索結果的第二文檔;和移動單元,被配置為在第一選擇單元從與第二檢索查詢對應的第二檢索結果列表中選擇期望的檢索結果的情況下,將所述附加關鍵詞候選項和第三檢索目標識別信息項目移動到附加關鍵詞累積單元,其中第二檢索結果列表包括在第一檢索結果列表中。
2、 根據權利要求1所述的裝置,其中,如果用戶已確定第二文 檔是期望的檢索結果,則第 一選擇單元從第 一選擇結果列表中選擇第 二文檔。
3、 根據權利要求2所述的裝置,其中,查詢產生單元中的第二 檢索目標是第一檢索目標中用戶選擇的一個檢索目標。
4、 根據權利要求1所述的裝置,還包括 輸入單元,被配置為輸入所述輸入關鍵詞;分析單元,被配置為分析所述輸入關鍵詞的語義類別;和 顯示單元,被配置為根據分析單元獲得的分析結果,顯示包括第二檢索目標的檢索目標茱單;與所述輸入關鍵詞相關聯的第二檢索目標是從檢索目標菜單中選擇的。
5、 根據權利要求1所述的裝置,其中,在(n/N)/(m/M)的值大於 第 一 閾值的情況下,提取單元提取所述詞作為所述附加關鍵詞候選 項,n表示所述詞在所述新文檔中的出現次數,N表示所述新文檔中 的所有詞的出現次數,m表示所述詞在第 一文檔中的除了所述新文檔 之外的文檔中的出現次數,M表示第一文檔中的除了所述新文檔之外 的文檔中的所有詞的出現次數。
6、 根據權利要求l所述的裝置,其中,列表產生單元包括 確定單元,被配置為確定是否存在對應於第二檢索查詢的第一檢索結果;第一讀取單元,被配置為在確定存在第一檢索結果的情況下讀取 第一檢索結果;第二讀取單元,被配置為讀取與第一檢索查詢對應的第二檢索結 果;和刪除單元,被配置為從第一檢索結果中刪除包括在第二檢索結果 中的文檔。
7、 根據權利要求6所述的裝置,其中,列表產生單元還包括 重新設置單元,被配置為重新設置第一檢索結果列表的內容以獲得重新設置的列表;和更新單元,被配置為通過執行下面的操作,即,將包括在第二檢 索結果中的最高排位的第一結果元素移動到所述重新設置的列表,然 後將包括在第一檢索結果中的最高排位的第二結果元素移動到所述 重新設置的列表的緊跟在第一結果元素之後的位置,並重複所述操作 直到包括在第一檢索結果和第二檢索結果中的所有檢索結果元素均 被處理,從而更新第一檢索結果列表。
8、 根據權利要求l所述的裝置,其中,第一選擇單元包括測量單元,被配置為測量被用戶瀏覽並且包括在第二檢索結果列 表中的第三文檔被連續顯示的時間;第二選擇單元,被配置為在測得的時間大於第二閾值的情況下選 擇第三文檔作為期望的檢索結果。
9、 根據權利要求8所述的裝置,其中,第一選擇單元還包括 確定單元,被配置為確定第三文檔是否是第二檢索查詢的檢索結果;和識別單元,被配置為在確定單元確定了第三文檔是第二檢索查詢 的檢索結果的情況下,識別與第三文檔對應的第五檢索目標識別信息 項目。
10、 根據權利要求l所述的裝置,其中,列表產生單元產生的第 一檢索結果列表包括以檢索結果為單位的與笫一檢索查詢和第二檢 索查詢中的一個對應的信息。
11、 一種伺服器裝置,該伺服器裝置包括歷史累積單元,被配置為以彼此關聯的關係累積從由多個檢索結 果形成的檢索結果列表中選擇為期望的檢索結果的多個笫一文檔和 對應於與用於檢索的關鍵詞相關聯的檢索目標的多個檢索目標識別 信息項目,檢索目標識別信息項目被用於檢索第一文檔;提取單元,被配置為在包括在第一文檔中的新文檔和用於檢索所述新文檔的新的檢索目標識別信息項目被累積在歷史累積單元中的 情況下,從所述新文檔中提取作為附加關鍵詞候選項的詞,所述詞在 所述新文檔中的出現次數大於所述詞在第 一 文檔中的除了所述新文檔之外的每個文檔中的出現次數;和存儲單元,被配置為存儲所述附加關鍵詞候選項和與所述附加關 鍵詞候選項對應的另一檢索目標識別信息項目。
12、 一種檢索關鍵詞改進方法,該方法包括準備歷史累積單元,所述歷史累積單元被配置為以彼此關聯的關 繫纍積多個第一文檔或與所述第一文檔對應的索引和多個第一檢索 目標識別信息項目,所述多個第一檢索目標識別信息項目對應於與用 於檢索的關鍵詞相關聯的第一檢索目標,所述第一檢索目標識別信息 項目被用於檢索第一文檔;在包括在第一文檔中的新文檔和用於檢索所述新文檔的新的檢 索目標識別信息項目被累積在歷史累積單元中的情況下,從所述新文 檔中提取作為附加關鍵詞候選項的詞,所述詞在所述新文檔中的出現 次數大於所述詞在第一文檔中的除了所述新文檔之外的每個文檔中 的出現次數;準備附加關鍵詞累積單元,所述附加關鍵詞累積單元被配置為累 積與所述附加關鍵詞候選項不同的多個附加關鍵詞和與這些附加關 鍵詞對應的多個第二檢索目標識別信息項目;在存儲單元中存儲所述附加關鍵詞候選項和與所述附加關鍵詞 候選項對應的第三檢索目標識別信息項目;基於輸入關鍵詞、與所述輸入關鍵詞相關聯的第二檢索目標、以 及與對應於第二檢索目標的第四檢索目標識別信息項目對應的附加 關鍵詞中的 一個附加關鍵詞來產生第 一檢索查詢;基於所述輸入關鍵詞、第二檢索目標和與第四檢索目標識別信息 項目對應的附加關鍵詞候選項來產生第二檢索查詢;產生包括與第一查詢和第二查詢對應的檢索結果的第一檢索結 果列表;從第一檢索結果列表中選擇作為期望的檢索結果的第二文檔;以及在第一選擇單元從與第二檢索查詢對應的第二檢索結果列表中 選擇期望的檢索結果的情況下,將所述附加關鍵詞候選項和第三檢索 目標識別信息項目移動到附加關鍵詞累積單元,其中第二檢索結果列 表包括在第一檢索結果列表中。
13、 一種方法,該方法包4舌準備歷史累積單元,所述歷史累積單元被配置為以彼此關聯的關 繫纍積從由多個檢索結果形成的檢索結果列表中選擇為期望的檢索 結果的多個第一文檔和對應於與用於檢索的關鍵詞相關聯的檢索目 標的多個檢索目標識別信息項目,檢索目標識別信息項目被用於檢索 第一文檔;在包括在第一文檔中的新文檔和用於檢索所述新文檔的新的檢 索目標識別信息項目被累積在歷史累積單元中的情況下,從所述新文 檔中提取作為附加關鍵詞候選項的詞,所述詞在所述新文檔中的出現 次數大於所述詞在第一文檔中的除了所述新文檔之外的每個文檔中 的出現次數;以及在存儲單元中存儲所述附加關鍵詞候選項和與所述附加關鍵詞 4美選項對應的另 一檢索目標識別信息項目。
全文摘要
本發明提供了檢索關鍵詞改進裝置、伺服器及方法。該檢索關鍵詞改進裝置包括在新文檔和用於檢索所述新文檔的新的檢索目標識別信息項目被累積的情況下從所述新文檔中提取作為附加關鍵詞候選項的詞的單元,所述詞在所述新文檔中的出現次數大於所述詞在第一文檔中的除了所述新文檔之外的每個文檔中的出現次數;基於輸入關鍵詞、與輸入關鍵詞相關聯的第二檢索目標和附加關鍵詞中的一個關鍵詞產生第一檢索查詢並且產生第二檢索查詢的單元;在從與第二檢索查詢對應的第三檢索結果列表中選擇了期望的檢索結果的情況下移動附加關鍵詞候選項和第三檢索目標識別信息項目的單元。
文檔編號G06F17/30GK101546328SQ20091000822
公開日2009年9月30日 申請日期2009年2月19日 優先權日2008年3月27日
發明者國分智晴, 鈴木優 申請人:株式會社東芝