新四季網

技術文件分析方法與技術文件分析系統的製作方法

2023-08-08 03:57:16

專利名稱:技術文件分析方法與技術文件分析系統的製作方法
技術領域:
本發明涉及一種文件分析方法與系統,且特別涉及一種技術文件的分析方法與分析系統,以圖像化技術文件所蘊藏的技術發展軌跡。
背景技術:
目前的科技發展趨勢研究,對於特定的產業、研發單位或是個人,通常先從技術面與產品面作分析導向,同時需要依靠人力一一瀏覽相關文件資料或是影音文件,藉此找尋出關鍵的詞彙並且一一匯總。依靠人力一一分析技術文件,龐大的人力物力,也消耗文件瀏覽或是技術分析人員的時間,而且,不同人員對於相同或是相似的技術文件在分析時,也會有主觀見解而導致分析過程或是匯總過程產生人為偏差,甚至導致整體技術分析結果存在著不小的人為導向因素,使科技發展趨勢研究結果不具有客觀性,連帶使得之後對於特定的產業、研發單位或是個人的研發方向造成誤判。

發明內容
針對現有技術中存在的問題,本發明的目的在於提供一種技術文件分析方法,可快速分析大量的技術文件,以圖表化技術文件背後所隱藏的技術發展軌跡。本發明的另一目的在於提供一種技術文件分析系統,可快速分析大量的技術文件,從而準確繪製技術發展方向。本發明提出一種技術文件分析方法,適用於分析多筆技術文字資料,其中每一所述技術文字資料分別包含一文獻資料,該方法包括進行一文字探勘,以分別從所述多筆技術文字資料,萃取出多個技術字詞,其中每一所述技術字詞分別對應至少一該技術文字資料。進行一字詞關聯性分析,以劃分所述多個技術字詞成多個技術群組。根據組成每一所述技術群組的所述多個技術字詞,其所對應的所述多個技術文字資料所分別包含的所述文獻資料,標示每一所述技術群組所對應的一年代區間。根據每一所述技術群組分別對應的該年代區間,繪製所述多筆技術文字資料的一技術發展軌跡。在本發明的一實施例中,上述的技術文件分析方法,其中該文獻資料包括一文獻相關時間記錄、一文獻關鍵詞組、一文獻歸屬者、一文獻技術分類、一文獻作者群或一文獻審核單位。在本發明的一實施例中,上述的技術文件分析方法,其中該字詞關聯性分析是根據所述多個技術字詞所對應的至少一該技術文字資料所分別包含的該文獻資料而進行。在本發明的一實施例中,上述的技術文件分析方法,其中該字詞關聯性分析包括 根據所述多個技術字詞所對應的所述多筆技術文字資料的所述文獻相關時間或所述文獻相互引用關係,以獲得所述多個技術字詞彼此之間的一發生先後順序關係。進行一詞組出現頻率分析,以獲得所述多個技術字詞彼此之間的一字詞出現關係。根據所述多個技術字詞彼此之間的該發生先後順序關係與該字詞出現關係,劃分所述多個技術字詞成所述多個技術群組。在本發明的一實施例中,上述的技術文件分析方法,其中劃分所述多個技術字詞成所述多個技術群組的方法包括因素分析法、集群分析法或自我組織法。在本發明的一實施例中,上述的技術文件分析方法,其中該詞組出現頻率分析包括計算所述多個技術字詞中,每兩所述技術字詞在所述多筆技術文字資料中的一共同出現頻率。計算所述多個技術字詞中,每兩所述技術字詞出現於同一該技術文字資料的一共同出現文字資料數。根據該共同出現頻率與該共同出現文字資料數,決定每兩該技術字詞之間的該字詞出現關係。在本發明的一實施例中,上述的技術文件分析方法,其中每一所述技術文字資料的所述多個技術字詞包括該文獻相關時間記錄、該文獻關鍵詞組、該文獻歸屬者、該文獻技術分類、該文獻作者群或該文獻審核單位。在本發明的一實施例中,上述的技術文件分析方法,其中每一所述技術文字資料是經由分別將多筆技術文件與多筆影音文件進行一純文字轉譯後所獲得。在本發明的一實施例中,上述的技術文件分析方法,其中該文字探勘包括進行一斷詞斷字分析,以從所述多筆技術文字資料中獲得多個候選字詞。進行一詞頻分析,以由所述多個候選字詞中篩選出所述多個技術字詞。在本發明的一實施例中,上述的技術文件分析方法,其中該詞頻分析包括計算每一所述候選字詞於所述多筆技術文字資料中的一出現頻率。計算每一所述候選字詞出現於所述多筆技術文字資料中的一出現文字資料數。根據一字詞出現門檻值以及每一所述候選字詞的該出現頻率與該出現文字資料數,由所述多個候選字詞中篩選出所述多個技術字詞。本發明另提出一種技術文件分析系統,適用於分析多筆技術文字資料,其中每一所述技術文字資料分別包含一文獻資料,該系統包括一文字探勘模塊、一字詞關聯性分析模塊、一年代標示模塊以及一技術軌跡繪製模塊。文字探勘模塊用以分別從所述多筆技術文字資料,萃取出多個技術字詞,其中每一所述技術字詞分別對應至少一該技術文字資料。 字詞關聯性分析模塊,用以劃分所述多個技術字詞成多個技術群組。年代標示模塊,用以根據組成每一所述技術群組的所述多個技術字詞,其所對應的所述多筆技術文字資料所分別包含的所述文獻資料,標示每一所述技術群組所對應的一年代區間。技術軌跡繪製模塊,則根據每一所述技術群組分別對應的該年代區間,繪製所述多筆技術文字資料的一技術發展軌跡。在本發明的一實施例中,上述的技術文件分析系統,其中該文獻資料包括一文獻相關時間記錄、一文獻關鍵詞組、一文獻歸屬者、一文獻技術分類、一文獻作者群或一文獻審核單位。在本發明的一實施例中,上述的技術文件分析系統,其中該字詞關聯性分析模塊是根據所述多個技術字詞所對應的至少一該技術文字資料所分別包含的該文獻資料而劃分所述多個技術字詞。在本發明的一實施例中,上述的技術文件分析系統,其中該字詞關聯性分析模塊包括一順序分析模塊、一詞組頻率分析模塊以及一划分模塊。順序分析模塊,用以根據所述多個技術字詞所對應的所述多筆技術文字資料的所述文獻相關時間或所述文獻相互引用關係,以分析所述多個技術字詞彼此之間的一發生先後順序關係。詞組頻率分析模塊,用以分析所述多個技術字詞彼此之間的一字詞出現關係。劃分模塊,則根據所述多個技術字詞彼此之間的該發生先後順序關係與該字詞出現關係,劃分所述多個技術字詞成所述多個技術群組。在本發明的一實施例中,上述的技術文件分析系統,其中劃分所述多個技術字詞成所述多個技術群組的方法包括因素分析法、集群分析法或自我組織法。在本發明的一實施例中,上述的技術文件分析系統,其中該詞組頻率分析模塊包括一共同出現頻率分析模塊、一共同出現文字資料計數模塊以及一關係決定模塊。共同出現頻率分析模塊,用以計算所述多個技術字詞中,每兩所述技術字詞在所述多筆技術文字資料中的一共同出現頻率。共同出現文字資料計數模塊,用以計算所述多個技術字詞中,每兩所述技術字詞出現於同一該技術文字資料的一共同出現文字資料數。關係決定模塊,則根據該共同出現頻率與該共同出現文字資料數,決定每兩該技術字詞之間的該字詞出現關係。在本發明的一實施例中,上述的技術文件分析系統,其中每一所述技術文字資料的所述多個技術字詞包括該文獻相關時間記錄、該文獻關鍵詞組、該文獻歸屬者、該文獻技術分類、該文獻作者群或該文獻審核單位。在本發明的一實施例中,上述的技術文件分析系統,還包括一轉譯模塊,以分別將多筆技術文件與多筆影音文件純文字轉譯成每一所述技術文字資料。在本發明的一實施例中,上述的技術文件分析系統,其中該文字探勘模塊包括一斷詞斷字分析模塊以及一詞頻分析模塊。斷詞斷字分析模塊,用以從所述多筆技術文字資料中獲得多個候選字詞。詞頻分析模塊,則由所述多個候選字詞中篩選出所述多個技術字詞。在本發明的一實施例中,上述的技術文件分析系統,其中該詞頻分析模塊包括一單一出現頻率分析模塊、一單一出現文字資料計數模塊以及一字詞篩選模塊。單一出現頻率分析模塊,計算每一所述候選字詞於所述多筆技術文字資料中的一單一出現頻率。單一出現文字資料計數模塊,計算每一所述候選字詞出現於所述多筆技術文字資料中的一單一出現文字資料數。字詞篩選模塊,則根據一字詞出現門檻值以及每一所述候選字詞的該單一出現頻率與該單一出現文字資料數,由所述多個候選字詞中篩選出所述多個技術字詞。本發明的有益效果在於,基於上述,本發明是利用自動化技術直接分析大量的未經處理的技術文件,通過建立所篩選出來的技術字詞之間的關聯性,並標示年代區間,而可以快速圖表化技術文件背後所隱藏的技術發展軌跡,更近一步可以準確繪製未來技術發展方向。為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附附圖作詳細說明如下。


圖1為根據本發明一實施例的一種技術文件分析系統的示意圖。圖2為根據本發明一實施例的一種技術文件分析方法的方法流程圖。圖3為根據本發明一實施例的文字探勘模塊的示意圖。
圖4為根據本發明一實施例的文字探勘的方法流程圖。圖5為根據本發明一實施例的詞頻分析模塊的示意圖。圖6為根據本發明一實施例的詞頻分析的方法流程圖。圖7為根據本發明一實施例的字詞關聯性分析模塊的示意圖。圖8為根據本發明一實施例的字詞關聯性分析的方法流程圖。圖9為根據本發明一實施例的詞組頻率分析模塊的示意圖。圖10為根據本發明一實施例的詞組出現頻率分析的方法流程圖。圖IlA為根據本發明一實施例的技術群組標示年代區間的結果示意圖。圖IlB為根據本發明一實施例的各年代區間中的一技術字詞列表。圖12為根據本發明一實施例的繪製技術發展軌跡示意圖。其中,附圖標記說明如下100 技術文件分析系統102 文字探勘模塊104 一字詞關聯性分析模塊106 年代標示模塊108 技術軌跡繪製模塊110:轉譯模塊102a:斷詞斷字分析模塊102b 詞頻分析模塊102b 1 單一出現頻率分析模塊102b2 單一出現文字資料計數模塊102b3 字詞篩選模塊104a 順序分析模塊104b 詞組頻率分析模塊104c 劃分模塊104bl 共同出現頻率分析模塊104b2 共同出現文字資料計數模塊104b3 關係決定模塊S205 S220 方法流程步驟S405 S410 方法流程步驟S605 S615 方法流程步驟S805 S815 方法流程步驟S1005 S1015 方法流程步驟
具體實施例方式圖1為根據本發明一實施例的一種技術文件分析系統的示意圖。圖2為根據本發明一實施例的一種技術文件分析方法的方法流程圖。請參照圖1,本實施例的技術文件分析系統100包含一文字探勘模塊102、一字詞關聯性分析模塊104、一年代標示模塊106以及一技術軌跡繪製模塊108。
請參照圖1與圖2,本實施例的技術文件分析系統100用於分析多筆技術文字資料,而每一技術文字資料分別包含一文獻資料。上述文獻資料包括一文獻相關時間記錄、 一文獻關鍵詞組、一文獻歸屬者、一文獻技術分類、一文獻作者群或一文獻審核單位。文獻相關時間記錄,例如是技術文件資料的產生時間、申請時間、發表時間、公告時間或是被接受時間。更明確的說,當技術文件資料為一專利文件或是專利申請文件時,上述的文獻相關時間記錄例如是此文件的申請日、公告日、獲準專利日或是專利優先權日。此外,文獻歸屬者例如是專利受讓人或是技術文件(例如論文)發表單位、出資單位等。又,文獻技術分類,以專利文件為例,此文獻技術分類例如是國際專利分類號(international patent classification, IPC)或是美國專利分類號(unitedstate patent classification,UPC)。 另外,文獻審核單位例如是專利審查員姓名或是審查單位編號等。再者,上述的技術文字資料,例如是先經由一轉譯模塊110,分別將多筆技術文件(例如專利文件、論文、發布的新聞)與多筆影音文件(與技術相關的影音報導或是影音文件),通過純文字轉譯而轉譯成每一筆技術文字資料。又,文獻資料還包括技術文字資料之間的文獻相互引用關係,也就是技術文字資料之間的引用與被引用關係。請繼續參照圖1與圖2,於步驟S205中,首先文字探勘模塊102進行一文字探勘, 以分別從技術文字資料中,萃取出多個技術字詞。值得注意的是,每一技術字詞分別對應至少一技術文字資料。也就是每一技術字詞分別從至少一筆技術文字資料萃取出。亦即,每一技術字詞經由其所屬的至少一技術文字資料,而對應到至少一文獻資料。值得注意的是, 上述由每一技術文字資料中所萃取出的技術字詞還可包括文獻資料中的文獻相關時間記錄、文獻關鍵詞組、文獻歸屬者、文獻技術分類、文獻作者群、文獻審核單位或文獻相互引用關係。也就是說與每一技術文字資料有關的文獻資料中的各種有關於此技術文字資料的記錄,都可作為技術字詞,於後續的技術分析步驟中,與實際技術字詞做進一步的關係分析, 而做為技術文件分析的變量之一。圖3為根據本發明一實施例的文字探勘模塊的示意圖。圖4為根據本發明一實施例的文字探勘的方法流程圖。請參照圖3與圖4,於本發明的一實施例中,上述的文字探勘模塊102包括一斷詞斷字分析模塊10 以及一詞頻分析模塊102b。於步驟S205的文字探勘中,斷詞斷字分析模塊10 進行一斷詞斷字分析(步驟S405),以從眾多技術文字資料中獲得多個候選字詞。之後,於步驟S410中,由詞頻分析模塊102b進行一詞頻分析,以從上述候選字詞中篩選出適當的技術字詞。圖5為根據本發明一實施例的詞頻分析模塊的示意圖。圖6為根據本發明一實施例的詞頻分析的方法流程圖。請參照圖5與圖6,於本發明的另一實施例中,上述詞頻分析模塊102b包括一單一出現頻率分析模塊102bl、一單一出現文字資料計數模塊102b2以及一字詞篩選模塊102b3。於步驟S410中的詞頻分析中,單一出現頻率分析模塊102bl計算每一候選字詞於技術文字資料中的單一出現頻率(步驟S605)。也就是每一候選字詞於所有技術文字資料中的個別出現頻率。而單一出現文字資料計數模塊102b計算每一候選字詞出現於技術文字資料中的單一出現文字資料數(步驟S610)。也就是對於單一候選字詞, 計算包含此候選字詞的技術文字資料筆數。值得注意的是,於本發明中,計算每一候選字詞的單一出現頻率步驟與計算每一候選字詞的單一出現文字資料數步驟之間並無先後執行順序的硬性規定。也就是於實際應用上,並不限定步驟S605與步驟S610如本實施例的圖6所示的先後執行順序,而步驟S605與步驟S610可同時執行,也可以先執行步驟S610後執行步驟S605,而本發明並不受限於此。繼之,根據一字詞出現門檻值以及每一候選字詞的單一出現頻率與單一出現文字資料數,由候選字詞中篩選出所述多個技術字詞(步驟S615)。例如,當候選字詞的單一出現頻率低,卻出現於為數不少的技術文字資料中時,則可認定此候選字詞具有技術代表性, 而篩選其為技術字詞。反之,當候選字詞的單一出現頻率極高,卻集中出現於少數的技術文字資料中時,則可認定此候選字詞不具有技術代表性,而刪除此候選字詞。之後,請參照圖1與圖2,於步驟S210中,字詞關聯性分析模塊104對於所萃取出的眾多技術字詞,進行一字詞關聯性分析,以劃分上述技術字詞而成多個技術群組。值得注意的是,於一實施例中,上數字詞關聯性分析模塊104是根據技術字詞所對應的至少一筆技術文字資料所分別包含的文獻資料而劃分技術字詞。例如根據技術字詞所屬的至少一技術文字資料所對應的文獻技術分類號,以劃分技術字詞。此外,於又一實施例中,可通過個別實行或是組合實行包括因素分析法、集群分析法或自我組織法等劃分分類方法,劃分技術字詞成多個技術群組。圖7為根據本發明一實施例的字詞關聯性分析模塊的示意圖。圖8為根據本發明一實施例的字詞關聯性分析的方法流程圖。此外,於另一實施例中,請參照圖7與圖8,上述字詞關聯性分析模塊104包括一順序分析模塊104a、一詞組頻率分析模塊104b以及一划分模塊10如。於步驟S210中的字詞關聯性分析中,順序分析模塊10 根據技術字詞所對應的技術文字資料的文獻相關時間或文獻相互引用關係,以獲得技術字詞彼此之間的一發生先後順序關係(步驟S805)。接著,詞組頻率分析模塊104b對於技術字詞中兩兩技術字詞組成的詞組,進行一詞組出現頻率分析,以獲得詞組中兩兩技術字詞彼此之間的一字詞出現關係(步驟S810)。繼之,劃分模塊l(Mc根據詞組中的兩技術字詞彼此之間的發生先後順序關係與字詞出現關係,劃分技術字詞(步驟S815)。圖9為根據本發明一實施例的詞組頻率分析模塊的示意圖。圖10為根據本發明一實施例的詞組出現頻率分析的方法流程圖。在本發明的又一實施例中,上述詞組頻率分析模塊104b包括一共同出現頻率分析模塊104bl、一共同出現文字資料計數模塊104b2以及一關係決定模塊104b3。於上述步驟S810中的詞組出現頻率分析中,共同出現頻率分析模塊104bl計算技術字詞中,每兩個技術字詞在技術文字資料中的一共同出現頻率(步驟 S1005)。而共同出現文字資料計數模塊10仙2則針對每兩個技術字詞出現於同一該技術文字資料的一共同出現文字資料數(步驟S1010)。也就是對於任兩候選字詞,計算包含此兩候選字詞的技術文字資料筆數。值得注意的是,於本發明中,計算每兩個技術字詞在技術文字資料中的共同出現頻率步驟與計算每兩個技術字詞出現於同一該技術文字資料的一共同出現文字資料數步驟之間並無先後執行順序的硬性規定。也就是於實際應用上,並不限定步驟S1005與步驟S1010如本實施例的圖10所示的先後執行順序,而步驟S1005與步驟 S1010可同時執行,也可以先執行步驟S1010後執行步驟S1005,而本發明並不受限於此。繼之,根據共同出現頻率與共同出現文字資料數,關係決定模塊104b3決定每兩個技術字詞之間的字詞出現關係(步驟S1015)。接著,請參照圖1與圖2,於步驟S215中,根據組成每一技術群組的技術字詞所對應的技術文字資料所分別包含的文獻資料中對應的文獻相關時間記錄,年代標示模塊106標示每一技術群組所對應的一年代區間。繼之,請參照圖1與圖2,根據每一所述技術群組分別對應的該年代區間,技術軌跡繪製模塊108繪製所述多筆技術文字資料的一技術發展軌跡(步驟S220)。於上述各實施例中,本發明的技術文件分析方法可經由執行一電腦可讀取程序而具體實行,而技術文件分析系統也可以是上述電腦可讀取程序。而此電腦可讀取程序存儲於一種電腦可讀寫記錄媒體中,並且執行多個指令或是程序代碼,以具體實行本發明的技術文件分析方法。所執行的技術文件分析方法步驟已於上述實施例中詳細描述,因此不在此做贅述。於本發明中,將所有標的物的相關技術文件,例如特定單位或是特定人士的公開技術文件、專利文件、專利公告文件、技術發表文章、論文或是影音相關檔案,匯總成一筆筆的技術文字資料,之後通過一系列的文字探勘、字詞關聯性分析、標示技術群組的年代區間,之後還近一步的根據每個技術群組所對應的年代區間,繪製所分析的所有技術文件與技術相關影音文件的一發展軌跡。也就是通過本發明的技術文件分析方法與技術文件分析系統,使用者可以在眾多不同類型的未整理文件與檔案中,有系統的根據文字探勘所篩選出來的技術字詞,近一步分析技術字詞之間的關聯性,通過標示技術字詞的年代區間,而繪製出所欲分析的特定單位或特定人士的未來技術發展軌跡。由於本發明的技術文件分析是分析技術字詞之間的關聯性,因此可以技術字詞為變量,將所有技術字詞之間的關聯性圖表化,進而使劃分結果以及年代區間標示結果以圖表顯示出來。圖IlA為根據本發明一實施例的技術群組標示年代區間的結果示意圖。請參照圖11A,以一單車研發公司的相關技術文件為例,利用本發明的技術文件分析方法與技術文件分析系統,分析該公司的上千筆技術文件並建立技術字詞之間的關聯性與標示技術群組的年代區間之後,可以獲得一圖像化的技術群組分布圖。圖IlB為根據本發明一實施例的各年代區間中的一技術字詞列表。請參照圖IlA與圖11B,上述單車研發公司的相關技術文件經分析後,可依技術字詞之間的關聯性分成六個字詞群組,而經由標示年代區間之後,可以獲知該公司的技術研發從二十世紀80年代初期的硬體結構(如固定裝置 (FIXING DEVICE)、手把系統(HANDLE STEM))演化到公元兩千年的控制系統(如碟煞(DISC BRAKE))。圖12為根據本發明一實施例的繪製技術發展軌跡示意圖。根據技術字詞群組之間的發生先後順序關係(例如文獻相關時間或文獻相互引用關係),可進一步的連結出技術字詞群組之間的演進關係,如圖12以國際專利分類號為基礎,對某特定單位或特定人士所有技術文件做進一步的分析,可發現技術文件分析結果顯現該特定單位或特定人士的技術發展,是由國際專利分類Al所標示的技術類型為發展源頭,分別演進出國際專利分類 A3、A2、A9與A7等研發方向。並且可由圖表中發現,其研發觸角於公元一九九四至一九九五年伸向出國際專利分類AlO與A8,而在公元一九九八年開始衍伸向國際專利分類Al 1。現有技術進行特定單位或特定人士的技術分析時,通常先從技術面與產品面作分析導向,同時需要依靠人力一一瀏覽相關文件資料或是影音文件,藉此找尋出關鍵的詞彙並且一一匯總。現有技術的分析方法不僅耗費人力與時間,而且因為人為導向,而多產生分析上的盲點,並欠缺客觀性,導致技術分析結果存在著不小的人為誤差與不確定性。相較於現有技術的人力分析大量技術文件,本發明的技術文件分析方法與技術文件分析系統,是
11利用自動化直接分析大量的技術文件,通過建立所篩選出來的技術字詞之間的關聯性,並標示年代區間,而可以快速圖表化技術文件背後所隱藏的技術發展軌跡,更近一步可以準確繪製未來技術發展方向。 雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何本領域技術人員,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的權利要求所界定的為準。
權利要求
1.一種技術文件分析方法,適用於分析多筆技術文字資料,其中每一所述技術文字資料分別包含一文獻資料,該方法包括進行一文字探勘,以分別從所述多筆技術文字資料,萃取出多個技術字詞,其中每一所述技術字詞分別對應至少一該技術文字資料;進行一字詞關聯性分析,以劃分所述多個技術字詞成多個技術群組; 根據組成每一所述技術群組的所述多個技術字詞,其所對應的所述多筆技術文字資料所分別包含的所述文獻資料,標示每一所述技術群組所對應的一年代區間;以及根據每一所述技術群組分別對應的該年代區間,繪製所述多筆技術文字資料的一技術發展軌跡。
2.如權利要求1所述的技術文件分析方法,其特徵在於,該文獻資料包括一文獻相關時間記錄、一文獻關鍵詞組、一文獻歸屬者、一文獻技術分類、一文獻作者群、一文獻相互引用關係或一文獻審核單位。
3.如權利要求2所述的技術文件分析方法,其特徵在於,該字詞關聯性分析是根據所述多個技術字詞所對應的至少一該技術文字資料所分別包含的該文獻資料而進行。
4.如權利要求2所述的技術文件分析方法,其特徵在於,該字詞關聯性分析包括 根據所述多個技術字詞所對應的所述多個技術文字資料的所述文獻相關時間或所述文獻相互引用關係,以獲得所述多個技術字詞彼此之間的一發生先後順序關係;進行一詞組出現頻率分析,以獲得所述多個技術字詞彼此之間的一字詞出現關係;以及根據所述多個技術字詞彼此之間的該發生先後順序關係與該字詞出現關係,劃分所述多個技術字詞成所述多個技術群組。
5.如權利要求4所述的技術文件分析方法,其特徵在於,劃分所述技術字詞成所述技術群組的方法包括因素分析法、集群分析法或自我組織法。
6.如權利要求4所述的技術文件分析方法,其特徵在於,該詞組出現頻率分析包括 計算所述多個技術字詞中,每兩所述技術字詞在所述多筆技術文字資料中的一共同出現頻率;計算所述多個技術字詞中,每兩所述技術字詞出現於同一該技術文字資料的一共同出現文字資料數;以及根據該共同出現頻率與該共同出現文字資料數,決定每兩該技術字詞之間的該字詞出現關係。
7.如權利要求2所述的技術文件分析方法,其特徵在於,每一所述技術文字資料的所述多個技術字詞包括該文獻相關時間記錄、該文獻關鍵詞組、該文獻歸屬者、該文獻技術分類、該文獻作者群或該文獻審核單位。
8.如權利要求1所述的技術文件分析方法,其特徵在於,每一所述技術文字資料是經由分別將多筆技術文件與多筆影音文件進行一純文字轉譯後所獲得。
9.如權利要求1所述的技術文件分析方法,其特徵在於,該文字探勘包括 進行一斷詞斷字分析,以從所述多筆技術文字資料中獲得多個候選字詞;以及進行一詞頻分析,以由所述多個候選字詞中篩選出所述多個技術字詞。
10.如權利要求9所述的技術文件分析方法,其特徵在於,該詞頻分析包括計算每一所述候選字詞於所述多筆技術文字資料中的一單一出現頻率; 計算每一所述候選字詞出現於所述多筆技術文字資料中的一單一出現文字資料數;以及根據一字詞出現門檻值以及每一所述候選字詞的該單一出現頻率與該單一出現文字資料數,由所述多個候選字詞中篩選出所述多個技術字詞。
11.一種技術文件分析系統,適用於分析多筆技術文字資料,其特徵在於,每一所述技術文字資料分別包含一文獻資料,該系統包括一文字探勘模塊,以分別從所述多筆技術文字資料,萃取出多個技術字詞,其中每一所述技術字詞分別對應至少一該技術文字資料;一字詞關聯性分析模塊,以劃分所述多個技術字詞成多個技術群組; 一年代標示模塊,以根據組成每一所述技術群組的所述多個技術字詞,其所對應的所述多筆文字資料所分別包含的所述文獻資料,標示每一所述技術群組所對應的一年代區間;以及一技術軌跡繪製模塊,以根據每一所述技術群組分別對應的該年代區間,繪製所述多筆技術文字資料的一技術發展軌跡。
12.如權利要求11所述的技術文件分析系統,其特徵在於,該文獻資料包括一文獻相關時間記錄、一文獻關鍵詞組、一文獻歸屬者、一文獻技術分類、一文獻作者群或一文獻審核單位。
13.如權利要求12所述的技術文件分析系統,其特徵在於,該字詞關聯性分析模塊是根據所述多個技術字詞所對應的至少一該技術文字資料所分別包含的該文獻資料而劃分所述多個技術字詞。
14.如權利要求12所述的技術文件分析系統,其特徵在於,該字詞關聯性分析模塊包括一順序分析模塊,以根據所述多個技術字詞所對應的所述多筆技術文字資料的所述文獻相關時間或所述文獻相互引用關係,以分析所述多個技術字詞彼此之間的一發生先後順序關係;一詞組頻率分析模塊,以分析所述多個技術字詞彼此之間的一字詞出現關係;以及一划分模塊,以根據所述多個技術字詞彼此之間的該發生先後順序關係與該字詞出現關係,劃分所述多個技術字詞成所述多個技術群組。
15.如權利要求14所述的技術文件分析系統,其特徵在於,劃分所述多個技術字詞成所述多個技術群組的方法包括因素分析法、集群分析法或自我組織法。
16.如權利要求14所述的技術文件分析系統,其特徵在於,該詞組頻率分析模塊包括 一共同出現頻率分析模塊,以計算所述多個技術字詞中,每兩所述技術字詞在所述多筆技術文字資料中的一共同出現頻率;一共同出現文字資料計數模塊,以計算所述多個技術字詞中,每兩所述技術字詞出現於同一該技術文字資料的一共同出現文字資料數;以及一關係決定模塊,根據該共同出現頻率與該共同出現文字資料數,決定每兩該技術字詞之間的該字詞出現關係。
17.如權利要求12所述的技術文件分析系統,其特徵在於,每一所述技術文字資料的所述多個技術字詞包括該文獻相關時間記錄、該文獻關鍵詞組、該文獻歸屬者、該文獻技術分類、該文獻作者群或該文獻審核單位。
18.如權利要求11所述的技術文件分析系統,還包括一轉譯模塊,以分別將多筆技術文件與多筆影音文件純文字轉譯成每一所述技術文字資料。
19.如權利要求11所述的技術文件分析系統,其特徵在於,該文字探勘模塊包括 一斷詞斷字分析模塊,以從所述多筆技術文字資料中獲得多個候選字詞;以及一詞頻分析模塊,以由所述多個候選字詞中篩選出所述多個技術字詞。
20.如權利要求19所述的技術文件分析系統,其特徵在於,該詞頻分析模塊包括一單一出現頻率分析模塊,計算每一所述候選字詞於所述多筆技術文字資料中的一單一出現頻率;一單一出現文字資料計數模塊,計算每一所述候選字詞出現於所述多筆技術文字資料中的一單一出現文字資料數;以及一字詞篩選模塊,根據一字詞出現門檻值以及每一所述候選字詞的該單一出現頻率與該單一出現文字資料數,由所述多個候選字詞中篩選出所述多個技術字詞。
全文摘要
本發明公開了一種技術文件分析方法和一種技術文件分析系統,適用於分析多筆技術文字資料,其中每一所述技術文字資料分別包含一文獻資料,該方法包括進行一文字探勘,以分別從所述多筆技術文字資料,萃取出多個技術字詞,其中每一所述技術字詞分別對應至少一該技術文字資料。進行一字詞關聯性分析,以劃分所述多個技術字詞成多個技術群組。根據組成每一所述技術群組的所述多個技術字詞,其所對應的所述多筆技術文字資料所分別包含的所述文獻資料,標示每一所述技術群組所對應的一年代區間。根據每一所述技術群組的原始資料分別對應該年代區間,繪製所述多筆技術文字資料的一技術發展軌跡。本發明可快速圖表化技術文件背後所隱藏的技術發展軌跡。
文檔編號G06F17/27GK102262639SQ20101019447
公開日2011年11月30日 申請日期2010年5月28日 優先權日2010年5月28日
發明者李沿儒 申請人:真理大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀