新四季網

一種基於邏輯和統計技術的數據元識別方法

2023-05-24 12:25:11 1

一種基於邏輯和統計技術的數據元識別方法
【專利摘要】本發明涉及數據識別【技術領域】,具體公開了一種基於邏輯和統計技術的數據元識別方法;包括:客戶端提交待測試語料的數據處理請求,用計算機統計數據元庫中數據的長度特徵以及數據元結構的詞法規則,根據數據的長度特徵對數據進行分類,分別總結不同分類下的數據元結構的詞法規則,用詞法分析工具對待測試語料中的數據進行分詞及詞性標註處理,並用長度特徵和詞法規則從測試語料中抽取出候選數據元;統計候選數據元在測試語料中的分布情況,將候選數據元逐步劃分到數據元和非數據元兩個類別;分別用過濾子串算法、短語搭配檢驗並結合詞彙活躍度進行過濾,再計算領域相關度,再將短語按領域相關度從大到小排序。本發明解決了數據元識別自動化的問題。
【專利說明】一種基於邏輯和統計技術的數據元識別方法

【技術領域】
[0001] 本發明涉及數據識別【技術領域】,尤其是涉及一種基於邏輯和統計技術的數據元識 別方法。

【背景技術】
[0002] 數據元(Data Flement):又稱數據類型,通過定義、標識、表示以及允許值等一系 列屬性描述的數據單元。在一定語境下,通常用於構建一個語義正確、獨立且無歧義的特定 概念語義的信息單元,是用來對行業數據進行統一的名、型、值的規範及分類;目的是建立 滿足各種類型的行業領域資料庫建設和資料庫整合,以及數據集成、交換、共享、服務和應 用對數據標準化的需要。
[0003] 6W原則是諾貝爾文學獎獲得者英國作家吉卜林提出的思考問題、解決問題的方 法,S卩"Where (什麼地方)、When (什麼時間)、Who (什麼人)、Which (針對什麼)、What (做 了什麼,及如何做)、Why (為什麼)"。任何一件事情、一個問題,都無法逃脫這六個"W",若 弄通了這六個"W",對於這件事情或這個問題,才可以徹底清楚明白。
[0004] 國家在2005年發布了"數據元標準化的基本原則與方法"科學數據共享工程技術 標準(SDS/T2132-2004)。很多行業依據該標準啟動了相關業務領域數據元標準的建設工 作。分析目前已發布的數據元標準,多為邏輯層面的數據元,目前數據元標準化只能是人工 依據數據結構或業務邏輯通過人工定義的方法進行分析和定義,而數據元標準化的基礎就 是要先得到數據元,現有技術只能人工進行識別數據元,然後根據人工識別的結果進行人 工數據元分類,至今還沒有自動化的識別方法。如何有效地利用計算機自動識別獲取自由 文本中的數據元,目前尚無有效地解決方案。


【發明內容】

[0005] 本發明所解決的技術問題是提供一種基於邏輯和統計技術的數據元識別方法,本 方法解決了數據元識別自動化的問題,為數據元後期的分類打下了良好的基礎。本發明在 自由文本數據元提取和數據元提取後的分類處理過程中,採用6W原則對提取的數據元進 行時間類、位置類、組織類、對象類、活動類和特徵類定義,增強了對自由文本中的數據元抽 取、定義和命名的可靠性與適用性。本發明為行業領域建立了適用通用和專用的數據元目 錄,即數據元字典,為行業數據元標準體系建設提供了依據。
[0006] 為了解決上述技術問題,本發明提供了一種基於邏輯和統計技術的數據元識別方 法;包括:
[0007] 步驟一:數據元語言規則的獲取:所述客戶端提交待測試語料的數據處理請求, 依據數據元庫中的數據為基礎,用計算機統計數據元庫中所述數據的長度特徵以及數據元 結構的詞法規則,根據所述統計的結果總結所述數據的長度特徵,根據所述數據的所述長 度特徵對所述數據進行分類,然後分別總結不同分類下的數據元結構的詞法規則,用詞法 分析工具對所述待測試語料中的所述數據進行分詞及詞性標註處理,並用所述長度特徵和 所述詞法規則從測試語料中抽取出候選數據元;
[0008] 步驟二:概念數據元識別:統計所述候選數據元在所述測試語料中的分布情況, 根據所述候選數據元的所述分布情況構造樣本空間,基於FCM聚類算法的框架下,將所述 候選數據元逐步劃分到數據元和非數據元兩個類別中,完成所述數據元的自動識別;
[0009] 步驟三:邏輯數據元和應用數據元識別:用過濾子串算法去除抽取的所述候選數 據元中結構不完整的數據元候選項,用短語搭配檢驗,刪除所述候選項中搭配不正確的詞 串,並結合詞彙活躍度過濾包含活躍詞彙的固定搭配,再計算領域相關度,將過濾後的短語 按所述領域相關度從大到小進行排序,排序結果即為邏輯數據元和應用數據元識別的最終 結果。
[0010] 優選的,所述步驟一中,所述數據的長度特徵以及數據元結構的詞法規則是指不 同長度的所述數據的出現頻次、不同詞性所述數據的出現頻次以及不同詞性序列所述數據 的出現頻次。
[0011] 更加優選的,所述步驟一中,所述分詞及詞性標註採用詞法分析工具ICTCLAS進 行分詞及詞性標註。
[0012] 更加優選的,所述步驟一中,所述數據元庫是指收錄了需要進行所述數據識別的 相關領域的數據元的庫,所述數據元庫中的每條數據都以三元組的形式記錄,所述三元組 包括數據元庫中的一條數據元,所述此條數據元的長度,即所述此條數據元中包含的單詞 數,以及所述此條數據元的詞性組合序列。
[0013] 更加優選的,所述步驟一中,所述數據元結構的詞法規則包括詞性序列特徵和構 詞特徵。
[0014] 更加優選的,所述步驟一中,所述數據元結構的詞法規則是基於所述數據元的長 度特徵進行分類的。
[0015] 更加優選的,所述步驟一中,基於所述數據的所述長度特徵對所述數據元結構的 詞法規則進行分類時,所述分類包括四個部分:單詞型的概念數據元,即只包含1個單詞的 數據元;短詞組型的邏輯數據元和應用數據元,即包含2或3個單詞的數據元;包中詞組型 邏輯和應用數據元,即包含4?6個單詞的數據元;長詞組型的邏輯數據元和應用數據元, 即包含大於6個單詞的數據元。
[0016] 更加優選的,所述步驟一中,抽取出所述候選數據元時,所述候選數據元包括候選 概念數據元、候選邏輯數據元和候選應用數據元。
[0017] 更加優選的,所述步驟一中,抽取出所述候選數據元時,所述候選概念數據元抽取 的候選項包括:n表示名詞、V表示動詞、a表示形容詞、b表示區別詞、1表示習用語、d表示 副詞、m表示數詞以及q表示量詞。
[0018] 更加優選的,所述步驟一中,抽取出所述候選數據元時,所述候選邏輯數據元和所 述候選應用數據元的抽取規則包括:二詞三詞的詞法模式以及四詞五詞六詞的抽取規則, 二i司i司法模式包f舌 n+n、v+n、n+v、v+v、a+n、b+n、a+v、d+v、m+n、n+a 司i司法模式包f舌: n+n+n、n+v+n、v+v+n、v+n+n、n+n+v、d+v+n、a+n+n、v+n+v、n+v+v、a+v+n ;四詞五 i司六 i司白勺手由 取規則包括:規則一 :4?6個單詞的所述數據元候選項中不得包含如下性質的詞語表 示標點、r表示代詞、g表示語素、1表示習用語、z表示狀態詞、X表示非語素詞、s表示處 所詞、〇表示擬聲詞、e表示嘆詞、y表示語氣詞以及i表示成語;規則二:4?6個單詞的所 述數據元候選項中不得以C表示連詞、U表示助詞以及k表示後接成分作為詞首;規則三: 4?6個單詞的所述數據元候選項中不得以c表示連詞、f表示方位詞以及h表示前接成分 作為詞尾;規則四:4?6個單詞的所述數據元候選項中至少有一個詞屬於η表示名詞、V表 示動詞、q表示量詞、1表示習用語、j表示簡稱略語或k表示後接成分。
[0019] 更加優選的,所述步驟二中,在所述FCM聚類算法採用TFIDF準則度量每個所述候 選數據元,分別選擇所述TFIDF值中最大的樣本作為正例集合的初始類中心點,選擇所述 TFIDF值中最小的樣本作為負例集合的初始類中心;並同時採用向量空間模型作為特徵表 示方法,將所述向量空間模型和所述TFIDF值相乘得到的結果作為領域相關度的最終評價 結果。
[0020] 更加優選的,所述步驟二中,在所述FCM聚類算法計算之前,先將所述FCM聚類算 法優選規則進行設置,預設聚類類別數c、模糊加權指數m以及收斂閾值ε,所述收斂閾值 ε的是第k次迭代和第k+Ι次迭代類中心向量的誤差I IVk-Vk-Il I彡ε時,則停止迭代計 算。
[0021] 更加優選的,所述步驟二中,所述聚類類別數c設為2,所述模糊加權指數m設為 2,所述收斂閾值ε為Ie'
[0022] 更加優選的,所述步驟三中,所述過濾字串算法是指在信息抽取任務中,以詞串的 獨立概率作為衡量指標,當父串和子串同時出現在抽取結果中時,考察子串的結構是否完 整,或子串和父串是否重疊,為每個所述子串尋找所述語料中出現的最短父串,根據所述子 串與所述父串之間的關係來判斷所述子串是否獨立存在,進而判斷是否該刪除所述考察子 串,當判斷每條候選項的結構不完整時,刪除不合格的破碎子串。
[0023] 更加優選的,所述步驟三中,所述短語搭配是檢驗短語中詞語搭配是否合適,分別 給互信息和活躍度加入一個閾值,將所述互信息和所述活躍度加入閾值後求和作為最終判 斷標準,從短語列表中剔除結構不穩定的候選項,所述結構不穩定的候選項包括短語內部 詞語之間的搭配不合理以及短語中包含活躍度較高的詞彙;所述互信息指詞語之間的搭配 程度,所述活躍度指詞語的活躍度。
[0024] 更加優選的,所述步驟三中,所述領域相關度是基於詞頻分布變化基礎對候選項 與專業領域的相關程度進行對比,通過候選項在每篇文檔中出現頻次的分布方差反映所 述候選項在每篇文檔中的變化程度,結合TFIDF方法體現所述候選項在整個語料中的覆蓋 量,評估出所述候選項與專業領域知識的關聯程度。
[0025] 更加優選的,所述步驟三中,所述領域相關度計算公式為:
[0026] DR(t) = tf-idf⑴· σ⑴;其中,所述tf-idf⑴根據TFIDF方法計算,所述 〇 (t)為方差。
[0027] 更加優選的,所述步驟三中,所述結構不完整的候選項指不具備獨立存在的意義、 結構不完整的破碎子串。
[0028] 更加優選的,在所述步驟二和所述步驟三之後,按照6W原則對識別出的概念數據 元、邏輯數據元和應用數據元進行分類分析,並將分析結果輸出給所述客戶端。
[0029] 其中,所述數據元包括概念數據元、邏輯數據元和應用數據元,其中:概念數據元 屬高度抽象的最小概念定義,如:井、時間、原油、產量;邏輯數據元屬實例化賦予明確意義 的數據元,類似資料庫實體屬性或數據項,如:井號、生產日期、原油產量;應用數據元是對 數據的明確語義表達,如:油井每日原油產量,它可以離開任何數據結構對數據進行精確表 達。邏輯數據元和應用數據元都可以通過概念數據元進行表達。在數據建模過程中,首要 任務就是確定邏輯數據元,然後從邏輯數據元中分析出純概念數據元,本案稱其為數據元 素,並依據分析結果建立數據元素之間的聯繫,進而得到數據元素之間的語義網狀結構,用 於對數據元的準確定義,並繁衍出用於數據語義描述的應用數據元。
[0030] 其中,所述數據元庫是指收錄了需要進行數據元識別的相關領域的數據元的庫, 該數據元庫中的每個條目都以三元組的形式記錄,記為〈Ti,Len (Ti),POS (Ti) >,其中Ti表 示數據元庫中第i條數據元;Len(Ti)表示第i條數據元的長度,即該條數據元中包含的單 詞數;POS (Ti)表示第i條數據元的詞性組合序列。
[0031] 其中,所述詞法分析工具ICTCLAS是中科院計算所研製的,該工具中使用的詞性 標註集為北大漢語文本詞性標註標記集。ICTCLAS可通過網絡免費獲取,並在其相關文檔中 附有北大漢語文本詞性標註標記集。
[0032] 其中,所述FCM聚類算法即模糊C均值聚類算法(Fuzzy C-Means,FCM),該算法是 對自變量的一個約束優化處理,通過初始化類中心或者隸屬度矩陣、方程迭代,直到使得目 標函數最小化。在FCM算法中,各類中心的初始位置和屬性是隨機選取的,若初始類中心與 實際的類中心十分接近,則迭代次數很小,快速收斂於實際類中心。反之,則會消耗大量的 聚類時間。
[0033] 其中,現有的過濾字串算法主要從父串出發,刪除與父串具有相同詞頻或相差 K-頻次的子串。由於公共破碎子串與父串之間詞頻差異較大,這些方法在識別由公共子串 引起的錯誤時,效果並不理想。如何在刪除普通破碎子串的同時,也能夠過濾掉公共破碎子 串,目前還沒有理想的方法。
[0034] 其中,現有的檢驗詞語之間的搭配程度可以使用互信息作為度量標準,檢驗詞語 活躍度可以使用詞語活躍度計算公式現有技術中,只能單獨考察這兩方面中的一方面對短 語搭配的影響。
[0035] 其中,所述TFIDF(term frequency-inverse document frequency)是一種統計方 法,用以評估一字詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。
[0036] 其中,所述數據元的長度指包含在數據元中的單詞數。概念數據元是指最基本的 數據元,即為對象、特性、活動中的一個,邏輯數據元是指在基本數據元的基礎上加入修飾 的特徵詞,即由對象、特性、活動中的兩兩構成,而應用數據元是指有完整的場景描述的數 據元,即由對象、特性、活動三者共同構成。數據元的最小長度為1,也就是數據元中僅包含 1個單詞,即概念數據元,概念數據元為單詞型的。例如:"油井"僅由1個單詞構成,屬於概 念數據元(單詞型)。邏輯和應用數據元包含兩個及更多的單詞,是詞組型的,詞組型數據 元的長度是大於1的,例如:"油井深度"經分析後可拆分為兩個單詞"油井"和"深度",因 此長度為2。
[0037] 其中,所述向量空間模型(VSM :Vector Space Model)把對文本內容的處理簡化 為向量空間中的向量運算,並且它以空間上的相似度表達語義的相似度,直觀易懂。具體 步驟包括:①將候選概念數據元作為輸入數據;②使用TFIDF準則度量每個候選樣本,分別 選擇TFIDF值最大的樣本作為正例集合的初始類中心點,選擇值最小的樣本作為負例集合 的初始類中心,由正例和負例的初始類中心點構成初始化類中心矩陣V(O);預設誤差閡值 ε,且ε>〇;設迭代次數k = 0;③對Vxi E X,根據歐氏距離計算該樣本對各類的隸 屬程度;若dik = I |xi-vk| I = 0,則設uik = 1,且令uir = 0(r關k);④根據FCM目標函 數,更新類中心矩陣,記為V(k+1);⑤如果||V(k)-V(k+l)|| < ε,則停止迭代;否則,令k =k+Ι,並跳至步驟2 ;⑥返回類中心矩陣V(k)。
[0038] 本發明與現有技術相比,具有如下有益效果:
[0039] 本方法解決了數據元識別自動化的問題,為數據元後期的分類打下了良好的基 礎。本發明在自由文本數據元提取和數據元提取後的分類處理過程中,採用6W原則對提取 的數據元進行時間類、位置類、組織類、對象類、活動類和特徵類定義,增強了對自由文本中 的數據元抽取、定義和命名的可靠性與適用性。本發明為行業領域建立了適用通用和專用 的數據元目錄,即數據元字典,為行業數據元標準體系建設提供了依據。

【專利附圖】

【附圖說明】
[0040] 圖1示例性地示出了基於邏輯和統計技術的數據元識別方法流程示意圖;
[0041] 圖2示例性地示出了概念數據元的識別流程示意圖;
[0042] 圖3示例性地示出了邏輯數據元和應用數據元的識別流程示意圖。

【具體實施方式】
[0043] 為了更好地理解本發明所解決的技術問題、所提供的技術方案,以下結合附圖及 實施例,對本發明進行進一步詳細說明。此處所描述的具體實施例僅用以解釋本發明的實 施,但並不用於限定本發明。
[0044] 在優選的實施例中,圖1示例性地示出了一種基於邏輯和統計技術的數據元識別 方法流程圖;包括:
[0045] 整個數據元識別方法可以劃分為三個模塊,分別為數據元語言規則獲取模塊、概 念數據元識別模塊(單詞型)以及邏輯和應用數據元識別模塊(詞組型)。(1)數據元語 言規則獲取模塊:以數據元庫中的數據為基礎,用計算機統計數據元庫中所述數據的長度 特徵以及數據元結構的詞法規則,根據所述統計的結果總結所述數據的長度特徵,根據長 度特徵對數據元進行分類,然後分別總結不同分類下的數據元結構的詞法規則,用詞法分 析工具對測試預料進行分詞及詞性標註處理,並用所述長度特徵和所述詞法規則從測試語 料中抽取出候選數據元;(2)概念數據元(單詞型)識別模塊:統計候選項在語料中的分布 數據,利用數據元在語料中分布的局部信息來構造特徵空間,在FCM算法的框架下,將候選 項逐步劃分到數據元和非數據元這兩個類別中,實現數據元的自動識別和標註;(3)邏輯 和應用數據元(詞組型)抽取模塊:由於使用的語言規則比較寬鬆,接納了更多非名詞性的 詞彙和短語,因此在抽取出的候選項中會存在很多噪聲數據。在該模塊中,將會使用過濾子 串算法去除其中結構不完整的候選項;利用短語搭配結構檢驗,刪除其中搭配不正確的詞 串,結合詞彙活躍度過濾那些包含活躍詞彙的固定搭配;最後計算領域相關度,將過濾後的 短語按相關度從大到小排序,排序結果即為邏輯數據元和應用數據元識別的最終結果。 [0046] 最後,綜合概念數據元、邏輯和應用數據元的識別結果即為數據元識別的最終結 果。
[0047] 具體的實施例中:
[0048] 文本分詞及詞性標註:本方法中凡是涉及到需要對自由文本進行分詞及詞性標註 工作的,都採用中科院計算所的詞法分析工具ICTCLAS進行分詞並對所有條目進行了詞性 標註,該工具中使用的詞性標註集為北大漢語文本詞性標註標記集。ICTCLAS可通過網絡 http://ictclas. org免費獲取,在其相關文檔中附有北大漢語文本詞性標註標記集。
[0049] 語言規則獲取模塊:數據元庫中的每個條目都以三元組的形式記錄,記為〈Ti, Len(Ti), POS (Ti) >,其中Ti表示數據元庫中第i條數據元;Len (Ti)表示第i條數據元的 長度,即該條數據元中包含的單詞數;POS(Ti)表示第i條數據元的詞性組合序列。例如: 數據元"壓力"、"井口壓力"、"測試壓力"和"地層測試井口壓力"的記錄如表1中所示。
[0050] 表1、數據元庫中記錄示例
[0051]

【權利要求】
1. 一種基於邏輯和統計技術的數據元識別方法,其特徵在於,包括: 步驟一:數據元語言規則的獲取:所述客戶端提交待測試語料的數據處理請求,依據 數據元庫中的數據為基礎,用計算機統計數據元庫中所述數據的長度特徵W及數據元結構 的詞法規則,根據所述統計的結果總結所述數據的長度特徵,根據所述數據的所述長度特 徵對所述數據進行分類,然後分別總結不同分類下的數據元結構的詞法規則,用詞法分析 工具對所述待測試語料中的所述數據進行分詞及詞性標註處理,並用所述長度特徵和所述 詞法規則從測試語料中抽取出候選數據元; 步驟二;概念數據元識別:統計所述候選數據元在所述測試語料中的分布情況,根據 所述候選數據元的所述分布情況構造樣本空間,基於FCM聚類算法的框架下,將所述候選 數據元逐步劃分到數據元和非數據元兩個類別中,完成所述數據元的自動識別; 步驟H ;邏輯數據元和應用數據元識別:用過濾子串算法去除抽取的所述候選數據元 中結構不完整的數據元候選項,用短語搭配檢驗,刪除所述候選項中搭配不正確的詞串,並 結合詞彙活躍度過濾包含活躍詞彙的固定搭配,再計算領域相關度,將過濾後的短語按所 述領域相關度從大到小進行排序,排序結果即為邏輯數據元和應用數據元識別的最終結 果。
2. 根據權利要求1所述的基於邏輯和統計技術的數據元識別方法,其特徵在於,所述 步驟一中,所述數據的長度特徵W及數據元結構的詞法規則是指不同長度的所述數據的出 現頻次、不同詞性所述數據的出現頻次W及不同詞性序列所述數據的出現頻次。
3. 根據權利要求1所述的基於邏輯和統計技術的數據元識別方法,其特徵在於,所述 步驟一中,所述分詞及詞性標註採用詞法分析工具ICTCLAS進行分詞及詞性標註。
4. 根據權利要求1所述的基於邏輯和統計技術的數據元識別方法,其特徵在於,所述 步驟一中,所述數據元庫是指收錄了需要進行所述數據識別的相關領域的數據元的庫,所 述數據元庫中的每條數據都元組的形式記錄,所述H元組包括數據元庫中的一條數據 元,所述此條數據元的長度,即所述此條數據元中包含的單詞數,W及所述此條數據元的詞 性組合序列。
5. 根據權利要求1所述的基於邏輯和統計技術的數據元識別方法,其特徵在於,所述 步驟一中,所述數據元結構的詞法規則是基於所述數據元的長度特徵進行分類的。
6. 根據權利要求1所述的基於邏輯和統計技術的數據元識別方法,其特徵在於,所述 步驟一中,基於所述數據的所述長度特徵對所述數據元結構的詞法規則進行分類時,所述 分類包括四個部分;單詞型的概念數據元,即只包含1個單詞的數據元;短詞組型的邏輯數 據元和應用數據元,即包含2或3個單詞的數據元;包中詞組型邏輯和應用數據元,即包含 4?6個單詞的數據元;長詞組型的邏輯數據元和應用數據元,即包含大於6個單詞的數據 J L 〇
7. 根據權利要求1所述的基於邏輯和統計技術的數據元識別方法,其特徵在於,所述 步驟一中,抽取出所述候選數據元時,所述候選邏輯數據元和所述候選應用數據元的抽取 規則包括;二詞H詞的詞法模式W及四詞五詞六詞的抽取規則,二詞詞法模式包括n+n、 v+n、n+v、V+V、a+n、b+n、a+v、d+v、m+n、n+a 己詞詞法模式包括:n+n+n、n+v+n、v+v+n、 v+n+n、n+n+v、d+v+n、a+n+n、v+n+v、n+v+v、a+v+n ;四詞五詞六詞的抽取規則包括;規則一: 4?6個單詞的所述數據元候選項中不得包含如下性質的詞語;W表示標點、r表示代詞、g 表示語素、1表示習用語、Z表示狀態詞、X表示非語素詞、s表示處所詞、o表示擬聲詞、e表 示嘆詞、y表示語氣詞W及i表示成語;規則二;4?6個單詞的所述數據元候選項中不得 W C表示連詞、U表示助詞W及k表示後接成分作為詞首;規則H ;4?6個單詞的所述數據 元候選項中不得W C表示連詞、f表示方位詞W及h表示前接成分作為詞尾;規則四;4? 6個單詞的所述數據元候選項中至少有一個詞屬於n表示名詞、V表示動詞、q表示量詞、1 表示習用語、j表示簡稱略語或k表示後接成分。
8. 根據權利要求1所述的基於邏輯和統計技術的數據元識別方法,其特徵在於,所述 步驟二中,所述聚類類別數C設為2,所述模糊加權指數m設為2,所述收斂闊值e為le-3。
9. 根據權利要求1所述的基於邏輯和統計技術的數據元識別方法,其特徵在於,所述 步驟H中,所述短語搭配是檢驗短語中詞語搭配是否合適,分別給互信息和活躍度加入一 個闊值,將所述互信息和所述活躍度加入闊值後求和作為最終判斷標準,從短語列表中剔 除結構不穩定的候選項,所述結構不穩定的候選項包括短語內部詞語之間的搭配不合理W 及短語中包含活躍度較高的詞彙;所述互信息指詞語之間的搭配程度,所述活躍度指詞語 的活躍度。
10. 根據權利要求1所述的基於邏輯和統計技術的數據元識別方法,其特徵在於,所述 步驟H中,所述領域相關度是基於詞頻分布變化基礎對候選項與專業領域的相關程度進行 對比,通過候選項在每篇文檔中出現頻次的分布方差反映所述候選項在每篇文檔中的變化 程度,結合TFIDF方法體現所述候選項在整個語料中的覆蓋量,評估出所述候選項與專業 領域知識的關聯程度。
【文檔編號】G06F17/27GK104346379SQ201310330181
【公開日】2015年2月11日 申請日期:2013年7月31日 優先權日:2013年7月31日
【發明者】譚遠華, 朱平, 楊雪 申請人:克拉瑪依紅有軟體有限責任公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀