新四季網

一種基於深度學習的公司名成分抽取系統和方法與流程

2023-09-20 21:46:50 2


本發明涉及一種數據處理方法,更具體的,涉及一種基於深度學習的公司名成分抽取系統和方法。



背景技術:

根據《企業名稱登記管理規定》第七條第一款和第二款的規定,公司名(企業名稱)主要由以下四個部分構成:商號或者字號、行業、組織形式以及所在地的行政區劃名稱。現有的公司名成分抽取系統都是採用的基於規則的形式,利用規則抽取公司名中的各個成分。這種傳統的方法存在下列問題:

1)規則難以正確覆蓋全部的公司名形式,個人簡歷中的公司名書寫方式因人而異,從而同一公司名會有很多不同的形式。

2)規則之間容易發生衝突,比如某些公司名中商號是一種行政區劃名稱,此時提取商號的規則可能會與提取行政區劃的規則衝突。

3)人工提取規則的成本很高,需要擁有足夠的專業知識以及觀察大量的不同形式的公司名。

4)由於基於規則的方法會依賴大量的外部數據(如全國的行政區劃、公司組織形式),規則抽取的速度較慢。

由於個人在書寫公司名時並不一定會書寫企業的註冊名稱,所以同一公司名在表現形式上會存在多種形式。如果根據規則去抽取公司名的組成成分,會花費大量的成本去構建規則,並且會出現規則覆蓋率低和規則衝突的情況,使得抽取成分的準確率不高;基於規則的抽取還會依靠大量的外部數據,使得抽取過程耗時較長,在大規模的應用場景下其效率顯得不足。



技術實現要素:

本發明為了克服單一依賴規則抽取公司名成分時效率和準確率不足的問題,提出一種基於深度學習的公司名成分抽取方法。該方法通過訓練長短時記憶(LSTM)循環神經網絡模型,直接對輸入公司名的各個成分進行標註,無需依賴外部數據,無需對公司名各個成分進行規則的制定。

為實現上述目的,本發明提供了一種基於深度學習的公司名成分抽取方法,該方法包括如下步驟:

步驟1,採集公司名並人工標註其各個成分;

步驟2,將所述公司名的文本信息以及標註信息轉化為向量的形式作為長短期記憶(LSTM)模型的輸入;

步驟3,根據所述步驟2中標註的向量訓練所述LSTM模型,將公司名向量輸入訓練後的LSTM模型,輸出標註結果;

步驟4,將所述LSTM模型輸出的所述標註結果轉化為公司名的各個成分並輸出。

更具體的,所述步驟1具體包括:

採集公司名,將採集到的公司名分詞,然後按公司名的成分對分詞後的結果進行各個部分的人工標註。

更具體的,所述步驟2具體包括:將所述公司名的文本信息以及標註信息按詞典映射轉化成LSTM可以處理的向量數據,並作為LSTM模型的輸入。

更具體的,所述步驟3具體包括:根據標註的向量訓練LSTM模型,以公司名向量作為訓練後的LSTM模型的輸入,通過所述訓練後的LSTM模型判斷出公司名向量中的各個字、詞或標點的分類,提取出公司名的各個成分,並進行各成分的標註,輸出標註結果。

根據本發明的另一方面,還提供了一種基於深度學習的公司名成分抽取系統,該系統包括:

數據採集和標註模塊,採集公司名並人工標註其各個成分;

數據預處理模塊,將所述公司名的文本信息以及標註信息轉化為向量的形式作為LSTM模型的輸入;

模型訓練模塊,根據標註的向量訓練LSTM模型,將公司名向量輸入訓練後的LSTM模型,輸出標註結果;

標註結果處理模塊,將所述LSTM模型輸出的所述標註結果轉化為公司名的各個成分並輸出。

更具體的,所述數據採集和標註模塊具體用於:

採集公司名,將採集到的公司名分詞,然後按公司名的成分對分詞後的結果進行各個部分的人工標註。

更具體的,其特徵在於,所述數據預處理模塊具體用於:將所述公司名的文本信息以及標註信息按詞典映射轉化成LSTM可以處理的向量數據,並作為LSTM模型的輸入。

更具體的,所述模型訓練模塊具體用於:根據標註的向量訓練LSTM模型,以公司名向量作為訓練後的LSTM模型的輸入,通過所述訓練後的LSTM模型判斷出公司名向量中的各個字、詞或標點的分類,提取出公司名的各個成分,並進行各成分的標註,輸出標註結果。

本發明基於神經網絡模型LSTM,訓練深度學習中常用的長短時記憶(LSTM)循環神經網絡模型,以公司名作為輸入,輸出公司名的各個組成成分。相對於傳統的基於規則的方式,由於不需要人工構建規則以及依賴外部數據,該方法能大大的提高公司名成分提取的準確率和效率。

本發明的附加方面和優點將在下面的描述部分中給出,部分將從下面的描述中變得明顯,或通過本發明的實踐了解到。

附圖說明

本發明的上述和/或附加的方面和優點從結合下面附圖對實施例的描述中將變得明顯和容易理解,其中:

圖1示出了根據本發明一種基於深度學習的公司名成分抽取方法流程圖;

圖2示出了根據本發明一種基於深度學習的公司名成分抽取系統框圖。

具體實施方式

為了能夠更清楚地理解本發明的上述目的、特徵和優點,下面結合附圖和具體實施方式對本發明進行進一步的詳細描述。需要說明的是,在不衝突的情況下,本申請的實施例及實施例中的特徵可以相互組合。

在下面的描述中闡述了很多具體細節以便於充分理解本發明,但是,本發明還可以採用其他不同於在此描述的方式來實施,因此,本發明的保護範圍並不受下面公開的具體實施例的限制。

為了更好的說明本發明的方案,下面將結合說明書附圖進行說明。

圖1示出了根據本發明一種基於深度學習的公司名成分抽取方法流程圖。

如圖1所示,根據本發明的一種基於深度學習的公司名成分抽取方法,該方法包括如下步驟:

步驟1,採集公司名並人工標註其各個成分。

具體來說,首先,採集公司名,將採集到的公司名進行分詞處理,然後按公司名的成分對分詞後的結果人工標註為商號或者字號、行業、組織形式以及所在地的行政區劃名稱四個部分,將與這四個部分以外的部分標註為無關部分。

步驟2,將所述公司名的文本信息以及標註信息轉化為向量的形式作為長短期記憶(LSTM)模型的輸入。

舉例來說,將所述公司名的文本信息以及標註信息按詞典映射轉化成長短期記憶LSTM(Long Short-Term Memory)模型可以處理的向量數據,並作為LSTM模型的輸入。

所述詞典映射表為一個二維矩陣,其中矩陣中的每一個行向量代表一個字或者詞,而字或者詞與行向量的對應關係是在構建詞典映射表時所設定的 ,通過詞典映射表將待處理的字、詞或者標點符號轉化成LSTM可以處理的向量數據。本發明不限於此,也可以利用其它自然語言處理方法將公司名的文本信息以及標註信息轉化為向量的形式。

步驟3,根據所述步驟2中標註的向量訓練所述LSTM模型,將公司名向量輸入訓練後的LSTM模型,輸出標註結果。

更具體的,所述步驟3具體包括:根據標註的向量訓練LSTM模型,以公司名向量作為訓練後的LSTM模型的輸入,通過所述訓練後的LSTM模型判斷出公司名向量中的各個字、詞或標點的分類,提取出公司名的各個成分,並進行各成分的標註,輸出標註結果。

步驟4,將所述LSTM模型輸出的所述標註結果轉化為公司名的各個成分並輸出。

根據本發明的一個實施例,對按照上述方法訓練好的LSTM模型進行應用。

首先將需要提取的公司名轉化為公司名向量;將公司名向量通過訓練好的LSTM模型,得到標註向量;最後將標註向量轉化為公司名的各個成分。

圖2示出了根據本發明一種基於深度學習的公司名成分抽取系統框圖。

如圖2所示,本發明基於深度學習的公司名成分抽取系統,包括:

數據採集和標註模塊,採集公司名並人工標註其各個成分。

具體來說,首先,採集公司名,將採集到的公司名進行分詞分詞處理,然後按公司名的成分對分詞後的結果人工標註為商號或者字號、行業、組織形式以及所在地的行政區劃名稱四個部分,將與這四個部分以外的部分標註為無關部分。

數據預處理模塊,將所述公司名的文本信息以及標註信息轉化為向量的形式作為LSTM模型的輸入。

舉例來說,該模塊將所述公司名的文本信息以及標註信息按詞典映射轉化成LSTM可以處理的向量數據,並作為LSTM模型的輸入。

所述詞典映射表為一個二維矩陣,其中矩陣中的每一個行向量代表一個字或者詞,而字或者詞與行向量的對應關係是在構建詞典映射表時所設定的 ,通過詞典映射表將待處理的字、詞或者標點符號轉化成LSTM可以處理的向量數據。本發明不限於此,也可以利用其它自然語言處理方法將公司名的文本信息以及標註信息轉化為向量的形式。

模型訓練模塊,根據標註的向量訓練LSTM模型,將公司名向量輸入訓練後的LSTM模型,輸出標註結果。

更具體的,該模型訓練模塊根據標註的向量訓練LSTM模型,以公司名向量作為訓練後的LSTM模型的輸入,通過所述訓練後的LSTM模型判斷出公司名向量中的各個字、詞或標點的分類,提取出公司名的各個成分,並進行各成分的標註,輸出標註結果。

標註結果處理模塊,將所述LSTM模型輸出的所述標註結果轉化為公司名的各個成分並輸出。

本發明不再使用現有技術中通用的利用規則提取公司名成分的方式,而利用深度學習的方法訓練提取公司名成分的長短期記憶(LSTM)循環神經網絡模型,對輸入的公司名直接得到標註的結果。相對於傳統的基於規則的方式,由於不需要人工構建規則以及依賴外部數據,該方法能大大的提高公司名成分提取的準確率和效率。

以上所述僅為本發明的優選實施例而已,並不用於限制本發明,對於本領域的技術人員來說,本發明可以有各種更改和變化。凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護範圍之內。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀