一種基於深度學習的公司名成分抽取系統和方法與流程
2023-09-20 21:46:50 2

本發明涉及一種數據處理方法,更具體的,涉及一種基於深度學習的公司名成分抽取系統和方法。
背景技術:
根據《企業名稱登記管理規定》第七條第一款和第二款的規定,公司名(企業名稱)主要由以下四個部分構成:商號或者字號、行業、組織形式以及所在地的行政區劃名稱。現有的公司名成分抽取系統都是採用的基於規則的形式,利用規則抽取公司名中的各個成分。這種傳統的方法存在下列問題:
1)規則難以正確覆蓋全部的公司名形式,個人簡歷中的公司名書寫方式因人而異,從而同一公司名會有很多不同的形式。
2)規則之間容易發生衝突,比如某些公司名中商號是一種行政區劃名稱,此時提取商號的規則可能會與提取行政區劃的規則衝突。
3)人工提取規則的成本很高,需要擁有足夠的專業知識以及觀察大量的不同形式的公司名。
4)由於基於規則的方法會依賴大量的外部數據(如全國的行政區劃、公司組織形式),規則抽取的速度較慢。
由於個人在書寫公司名時並不一定會書寫企業的註冊名稱,所以同一公司名在表現形式上會存在多種形式。如果根據規則去抽取公司名的組成成分,會花費大量的成本去構建規則,並且會出現規則覆蓋率低和規則衝突的情況,使得抽取成分的準確率不高;基於規則的抽取還會依靠大量的外部數據,使得抽取過程耗時較長,在大規模的應用場景下其效率顯得不足。
技術實現要素:
本發明為了克服單一依賴規則抽取公司名成分時效率和準確率不足的問題,提出一種基於深度學習的公司名成分抽取方法。該方法通過訓練長短時記憶(LSTM)循環神經網絡模型,直接對輸入公司名的各個成分進行標註,無需依賴外部數據,無需對公司名各個成分進行規則的制定。
為實現上述目的,本發明提供了一種基於深度學習的公司名成分抽取方法,該方法包括如下步驟:
步驟1,採集公司名並人工標註其各個成分;
步驟2,將所述公司名的文本信息以及標註信息轉化為向量的形式作為長短期記憶(LSTM)模型的輸入;
步驟3,根據所述步驟2中標註的向量訓練所述LSTM模型,將公司名向量輸入訓練後的LSTM模型,輸出標註結果;
步驟4,將所述LSTM模型輸出的所述標註結果轉化為公司名的各個成分並輸出。
更具體的,所述步驟1具體包括:
採集公司名,將採集到的公司名分詞,然後按公司名的成分對分詞後的結果進行各個部分的人工標註。
更具體的,所述步驟2具體包括:將所述公司名的文本信息以及標註信息按詞典映射轉化成LSTM可以處理的向量數據,並作為LSTM模型的輸入。
更具體的,所述步驟3具體包括:根據標註的向量訓練LSTM模型,以公司名向量作為訓練後的LSTM模型的輸入,通過所述訓練後的LSTM模型判斷出公司名向量中的各個字、詞或標點的分類,提取出公司名的各個成分,並進行各成分的標註,輸出標註結果。
根據本發明的另一方面,還提供了一種基於深度學習的公司名成分抽取系統,該系統包括:
數據採集和標註模塊,採集公司名並人工標註其各個成分;
數據預處理模塊,將所述公司名的文本信息以及標註信息轉化為向量的形式作為LSTM模型的輸入;
模型訓練模塊,根據標註的向量訓練LSTM模型,將公司名向量輸入訓練後的LSTM模型,輸出標註結果;
標註結果處理模塊,將所述LSTM模型輸出的所述標註結果轉化為公司名的各個成分並輸出。
更具體的,所述數據採集和標註模塊具體用於:
採集公司名,將採集到的公司名分詞,然後按公司名的成分對分詞後的結果進行各個部分的人工標註。
更具體的,其特徵在於,所述數據預處理模塊具體用於:將所述公司名的文本信息以及標註信息按詞典映射轉化成LSTM可以處理的向量數據,並作為LSTM模型的輸入。
更具體的,所述模型訓練模塊具體用於:根據標註的向量訓練LSTM模型,以公司名向量作為訓練後的LSTM模型的輸入,通過所述訓練後的LSTM模型判斷出公司名向量中的各個字、詞或標點的分類,提取出公司名的各個成分,並進行各成分的標註,輸出標註結果。
本發明基於神經網絡模型LSTM,訓練深度學習中常用的長短時記憶(LSTM)循環神經網絡模型,以公司名作為輸入,輸出公司名的各個組成成分。相對於傳統的基於規則的方式,由於不需要人工構建規則以及依賴外部數據,該方法能大大的提高公司名成分提取的準確率和效率。
本發明的附加方面和優點將在下面的描述部分中給出,部分將從下面的描述中變得明顯,或通過本發明的實踐了解到。
附圖說明
本發明的上述和/或附加的方面和優點從結合下面附圖對實施例的描述中將變得明顯和容易理解,其中:
圖1示出了根據本發明一種基於深度學習的公司名成分抽取方法流程圖;
圖2示出了根據本發明一種基於深度學習的公司名成分抽取系統框圖。
具體實施方式
為了能夠更清楚地理解本發明的上述目的、特徵和優點,下面結合附圖和具體實施方式對本發明進行進一步的詳細描述。需要說明的是,在不衝突的情況下,本申請的實施例及實施例中的特徵可以相互組合。
在下面的描述中闡述了很多具體細節以便於充分理解本發明,但是,本發明還可以採用其他不同於在此描述的方式來實施,因此,本發明的保護範圍並不受下面公開的具體實施例的限制。
為了更好的說明本發明的方案,下面將結合說明書附圖進行說明。
圖1示出了根據本發明一種基於深度學習的公司名成分抽取方法流程圖。
如圖1所示,根據本發明的一種基於深度學習的公司名成分抽取方法,該方法包括如下步驟:
步驟1,採集公司名並人工標註其各個成分。
具體來說,首先,採集公司名,將採集到的公司名進行分詞處理,然後按公司名的成分對分詞後的結果人工標註為商號或者字號、行業、組織形式以及所在地的行政區劃名稱四個部分,將與這四個部分以外的部分標註為無關部分。
步驟2,將所述公司名的文本信息以及標註信息轉化為向量的形式作為長短期記憶(LSTM)模型的輸入。
舉例來說,將所述公司名的文本信息以及標註信息按詞典映射轉化成長短期記憶LSTM(Long Short-Term Memory)模型可以處理的向量數據,並作為LSTM模型的輸入。
所述詞典映射表為一個二維矩陣,其中矩陣中的每一個行向量代表一個字或者詞,而字或者詞與行向量的對應關係是在構建詞典映射表時所設定的 ,通過詞典映射表將待處理的字、詞或者標點符號轉化成LSTM可以處理的向量數據。本發明不限於此,也可以利用其它自然語言處理方法將公司名的文本信息以及標註信息轉化為向量的形式。
步驟3,根據所述步驟2中標註的向量訓練所述LSTM模型,將公司名向量輸入訓練後的LSTM模型,輸出標註結果。
更具體的,所述步驟3具體包括:根據標註的向量訓練LSTM模型,以公司名向量作為訓練後的LSTM模型的輸入,通過所述訓練後的LSTM模型判斷出公司名向量中的各個字、詞或標點的分類,提取出公司名的各個成分,並進行各成分的標註,輸出標註結果。
步驟4,將所述LSTM模型輸出的所述標註結果轉化為公司名的各個成分並輸出。
根據本發明的一個實施例,對按照上述方法訓練好的LSTM模型進行應用。
首先將需要提取的公司名轉化為公司名向量;將公司名向量通過訓練好的LSTM模型,得到標註向量;最後將標註向量轉化為公司名的各個成分。
圖2示出了根據本發明一種基於深度學習的公司名成分抽取系統框圖。
如圖2所示,本發明基於深度學習的公司名成分抽取系統,包括:
數據採集和標註模塊,採集公司名並人工標註其各個成分。
具體來說,首先,採集公司名,將採集到的公司名進行分詞分詞處理,然後按公司名的成分對分詞後的結果人工標註為商號或者字號、行業、組織形式以及所在地的行政區劃名稱四個部分,將與這四個部分以外的部分標註為無關部分。
數據預處理模塊,將所述公司名的文本信息以及標註信息轉化為向量的形式作為LSTM模型的輸入。
舉例來說,該模塊將所述公司名的文本信息以及標註信息按詞典映射轉化成LSTM可以處理的向量數據,並作為LSTM模型的輸入。
所述詞典映射表為一個二維矩陣,其中矩陣中的每一個行向量代表一個字或者詞,而字或者詞與行向量的對應關係是在構建詞典映射表時所設定的 ,通過詞典映射表將待處理的字、詞或者標點符號轉化成LSTM可以處理的向量數據。本發明不限於此,也可以利用其它自然語言處理方法將公司名的文本信息以及標註信息轉化為向量的形式。
模型訓練模塊,根據標註的向量訓練LSTM模型,將公司名向量輸入訓練後的LSTM模型,輸出標註結果。
更具體的,該模型訓練模塊根據標註的向量訓練LSTM模型,以公司名向量作為訓練後的LSTM模型的輸入,通過所述訓練後的LSTM模型判斷出公司名向量中的各個字、詞或標點的分類,提取出公司名的各個成分,並進行各成分的標註,輸出標註結果。
標註結果處理模塊,將所述LSTM模型輸出的所述標註結果轉化為公司名的各個成分並輸出。
本發明不再使用現有技術中通用的利用規則提取公司名成分的方式,而利用深度學習的方法訓練提取公司名成分的長短期記憶(LSTM)循環神經網絡模型,對輸入的公司名直接得到標註的結果。相對於傳統的基於規則的方式,由於不需要人工構建規則以及依賴外部數據,該方法能大大的提高公司名成分提取的準確率和效率。
以上所述僅為本發明的優選實施例而已,並不用於限制本發明,對於本領域的技術人員來說,本發明可以有各種更改和變化。凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護範圍之內。