裁判文書的分段方法及裝置與流程
2023-06-16 04:51:51 1

本申請涉及文本處理技術領域,具體而言,涉及一種裁判文書的分段方法及裝置。
背景技術:
裁判文書是記載人民法院審理過程和結果的載體,也是人民法院確定和分配當事人實體權利與義務的惟一憑證。一份結構完整、要素齊全、邏輯嚴謹的裁判文書,既是當事人享有權利和負擔義務的憑證,也是上級人民法院監督下級人民法院民事審判活動的重要依據。
相關技術中,時常需要將裁判文書進行段落劃分以進行相關的數據分析。通常,將裁判文書段落劃分使用的技術是逐行匹配,首先將全文拆分成一行一行首尾連接的文本鍊表;其次將文本鍊表匹配現有的規則鍊表,其中,鍊表是一種線性表,但是並不會按線性的順序存儲數據,而是在每一個節點裡存到下一個節點的指針。文本鍊表和規則鍊表都是逐個匹配且匹配成功後跳轉到下一個匹配項,根據具體的匹配項輸出到對應的段落;由於使用的兩個鍊表做匹配且是單向向前匹配,如果前面的某處匹配失敗後,後續所有內容都匹配出問題。即段落劃分容易出現一處錯誤處處錯誤,這種嚴重連帶的錯誤。因此,導致裁判文書中段落劃分的準確性較低。
針對相關技術中裁判文書的段落劃分的準確性較低的問題,目前尚未提出有效的解決方案。
技術實現要素:
本申請的主要目的在於提供一種裁判文書的分段方法及裝置,以解決相關技術中裁判文書的段落劃分的準確性較低的問題。
為了實現上述目的,根據本申請的一個方面,提供了一種裁判文書的分段方法。該方法包括:對目標裁判文書進行分行處理,得到文書行集合,其中,文書行集合為對目標裁判文書進行分行處理後得到的多個文書行組成的集合;分別對文書行集合中的每個文書行進行分詞處理,得到多個分詞行集合,其中,多個分詞行集合分別為文書行集合中的每個文書行中的詞語組成的集合;根據多個分詞行集合分別對文書行集合中的每個文書行添加對應的段落標識;以及基於文書行集合中的每個文書行對應的段落標識對目標裁判文書進行分段處理。
進一步地,根據多個分詞行集合分別對文書行集合中的每個文書行添加對應的段落標識包括:將預設詞語詞性集合中的多個分詞行集合中的各個分詞行集合逐次與多個詞語詞性條件進行匹配;獲取多個分詞行集合中與多個詞語詞性條件匹配上的分詞行集合對應的文書行;以及對與多個詞語詞性條件匹配上的分詞行集合對應的文書行添加對應的段落標識。
進一步地,根據多個分詞行集合分別對文書行集合中的每個文書行添加對應的段落標識包括:將預設詞語詞性集合中的多個詞語詞性條件逐次與多個分詞行集合中的各個分詞行集合進行匹配;獲取多個分詞行集合中未與多個詞語詞性條件匹配上的分詞行集合對應的文書行,得到至少一個未標識文書行;在文書行集合中確定至少一個未標識文書行的上一個文書行對應的段落標識;以及將至少一個未標識文書行的上一個文書行對應的段落標識作為至少一個未標識文書行的段落標識。
進一步地,多個詞語詞性條件包括第一詞語詞性條件和第二詞語詞性條件,其中,第一詞語詞性條件為當前與多個分詞行集合進行匹配的條件,第二詞語詞性條件為在第一詞語詞性條件與多個分詞行集合匹配失敗的情況下,多個詞語詞性條件中下一個與多個分詞行集合進行匹配的條件,將預設詞語詞性集合中的多個詞語詞性條件逐次與多個分詞行集合中的各個分詞行集合進行匹配包括:將多個詞語詞性條件中的第一詞語詞性條件與多個分詞行集合中的各個分詞行集合進行匹配;判斷多個詞語詞性條件中的第一詞語詞性條件與多個分詞行集合中的各個分詞行集合是否匹配結束;如果多個詞語詞性條件中的第一詞語詞性條件與多個分詞行集合中的各個分詞行集合已匹配結束,將多個詞語詞性條件中的第二詞語詞性條件作為當前與多個分詞行集合中的各個分詞行集合進行匹配的條件;將多個詞語詞性條件中的第二詞語詞性條件與多個分詞行集合中的各個分詞行集合進行匹配。
進一步地,對目標裁判文書進行分行處理,得到文書行集合包括:確定目標裁判文書的格式類型;確定目標裁判文書的格式類型對應的換行符;以及根據目標裁判文書的格式類型對應的換行符進行分行處理,得到文書行集合。
進一步地,基於文書行集合中的每個文書行對應的段落標識對目標裁判文書進行分段處理包括:確定文書行集合中的每個文書行對應的段落標識中的每個段落標識;基於每個段落標識對目標裁判文書中的文書行進行段落劃分;以及將具有相同的段落標識的多個文書行合併為同一個段落。
為了實現上述目的,根據本申請的另一方面,提供了一種裁判文書的分段裝置。該裝置包括:第一處理單元,用於對目標裁判文書進行分行處理,得到文書行集合,其中,文書行集合為對目標裁判文書進行分行處理後得到的多個文書行組成的集合;第二處理單元,用於分別對文書行集合中的每個文書行進行分詞處理,得到多個分詞行集合,其中,多個分詞行集合分別為文書行集合中的每個文書行中的詞語組成的集合;添加單元,用於根據多個分詞行集合分別對文書行集合中的每個文書行添加對應的段落標識;以及第三處理單元,用於基於文書行集合中的每個文書行對應的段落標識對目標裁判文書進行分段處理。
進一步地,添加單元包括:第一匹配模塊,用於將預設詞語詞性集合中的多個詞語詞性條件逐次與多個分詞行集合中的各個分詞行集合進行匹配;第一獲取模塊,用於獲取多個分詞行集合中與多個詞語詞性條件匹配上的分詞行集合對應的文書行;以及添加模塊,用於對與多個詞語詞性條件匹配上的分詞行集合對應的文書行添加對應的段落標識。
進一步地,添加單元包括:第二匹配模塊,用於將預設詞語詞性集合中的多個詞語詞性條件逐次與多個分詞行集合中的各個分詞行集合進行匹配;第二獲取模塊,用於獲取多個分詞行集合中未與多個詞語詞性條件匹配上的分詞行集合對應的文書行,得到至少一個未標識文書行;第一確定模塊,用於在文書行集合中確定至少一個未標識文書行的上一個文書行對應的段落標識;以及第二確定模塊,用於將至少一個未標識文書行的上一個文書行對應的段落標識作為至少一個未標識文書行的段落標識。
進一步地,第一處理單元包括:第三確定模塊,用於確定目標裁判文書的格式類型;第四確定模塊,用於確定目標裁判文書的格式類型對應的換行符;以及處理模塊,用於根據目標裁判文書的格式類型對應的換行符進行分行處理,得到文書行集合。
通過本申請,採用以下步驟:對目標裁判文書進行分行處理,得到文書行集合,其中,文書行集合為對目標裁判文書進行分行處理後得到的多個文書行組成的集合;分別對文書行集合中的每個文書行進行分詞處理,得到多個分詞行集合,其中,多個分詞行集合分別為文書行集合中的每個文書行中的詞語組成的集合;根據多個分詞行集合分別對文書行集合中的每個文書行添加對應的段落標識;以及基於文書行集合中的每個文書行對應的段落標識對目標裁判文書進行分段處理,解決了相關技術中裁判文書的段落劃分的準確性較低的問題,根據文書行集合中的每個文書行對應的段落標識對目標裁判文書進行分段處理,進而達到了提升裁判文書段落劃分的準確性的效果。
附圖說明
構成本申請的一部分的附圖用來提供對本申請的進一步理解,本申請的示意性實施例及其說明用於解釋本申請,並不構成對本申請的不當限定。在附圖中:
圖1是根據本申請第一實施例的裁判文書的分段方法的流程圖;
圖2是根據本申請第二實施例的裁判文書的分段方法的流程圖;以及
圖3是根據本申請實施例的裁判文書的分段裝置的示意圖。
具體實施方式
需要說明的是,在不衝突的情況下,本申請中的實施例及實施例中的特徵可以相互組合。下面將參考附圖並結合實施例來詳細說明本申請。
為了使本技術領域的人員更好地理解本申請方案,下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分的實施例,而不是全部的實施例。基於本申請中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都應當屬於本申請保護的範圍。
需要說明的是,本申請的說明書和權利要求書及上述附圖中的術語「第一」、「第二」等是用於區別類似的對象,而不必用於描述特定的順序或先後次序。應該理解這樣使用的數據在適當情況下可以互換,以便這裡描述的本申請的實施例。此外,術語「包括」和「具有」以及他們的任何變形,意圖在於覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統、產品或設備不必限於清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或對於這些過程、方法、產品或設備固有的其它步驟或單元。
根據本申請的實施例,提供了一種裁判文書的分段方法。
圖1是根據本申請第一實施例的裁判文書的分段方法的流程圖。如圖1所示,該方法包括以下步驟:
步驟S101,對目標裁判文書進行分行處理,得到文書行集合,其中,文書行集合為對目標裁判文書進行分行處理後得到的多個文書行組成的集合。
為了提升裁判文書段落劃分的準確性,在本申請第一實施例的裁判文書的分段方法中,首先對目標裁判文書進行分行處理,得到的多個文書行,該多個文書行組成文書行集合。
優選地,為了提升對目標裁判文書分行處理的準確性,對目標裁判文書進行分行處理,得到文書行集合還可以通過以下步驟實現:確定目標裁判文書的格式類型;確定目標裁判文書的格式類型對應的換行符;以及根據目標裁判文書的格式類型對應的換行符進行分行處理,得到文書行集合。
例如,一篇目標裁判文書中的部分內容如下:
雲南省鎮雄縣人民法院
刑事判決書
(2015)鎮刑初字第150號
公訴機關雲南省鎮雄縣人民檢察院。
被告人徐某某,男。
因涉嫌犯盜竊罪於2014年12月22日被刑事拘留,2015年1月23日被逮捕。現羈押於鎮雄縣看守所。
雲南省鎮雄縣人民檢察院以鎮檢公訴刑訴(2015)80號起訴書指控被告人徐某某犯盜竊罪,於2015年3月30日向本院提起公訴。本院依法組成合議庭,於2015年4月18日公開開庭審理了本案。鎮雄縣人民檢察院指派代理檢察員潘勇出庭支持公訴,被告人徐某某到庭參加訴訟。現已審理終結。
根據上述的目標裁判文書中的部分內容確定出以上目標裁判文書的格式內容類型為文本類型,確定出文本類型對應的換行符,通過該換行符對目標裁判文書中的內容進行分行處理,得到多個文書行,如:第一文書行:雲南省鎮雄縣人民法院;第二文書行:刑事判決書;第三文書行:(2015)鎮刑初字第150號;第四文書行:公訴機關雲南省鎮雄縣人民檢察院;第五文書行:被告人徐某某,男;第六文書行:因涉嫌犯盜竊罪於2014年12月22日被刑事拘留,2015年1月23日被逮捕。現羈押於鎮雄縣看守所。第七文書行:雲南省鎮雄縣人民檢察院以鎮檢公訴刑訴(2015)80號起訴書指控被告人徐某某犯盜竊罪,於2015年3月30日向本院提起公訴。本院依法組成合議庭,於2015年4月18日公開開庭審理了本案。鎮雄縣人民檢察院指派代理檢察員潘勇出庭支持公訴,被告人徐某某到庭參加訴訟。現已審理終結。
步驟S102,分別對文書行集合中的每個文書行進行分詞處理,得到多個分詞行集合,其中,多個分詞行集合分別為文書行集合中的每個文書行中的詞語組成的集合。
文書行集合中的每個文書行包含有多個詞語,對每個文書行進行分詞處理,得到多個分詞行集合,每個文書行中的詞語組成的集合為分詞行集合。
例如,對上述例子中的多個文書行進行分詞處理,得到多個分詞行集合,如,第一分詞行集合為:雲南省,鎮雄縣,人民法院;第二分詞行集合為:刑事,判決書;第三分詞行集合為:(2015),鎮刑,初字,第150號;第四分詞行集合為:公訴機關,雲南省,鎮雄縣,人民檢察院;第五分詞行集合為:被告人,徐某某,男等等。
步驟S103,根據多個分詞行集合分別對文書行集合中的每個文書行添加對應的段落標識。
根據上述得到的多個分詞行集合分別對文書行集合中的每個文書行添加對應的段落標識。例如,根據第一分詞行集合對第一文書行添加對應的段落標識;根據第二分詞行集合對第二文書行添加對應的段落標識;根據第三分詞行集合對第三文書行添加對應的段落標識等等。
步驟S104,基於文書行集合中的每個文書行對應的段落標識對目標裁判文書進行分段處理。
可選地,在本申請第一實施例提供的裁判文書的分段方法中,基於文書行集合中的每個文書行對應的段落標識對目標裁判文書進行分段處理還可以通過以下步驟實現:確定文書行集合中的每個文書行對應的段落標識中的每個段落標識;基於每個段落標識對目標裁判文書中的文書行進行段落劃分;以及將具有相同的段落標識的多個文書行合併為同一個段落。
通過步驟S101至步驟S104,對每個文書行添加對應的段落標識,分段處理基於段落標識不受其它文書行影響,即每個文書行找歸屬段落都相對獨立,進而達到了提升裁判文書段落劃分的準確性。
綜上所述,本申請第一實施例提供的裁判文書的分段方法,通過對目標裁判文書進行分行處理,得到文書行集合,其中,文書行集合為對目標裁判文書進行分行處理後得到的多個文書行組成的集合;分別對文書行集合中的每個文書行進行分詞處理,得到多個分詞行集合,其中,多個分詞行集合分別為文書行集合中的每個文書行中的詞語組成的集合;根據多個分詞行集合分別對文書行集合中的每個文書行添加對應的段落標識;以及基於文書行集合中的每個文書行對應的段落標識對目標裁判文書進行分段處理,解決了相關技術中裁判文書的段落劃分的準確性較低的問題,根據文書行集合中的每個文書行對應的段落標識對目標裁判文書進行分段處理,進而達到了提升裁判文書段落劃分的準確性的效果。
圖2是根據本申請第二實施例的裁判文書的分段方法的流程圖。圖2可以作為圖1所示實施例的一種優選實施方式。如圖2所示,該方法包括以下步驟:
步驟S201,對目標裁判文書進行分行處理,得到文書行集合,其中,文書行集合為對目標裁判文書進行分行處理後得到的多個文書行組成的集合。
步驟S201同上述步驟S101,在此不再贅述。
步驟S202,分別對文書行集合中的每個文書行進行分詞處理,得到多個分詞行集合,其中,多個分詞行集合分別為文書行集合中的每個文書行中的詞語組成的集合。
步驟S202同上述步驟S102,在此不再贅述。
步驟S203,將預設詞語詞性集合中的多個詞語詞性條件逐次與多個分詞行集合中的各個分詞行集合進行匹配。
本申請第二實施例的裁判文書的分段方法中的詞語詞性集合是一個或多個詞語以及它們的詞性通過固定組合而成的條件,再由這樣的多個條件組合成的集合。例如,一個條件為:被告人/法律專業詞+張三/人名,則此條件表示匹配目標判決文書中的當事人被告人段落,其中,可以拆分兩個子條件,被告人+張三表示的是詞語條件,法律專業詞+人名表示的是詞性條件,這種包括兩種子條件的有序詞語及詞性的集合即為詞語詞性集合。
詞語詞性集合中包括多個詞語詞性條件。例如,第一詞語詞性條件為:被告人+姓名&法律專業詞+人名;第二詞語詞性條件為:本院+認為&動詞+名詞,等等。將上述例子中多個詞語詞性條件逐次與第一分詞行集合:雲南省,鎮雄縣,人民法院;第二分詞行集合:刑事,判決書;第三分詞行集合:(2015),鎮刑,初字,第150號;第四分詞行集合:公訴機關,雲南省,鎮雄縣,人民檢察院;第五分詞行集合:被告人,徐某某,男等中的各個分詞行集合進行匹配。
可選地,在本申請第二實施例的裁判文書的分段方法中,多個詞語詞性條件包括第一詞語詞性條件和第二詞語詞性條件,其中,第一詞語詞性條件為當前與多個分詞行集合進行匹配的條件,第二詞語詞性條件為在第一詞語詞性條件與多個分詞行集合匹配失敗的情況下,多個詞語詞性條件中下一個與多個分詞行集合進行匹配的條件,將預設詞語詞性集合中的多個詞語詞性條件逐次與多個分詞行集合中的各個分詞行集合進行匹配包括:將多個詞語詞性條件中的第一詞語詞性條件與多個分詞行集合中的各個分詞行集合進行匹配;判斷多個詞語詞性條件中的第一詞語詞性條件與多個分詞行集合中的各個分詞行集合是否匹配結束;如果多個詞語詞性條件中的第一詞語詞性條件與多個分詞行集合中的各個分詞行集合已匹配結束,將多個詞語詞性條件中的第二詞語詞性條件作為當前與多個分詞行集合中的各個分詞行集合進行匹配的條件;將多個詞語詞性條件中的第二詞語詞性條件與多個分詞行集合中的各個分詞行集合進行匹配。
例如,第一詞語詞性條件為:「被告人+姓名&法律專業詞+人名」;第二詞語詞性條件為:「本院+認為&動詞+名詞」,將「被告人+姓名&法律專業詞+人名」與多個分詞行集合中的各個分詞行集合進行匹配。如果匹配結束,將「本院+認為&動詞+名詞」與多個分詞行集合中的各個分詞行集合進行匹配。
步驟S204,獲取多個分詞行集合中與多個詞語詞性條件匹配上的分詞行集合對應的文書行。
例如,多個分詞行集合中的第五分詞行集合中的被告人,徐某某與上述的第一詞語詞性條件為:被告人+姓名&法律專業詞+人名匹配上,即被告人,徐某某對應的文書行為多個分詞行集合中的第五文書行。
步驟S205,對與多個詞語詞性條件匹配上的分詞行集合對應的文書行添加對應的段落標識。
例如,多個分詞行集合中的第五分詞行集合中的被告人,徐某某與上述的第一詞語詞性條件為:被告人+姓名&法律專業詞+人名匹配上,第一詞語詞性條件表示匹配目標判決文書中的當事人被告人段落,即對多個分詞行集合中的第五文書行添加當事人被告人段落的段落標識。
多個分詞行集合中的第二十分詞行集合中的本院,認為,與第二詞語詞性條件本院+認為&動詞+名詞匹配上,第二詞語詞性條件表示匹配目標判決文書中的本案認為段落,即對多個分詞行集合中的第二十文書行添加本案認為段落的段落標識。
需要說明的是,本申請第二實施例的裁判文書的分段方法中,選用詞語詞性集合對逐次與多個分詞行集合中的各個分詞行集合進行匹配。即使用詞語的條件逐次與多個分詞行集合中的各個分詞行集合進行匹配,又使用詞性的條件逐次與多個分詞行集合中的各個分詞行集合進行匹配,避免了有些詞有多種詞性,從而可能導致匹配出現錯誤的問題,例如公訴機關即屬於名詞又屬於法律專業詞,某一分詞行集合為公訴機關,指控,與第十詞語詞性條件:公訴機關+指控&法律專業詞+動詞匹配上。即確定出某一分詞行集合對應的文書行的段落標籤。即不再與第十一詞語詞性條件:公訴機關+指控&名詞+動詞進行匹配,避免了某一分詞行集合:公訴機關,指控對應多個不同的段落標籤,出現匹配錯誤的問題。
可選地,在本申請第二實施例的裁判文書的分段方法中,根據多個分詞行集合分別對文書行集合中的每個文書行添加對應的段落標識包括:將預設詞語詞性集合中的多個詞語詞性條件逐次與多個分詞行集合中的各個分詞行集合進行匹配;獲取多個分詞行集合中未與多個詞語詞性條件匹配上的分詞行集合對應的文書行,得到至少一個未標識文書行;在文書行集合中確定至少一個未標識文書行的上一個文書行對應的段落標識;以及將至少一個未標識文書行的上一個文書行對應的段落標識作為至少一個未標識文書行的段落標識。如果上一文書行也沒有段落標識,可以通過迭代向前查詢的方式,直至找到有段落標識的文書行。
例如,多個分詞行集合中的第二十一行分詞行集合中的詞語與所有詞語詞性條件都未匹配上,將多個分詞行集合中的第二十文書行的段落標識作為多個分詞行集合中的第二十一行文書行的段落標識。
步驟S206,基於文書行集合中的每個文書行對應的段落標識對目標裁判文書進行分段處理。
步驟S206同上述步驟S104,在此不再贅述。
本申請第二實施例提供的裁判文書的分段方法,通過對目標裁判文書進行分行處理,得到文書行集合,其中,文書行集合為對目標裁判文書進行分行處理後得到的多個文書行組成的集合;分別對文書行集合中的每個文書行進行分詞處理,得到多個分詞行集合,其中,多個分詞行集合分別為文書行集合中的每個文書行中的詞語組成的集合;將預設詞語詞性集合中的多個詞語詞性條件逐次與多個分詞行集合中的各個分詞行集合進行匹配;獲取多個分詞行集合中與多個詞語詞性條件匹配上的分詞行集合對應的文書行;以及對與多個詞語詞性條件匹配上的分詞行集合對應的文書行添加對應的段落標識;以及基於文書行集合中的每個文書行對應的段落標識對目標裁判文書進行分段處理,解決了相關技術中裁判文書的段落劃分的準確性較低的問題。根據文書行集合中的每個文書行對應的段落標識對目標裁判文書進行分段處理,進而達到了提升裁判文書段落劃分的準確性的效果。
需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計算機可執行指令的計算機系統中執行,並且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同於此處的順序執行所示出或描述的步驟。
本申請實施例還提供了一種裁判文書的分段裝置,需要說明的是,本申請實施例的裁判文書的分段裝置可以用於執行本申請實施例所提供的用於裁判文書的分段方法。以下對本申請實施例提供的裁判文書的分段裝置進行介紹。
圖3是根據本申請實施例的裁判文書的分段裝置的示意圖。如圖3所示,該裝置包括:第一處理單元10、第二處理單元20、添加單元30和第三處理單元40。
第一處理單元10,用於對目標裁判文書進行分行處理,得到文書行集合,其中,文書行集合為對目標裁判文書進行分行處理後得到的多個文書行組成的集合。
第二處理單元20,用於分別對文書行集合中的每個文書行進行分詞處理,得到多個分詞行集合,其中,多個分詞行集合分別為文書行集合中的每個文書行中的詞語組成的集合。
添加單元30,用於根據多個分詞行集合分別對文書行集合中的每個文書行添加對應的段落標識。
第三處理單元40,用於基於文書行集合中的每個文書行對應的段落標識對目標裁判文書進行分段處理。
本申請實施例提供的裁判文書的分段裝置,通過第一處理單元10對目標裁判文書進行分行處理,得到文書行集合,其中,文書行集合為對目標裁判文書進行分行處理後得到的多個文書行組成的集合;第二處理單元20分別對文書行集合中的每個文書行進行分詞處理,得到多個分詞行集合,其中,多個分詞行集合分別為文書行集合中的每個文書行中的詞語組成的集合;添加單元30根據多個分詞行集合分別對文書行集合中的每個文書行添加對應的段落標識;以及第三處理單元40基於文書行集合中的每個文書行對應的段落標識對目標裁判文書進行分段處理,解決了相關技術中裁判文書的段落劃分的準確性較低的問題,通過第三處理單元40基於文書行集合中的每個文書行對應的段落標識對目標裁判文書進行分段處理,進而達到了提升裁判文書段落劃分的準確性的效果。
可選地,在本申請實施例提供的裁判文書的分段裝置中,添加單元30包括:第一匹配模塊,用於將多個分詞行集合中的各個分詞行集合逐次與多個詞語詞性條件進行匹配;第一獲取模塊,用於獲取多個分詞行集合中與多個詞語詞性條件匹配上的分詞行集合對應的文書行;以及添加模塊,用於對與多個詞語詞性條件匹配上的分詞行集合對應的文書行添加對應的段落標識。
可選地,在本申請實施例提供的裁判文書的分段裝置中,添加單元30包括:第二匹配模塊,用於將預設詞語詞性集合中的多個詞語詞性條件逐次與多個分詞行集合中的各個分詞行集合進行匹配;第二獲取模塊,用於獲取多個分詞行集合中未與多個詞語詞性條件匹配上的分詞行集合對應的文書行,得到至少一個未標識文書行;第一確定模塊,用於在文書行集合中確定至少一個未標識文書行的上一個文書行對應的段落標識;以及第二確定模塊,用於將至少一個未標識文書行的上一個文書行對應的段落標識作為至少一個未標識文書行的段落標識。
可選地,在本申請實施例提供的裁判文書的分段裝置中,第一處理單元10包括:第三確定模塊,用於確定目標裁判文書的格式類型;第四確定模塊,用於確定目標裁判文書的格式類型對應的換行符;以及處理模塊,用於根據目標裁判文書的格式類型對應的換行符進行分行處理,得到文書行集合。
所述裁判文書的分段裝置包括處理器和存儲器,上述第一處理單元、第二處理單元、添加單元和第三處理單元等均作為程序單元存儲在存儲器中,由處理器執行存儲在存儲器中的上述程序單元來實現相應的功能。
處理器中包含內核,由內核去存儲器中調取相應的程序單元。內核可以設置一個或以上,通過調整內核參數來實現對裁判文書的準確分段。
存儲器可能包括計算機可讀介質中的非永久性存儲器,隨機存取存儲器(RAM)和/或非易失性內存等形式,如只讀存儲器(ROM)或快閃記憶體(flash RAM),存儲器包括至少一個存儲晶片。
本申請還提供了一種電腦程式產品,當在數據處理設備上執行時,適於執行初始化有如下方法步驟的程序代碼:對目標裁判文書進行分行處理,得到文書行集合,其中,文書行集合為對目標裁判文書進行分行處理後得到的多個文書行組成的集合;分別對文書行集合中的每個文書行進行分詞處理,得到多個分詞行集合,其中,多個分詞行集合分別為文書行集合中的每個文書行中的詞語組成的集合;根據多個分詞行集合分別對文書行集合中的每個文書行添加對應的段落標識;以及基於文書行集合中的每個文書行對應的段落標識對目標裁判文書進行分段處理。
需要說明的是,對於前述的各方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本申請並不受所描述的動作順序的限制,因為依據本申請,某些步驟可以採用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬於優選實施例,所涉及的動作和模塊並不一定是本申請所必須的。
在上述實施例中,對各個實施例的描述都各有側重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關描述。
在本申請所提供的幾個實施例中,應該理解到,所揭露的裝置,可通過其它的方式實現。例如,以上所描述的裝置實施例僅僅是示意性的,例如所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如多個單元或組件可以結合或者可以集成到另一個系統,或一些特徵可以忽略,或不執行。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位於一個地方,或者也可以分布到多個網絡單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。
另外,在本申請各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以採用硬體的形式實現,也可以採用軟體功能單元的形式實現。
顯然,本領域的技術人員應該明白,上述的本申請的各模塊或各步驟可以用通用的計算裝置來實現,它們可以集中在單個的計算裝置上,或者分布在多個計算裝置所組成的網絡上,可選地,它們可以用計算裝置可執行的程序代碼來實現,從而,可以將它們存儲在存儲裝置中由計算裝置來執行,或者將它們分別製作成各個集成電路模塊,或者將它們中的多個模塊或步驟製作成單個集成電路模塊來實現。這樣,本申請不限制於任何特定的硬體和軟體結合。
以上所述僅為本申請的優選實施例,並不用於限制本申請,對於本領域的技術人員來說,本申請可以有各種更改和變化。凡在本申請的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本申請的保護範圍之內。