網站校對信息的建立方法及裝置與流程
2023-10-28 23:00:12 1
本發明涉及網際網路技術領域,特別是涉及一種網站校對信息的建立方法及裝置。
背景技術:
網站錯別字,顧名思義是指網站所有內容網頁出現的錯字和別字。網站錯別字的出現,原因是多方面的,其不良的影響或者危害也是不容忽視的。特別是政府網站,隨著一些政策性文件的出臺,錯別字識別已作為政府網站硬性的考核指標項。
政府網站錯別字識別的主要任務在於人物和職稱不對稱信息的查找,例如:某某人的職稱為副主任,若政府網站上展示成某某人為正主任,這種錯誤在政府行業是及其嚴重的錯誤,特別是對某人職稱的降低更是不允許出現的;而確定人物與職稱之間的關係是政府網站錯別字識別的前提。目前,在確定人物與職稱之間的關係時,通常是人工從各種網站內收集人物與職稱關係;但是,由於人物與職稱的信息發布渠道不統一,即人物與職稱關係分散在各種網頁中,需要人工在網際網路上隨機查找人物與職稱關係,導致確定的人物與職稱關係不全面、不準確。
技術實現要素:
有鑑於此,本發明提供的一種網站校對信息的建立方法及裝置,主要目的在於解決由於人物與職稱的信息發布渠道不統一,需要人工在網際網路上隨機查找人物與職稱關係,導致確定的人物與職稱關係不全面、不準確的問題。
為了解決上述問題,本發明主要提供如下技術方案:
一方面,本發明提供了一種網站校對信息的建立方法,該方法包括:
獲取預設網站內的內容頁面中的頁面內容;
將所述頁面內容拆分為句子,並對每個句子進行分詞;
從所述分詞中確定人物與職稱關係;
將所述人物與職稱關係保存到人物職稱庫,所述人物職稱庫用於存儲所述人物與職稱關係。
另一方面,本發明還提供一種網站校對信息的建立裝置,該裝置包括:
獲取單元,用於獲取預設網站內的內容頁面中的頁面內容;
拆分單元,用於將所述獲取單元獲取的所述頁面內容拆分為句子;
分詞單元,用於對所述拆分單元拆分的每個句子進行分詞;
確定單元,用於從所述分詞單元的所述分詞中確定人物與職稱關係;
保存單元,用於將所述確定單元確定的所述人物與職稱關係保存到人物職稱庫,所述人物職稱庫用於存儲所述人物與職稱關係。
藉由上述技術方案,本發明提供的技術方案至少具有下列優點:
本發明提供的網站校對信息的建立方法及裝置,獲取預設網站內的內容頁面中的頁面內容,將該些頁面內容拆分成句子,並對每個句子進行中文分詞,從該分詞中確定人物與職稱關係,將確定後的人物與職稱關係保存到人物職稱庫中,以該人物職稱庫中存儲的人物職稱關係為網站校對信息;與現有技術中人工確定人物與職稱關係相比,本發明能夠自動的、全面的分析出預設網站中各種頁面中存在的人物與職稱關係,由於預設網站均具有一定的權威性,因此確保了從預設網站中確定人物與職稱關係的準確性。
上述說明僅是本發明技術方案的概述,為了能夠更清楚了解本發明的技術手段,而可依照說明書的內容予以實施,並且為了讓本發明的上述和其它目的、特徵和優點能夠更明顯易懂,以下特舉本發明的具體實施方式。
附圖說明
通過閱讀下文優選實施方式的詳細描述,各種其他的優點和益處對於本領域普通技術人員將變得清楚明了。附圖僅用於示出優選實施方式的目的,而並不認為是對本發明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
圖1示出了本發明實施例提供的一種網站校對信息的建立方法的流程圖;
圖2示出了本發明實施例提供的一種確定人物與職稱關係的方法的流 程圖;
圖3示出了本發明實施例提供的一種預設網站的頁面示意圖;
圖4示出了本發明實施例提供的一種網站校對信息的建立裝置的組成框圖;
圖5示出了本發明實施例提供的另一種網站校對信息的建立裝置的組成框圖。
具體實施方式
下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現本公開而不應被這裡闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,並且能夠將本公開的範圍完整的傳達給本領域的技術人員。
本發明實施例提供一種網站校對信息的建立方法,如圖1所示,該方法包括:
101、獲取預設網站內的內容頁面中的頁面內容。
通常,網站中會包含多個頁面,而頁面中又分為內容頁面、導航頁面及列表頁面,人物與職稱一般會出現在內容頁面中,而不會出現在導航頁面或者列表頁面中,因此,本發明實施例中,獲取的是預設網站內的內容頁面中對應的頁面內容。
在發明實施例中,預設網站的個數是人為設置的,需要根據網站校對信息的實際需求進行設置,例如,可以設置預設網站的數量為8個;或者,設置預設網站的數量為12個等等。本發明實施例中,所述預設網站包含但不局限於以下內容,例如:人民日報、新華社、求是雜誌、解放軍報、光明日報、經濟日報、中央人民廣播電臺、中央電視臺、中國國際廣播電臺、中國日報、科技日報、中國紀檢監察報、工人日報、中國青年報、中國婦女報、農民日報、法制日報、中國新聞社、人民網、新華網、中國網絡電視臺和各地日報等由官方統一宣傳口徑的公眾媒體對應的官方網站。具體的,本發明實施例對預設網站的數量以及預設網站的具體內容不進行限定。
需要說明的是,在獲取預設網站內的內容頁面中的頁面內容時,獲取的預設官方網站內的頁面越多,獲取的頁面內容越全面,從而使得確定的人物與職稱關係越全面、越準確,進而在基於網站校對信息進行網站錯別字校對時準確率越高。
102、將所述頁面內容拆分為句子,並對每個句子進行分詞。
通常,內容頁面中的頁面內容是以段落為單位,因此,在步驟101獲取頁面內容之後,將獲取到的頁面內容首先拆分為段落,其次,在以段落為單位將頁面內容拆分為句子,並對拆分出的每個句子進行中文分詞。
在具體實施時,句子的結尾有逗號、句號、省略號、感嘆號等等,在對頁面內容拆分成句子時,以標點符號為界進行拆分。對拆後的每個句子進行中文分詞。示例性的,假設,其中一個句子為:「習近平抵達華盛頓開始對美國進行正式訪問」,對該句子進行中文分詞為:「習近平、抵達、華盛頓、開始、對、美國、進行、正式、訪問」。其中,有關中文分詞的具體實現方式,請參考現有技術中的相關實現,本發明實施例在此不再對中文分詞的實現過程進行贅述。以上僅為示例性的舉例,本發明實施例對具體的頁面內容不進行限定。
103、從所述分詞中確定人物與職稱關係。
在對句子進行分詞之後,分析分詞後的句子成分,確定出分詞中的主語、謂語、賓語等信息,確定人物與職稱關係。
104、將所述人物與職稱關係保存到人物職稱庫。
將步驟103確定的人物職稱關係保存到人物職稱庫中,該人物職稱庫用於存儲所述人物與職稱關係。當對網站進行校對網站內的錯別字時,從該人物職稱庫中獲取人物與職稱關係與網站中的人物與職稱關係進行匹配。
本發明實施例提供的網站校對信息的建立方法,獲取預設網站內的內容頁面中的頁面內容,將該些頁面內容拆分成句子,並對每個句子進行中文分詞,從該分詞中確定人物與職稱關係,將確定後的人物與職稱關係保存到人物職稱庫中,以該人物職稱庫中存儲的人物職稱關係為網站校對信息;與現有技術中人工確定人物與職稱關係相比,本發明實施例能夠自動 的、全面的分析出預設網站中各種頁面中存在的人物與職稱關係,由於預設網站均具有一定的權威性,因此確保了從預設網站中確定人物與職稱關係的準確性。
進一步的,作為對上述實施例的細化和擴展,步驟103從所述分詞中確定人物與職稱關係是校對網站錯別字的前提,是建立網站校對信息的核心。本發明實施例提供的一種確定人物與職稱關係的方法,如圖2所示,該方法包括:
201、基於隱馬爾可夫模型HMM提取所述分詞中的命名實體。
對句子執行分詞後,通過隱馬爾可夫模型(HiddenMarkovModel,HMM)提取分詞中的命名實體,其中,所述命名實體包含:人物、職稱、機構、地點。需要說明的是,在分詞中命名實體一般為特定的名詞,而介詞、動詞、感嘆詞、擬聲詞等不能作為命名實體。其中,有關HMM模型提取分詞中的命名實體的具體實現方式,請參考現有技術中的相關實現,本發明實施例在此不再對HMM模型進行贅述。
202、從所述命名實體中獲取人物、職稱以及人物與職稱對應的修飾與被修飾關係。
示例性的,假設分詞包括:「中國國家主席、習近平、於、10月、訪問、英國」,命名實體中的人物為:「習近平」,職稱為:「中國國家主席」,地點為:「英國」,其中,中國國家主席與習近平是修飾與被修飾的關係。以上僅為示例性的舉例,本發明實施例對命名實體中的具體內容不進行限定。
203、判斷按照所述人物與職稱對應的修飾與被修飾關係是否能夠確定所述人物與職稱關係。
若按照所述人物與職稱對應的修飾與被修飾關係能夠確定所述人物與職稱關係,則執行步驟204;若按照所述人物與職稱對應的修飾與被修飾關係不能夠確定所述人物與職稱關係,則執行步驟205。
204、基於所述人物與職稱對應的修飾與被修飾關係確定所述人物與職稱關係。
承由上述示例中,中國國家主席與習近平是修飾與被修飾的關係,可以確定人物與職稱之間的對應關係。
205、基於預設語法規則對所述人物和/或所述職稱所在的句子進行匹配,並確定所述人物與職稱關係。
對於一些人物與職稱對應的修飾與被修飾關係不能確定人物與職稱關係的,要獲取該人物或者職稱所在的整個句子,對該整個句子按照預設語法規則進行匹配,並確定該整個句子中的人物與職稱關係。其中預設語法規則是根據日常語法經驗設置的。示例性的,所述預設語法規則包含但不局限於以下內容,例如:某某人當選為某某職位,某某人決定某某職位由某某人擔任,或者某某職位補進了某某人等等,本發明實施例對預設語法規則的設置不進行具體限定。
進一步的,在獲取預設網站內的內容頁面中的頁面內容時,基於爬蟲程序獲取預設網站內的內容頁面中的頁面內容,在基於爬蟲程序獲取預設網站內的內容頁面中的頁面內容時,基於所述爬蟲程序的預置執行周期獲取所述預設網站內的內容頁面中的頁面內容。其中,預置執行周期是人為設置的,可以設置爬蟲程序的執行的預置執行周期,例如,設置爬蟲程序的開始執行時間為10:00,預置執行周期為10分鐘;或者設置爬蟲程序的開始執行時間為08:00,預置執行周期為20分鐘。本發明實施例對爬蟲程序開始執行的時間以及預置執行周期不進行具體限定。
基於所述爬蟲程序的預置執行周期獲取所述預設網站內的內容頁面中的頁面內容,在該預置執行周期內,爬蟲程序會重新獲取一次預設網站內的內容頁面中的頁面內容,其中,獲取的頁面內容可能是更新後的頁面內容;也可能不是更新後的頁面內容。
進一步的,基於爬蟲程序獲取預設網站內的內容頁面中的頁面內容時,具體包括:判斷該預設網站內的頁面是否為內容頁面,若該預設網站內的頁面是內容頁面,則基於爬蟲程序獲取該內容頁面中的所有頁面內容;若該預設網站內的頁面不是內容頁面,則分析並獲取該頁面中的所有網頁連結地址,基於該網頁連結地址進行頁面跳轉,並繼續執行判斷該預設網站內的頁面是否為內容頁面。在本發明實施例中,判斷該預設網站內的頁面是否為內容頁面的目的在於確定預設網站內的頁面可能出現人物與職稱關係的頁面,而將不可能存在人物與職稱關係的頁面進行過濾,能夠節省確定人物與職稱關係的時間。
示例性的,圖3示出了本發明實施例提供的一種預設網站的頁面示意 圖,如圖3所示,該網頁為列表網頁,其網頁內容中不可能出現人物與職稱之間的對應關係,繼續分析並獲取該頁面中的網頁連結地址,可獲取圖3所示的網頁連結地址1、網頁連結地址2、網頁連結地址3、網頁連結地址4,根據獲取的四個網頁連結地址進行網頁跳轉。圖3僅為示例性的舉例,本發明實施例對預設網站的頁面內容不進行限定。
進一步的,在將人物與職稱關係保存到人物職稱庫之前,將不同預設官方確定的人物與職稱關係進行合併,將合併後的不同預設網站確定的人物與職稱關係歸併,並保存到人物職稱庫中。將合併後的人物與職稱關係與人物職稱庫中的人物與職稱關係進行歸併,即當合併後的人物與職稱關係與人物職稱庫中的人物與職稱關係一致時,無需將合併後的人物與職稱關係保存到人物職稱庫;當合併後的人物與職稱關係與人物職稱庫中的人物與職稱關係不一致時,將合併後的人物與職稱關係保存到人物職稱庫;當合併後的人物與職稱關係未存在於人物職稱庫中時,將合併後的人物與職稱關係添加到人物職稱庫中。
根據上述方法實施例,下面提供一種裝置實施例,該裝置實施例與前述方法實施例對應,為便於閱讀,本裝置實施例不再對前述方法實施例中的細節內容進行逐一贅述,但應當明確,本實施例中的裝置能夠對應實現前述方法實施例中的全部內容。
進一步的,本發明實施例提供一種網站校對信息的建立裝置,如圖4所示,該裝置包括:
獲取單元41,用於獲取預設網站內的內容頁面中的頁面內容;
拆分單元42,用於將所述獲取單元41獲取的所述頁面內容拆分為句子;
分詞單元43,用於對所述拆分單元42拆分的每個句子進行分詞;
確定單元44,用於從所述分詞單元43的所述分詞中確定人物與職稱關係;
保存單元45,用於將所述確定單元44確定的所述人物與職稱關係保存到人物職稱庫,所述人物職稱庫用於存儲所述人物與職稱關係。
進一步的,如圖5所示,所述確定單元44包括:
提取模塊441,用於基於隱馬爾可夫模型HMM提取所述分詞中的命名 實體,所述命名實體包含:人物、職稱、機構、地點;
獲取模塊442,用於從所述提取模塊441提取的所述命名實體中獲取人物、職稱以及人物與職稱對應的修飾與被修飾關係;
判斷模塊443,用於判斷按照所述獲取模塊442獲取的所述人物與職稱對應的修飾與被修飾關係是否能夠確定人物與職稱關係;
確定模塊444,用於當所述判斷模塊443判斷按照所述人物與職稱對應的修飾與被修飾關係能夠確定人物與職稱關係時,基於所述人物與職稱對應的修飾與被修飾關係確定人物與職稱關係;
處理模塊445,用於當所述判斷模塊443判斷按照所述人物與職稱對應的修飾與被修飾關係不能夠確定人物與職稱關係時,基於預設語法規則對所述人物和/或所述職稱所在的句子進行匹配,並確定人物與職稱關係。
進一步的,所述獲取單元41,還用於基於爬蟲程序獲取預設網站內的內容頁面中的頁面內容。
進一步的,如圖5所示,所述獲取單元41包括:
判斷模塊411,用於判斷所述預設網站內的頁面是否為所述內容頁面;
處理模塊412,用於當所述判斷模塊411判斷所述預設網站內的頁面不是所述內容頁面時,獲取所述頁面內的網頁連結地址,基於所述網頁連結地址獲取對應的頁面,並重複執行判斷所述預設網站內的頁面是否為所述內容頁面;
獲取模塊413,用於當所述判斷模塊411判斷所述預設網站內的頁面是所述內容頁面時,基於所述爬蟲程序獲取所述內容頁面中的所述頁面內容。
進一步的,所述獲取單元41,還用於基於所述爬蟲程序的預置執行周期獲取所述預設網站內的內容頁面中的頁面內容。
進一步的,如圖5所示,所述裝置還包括:
合併單元46,用於在所述保存單元45將所述人物與職稱關係保存到人物職稱庫之前,將不同預設網站確定的所述人物與職稱關係進行合併;
所述保存單元45,還用於將所述合併單元46合併後的不同預設確定的 所述人物與職稱關係歸併,並保存到所述人物職稱庫。
本發明實施例提供的網站校對信息的建立裝置,獲取預設網站內的內容頁面中的頁面內容,將該些頁面內容拆分成句子,並對每個句子進行中文分詞,從該分詞中確定人物與職稱關係,將確定後的人物與職稱關係保存到人物職稱庫中,以該人物職稱庫中存儲的人物職稱關係為網站校對信息;與現有技術中人工確定人物與職稱關係相比,本發明實施例能夠自動的、全面的分析出預設網站中各種頁面中存在的人物與職稱關係,由於預設網站均具有一定的權威性,因此確保了從預設網站中確定人物與職稱關係的準確性。
所述網站校對信息的建立裝置包括處理器和存儲器,上述獲取單元、拆分單元、分詞單元、確定單元和保存單元等均作為程序單元存儲在存儲器中,由處理器執行存儲在存儲器中的上述程序單元來實現相應的功能。
處理器中包含內核,由內核去存儲器中調取相應的程序單元。內核可以設置一個或以上,通過調整內核參數來解決由於人物與職稱的信息發布渠道不統一,需要人工在網際網路上隨機查找人物與職稱關係,導致確定的人物與職稱關係不全面、不準確的問題。
存儲器可能包括計算機可讀介質中的非永久性存儲器,隨機存取存儲器(RAM)和/或非易失性內存等形式,如只讀存儲器(ROM)或快閃記憶體(flash RAM),存儲器包括至少一個存儲晶片。
本申請還提供了一種電腦程式產品,當在數據處理設備上執行時,適於執行初始化有如下方法步驟的程序代碼:獲取預設網站內的內容頁面中的頁面內容;將所述頁面內容拆分為句子,並對每個句子進行分詞;從所述分詞中確定人物與職稱關係;將所述人物與職稱關係保存到人物職稱庫,所述人物職稱庫用於存儲所述人物與職稱關係。
在本發明的上述實施例中,對各個實施例的描述都各有側重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關描述。
本領域內的技術人員應明白,本申請的實施例可提供為方法、系統、 或電腦程式產品。因此,本申請可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且,本申請可採用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限於磁碟存儲器、CD-ROM、光學存儲器等)上實施的電腦程式產品的形式。
本申請是參照根據本申請實施例的方法、設備(系統)、和電腦程式產品的流程圖和/或方框圖來描述的。應理解可由電腦程式指令實現流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些電腦程式指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數據處理設備的處理器以產生一個機器,使得通過計算機或其他可編程數據處理設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些電腦程式指令也可存儲在能引導計算機或其他可編程數據處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產生包括指令裝置的製造品,該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些電腦程式指令也可裝載到計算機或其他可編程數據處理設備上,使得在計算機或其他可編程設備上執行一系列操作步驟以產生計算機實現的處理,從而在計算機或其他可編程設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
在一個典型的配置中,計算設備包括一個或多個處理器(CPU)、輸入/輸出接口、網絡接口和內存。
存儲器可能包括計算機可讀介質中的非永久性存儲器,隨機存取存儲器(RAM)和/或非易失性內存等形式,如只讀存儲器(ROM)或快閃記憶體(flash RAM)。存儲器是計算機可讀介質的示例。
計算機可讀介質包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現信息存儲。信息可以是計算機可讀指令、數據結構、程序的模塊或其他數據。計算機的存儲介質的例子包括,但不限於相變內存(PRAM)、靜態隨機存取存儲器(SRAM)、動態隨機存取存儲器(DRAM)、其他類型的隨機存取存儲器(RAM)、只讀存儲器(ROM)、電可擦除可編程只讀存儲器(EEPROM)、快閃記憶體或其他內存技術、只讀光碟只讀存儲器(CD-ROM)、數字多功能光碟(DVD)或其他光學存儲、磁盒式磁帶,磁帶磁磁碟存儲或其他磁性存儲設備或任何其他非傳輸介質,可用於存儲可以被計算設備訪問的信息。按照本文中的界定,計算機可讀介質不包括暫存電腦可讀媒體(transitory media),如調製的數據信號和載波。
還需要說明的是,術語「包括」、「包含」或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下,由語句「包括一個……」限定的要素,並不排除在包括要素的過程、方法、商品或者設備中還存在另外的相同要素。
本領域技術人員應明白,本申請的實施例可提供為方法、系統或電腦程式產品。因此,本申請可採用完全硬體實施例、完全軟體實施例或結合軟體和硬體方面的實施例的形式。而且,本申請可採用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限於磁碟存儲器、CD-ROM、光學存儲器等)上實施的電腦程式產品的形式。
以上僅為本申請的實施例而已,並不用於限制本申請。對於本領域技術人員來說,本申請可以有各種更改和變化。凡在本申請的精神和原理之內所作的任何修改、等同替換、改進等,均應包含在本申請的權利要求範 圍之內。