一種網絡廣告的審核方法及系統與流程
2023-06-11 15:44:41 1

本發明涉及網絡廣告技術領域,尤其涉及一種網絡廣告的審核方法及系統。
背景技術:
網絡的高速發展為各大公司平臺帶來了大量的用戶,同時,網際網路廣告技術也逐漸的走向成熟,通過網絡將廣告信息傳遞給用戶的高科技廣告運作方式,其充分利用了網絡的高效和傳播廣泛的優勢,目前已成為網際網路公司最重要的盈利方式。由於在客戶商業廣告中存在大量商業化垃圾廣告和低俗內容,為了營造良好的網絡環境,部分商業廣告需要人工審核通過方可投放,廣告審核系統應運而生。
目前使用的廣告審核系統都是人工審核機制,根據指定的廣告審核規範人為的判定廣告的上下線,審核順序是按照廣告素材的提交時間作為審核先後順序進行審核的,沒有從廣告素材本身的內容出發進行審核排序,對於先投放後審核的廣告,可能廣告投放了很長時間才能審核到,大大提升了非法廣告投放的風險。
技術實現要素:
本發明的目的是提供一種網絡廣告的審核方法及系統,通過計算廣告素材的風險值,並優先選擇高風險值的廣告進行審核,來降低先投放後審核的方式存在的風險。
為達到上述目的,一方面,本發明實施例提供一種網絡廣告的審核方法,包括:
獲取待審核的網絡廣告的基本信息,所述基本信息包括URL連結、文案Ttxt以及圖片;其中,所述圖片包括文字圖片和/或二維碼圖片;
識別所述文字圖片中的文本Tpic,以及統計所述二維碼圖片的個數k;
通過網絡爬蟲提取出所述URL連結的目的地址中的文字內容Turl;
確定文本集T={Tpic,Turl,Ttxt}的風險值Tkscore;
確定圖片風險值Ikscore,具體通過公式計算,其中α為二維碼圖片的基礎風險值;
確定該網絡廣告的創意風險值Dk,具體通過公式計算;
根據確定出的創意風險值Dk對該網絡廣告進行審核。
優選的,所述計算文本集T={Tpic,Turl,Ttxt}的風險值Tkscore包括以下步驟:
將所述文本集T進行分詞處理,得到m個單詞的詞庫W={W1,W2,L,Wm};
確定每個單詞的風險值,具體通過公式Mi=Mj×sim(Wi,Pj)計算;其中,sim(Wi,Pj)為分詞得到的詞庫W中的單詞Wi與廣告規範中的敏感詞庫A中與Wi相似度最高的敏感詞Pj的相似度,Mj為敏感詞Pj的風險值;敏感詞庫A可表示為A={P1,P2,L,Pi,L,Pn};
對每個單詞的風險值進行求和,得到所述文本集T的風險值,具體通過以下公式計算:
優選的,所述識別所述文字圖片中的文本Tpic,以及統計所述二維碼圖片的個數k之前,還包括:
判定所述圖片為二維碼圖片或文字圖片。
優選的,所述識別所述文字圖片中的文本Tpic,以及統計所述二維碼圖片的個數k,包括:
逐一識別所述文本圖片,若識別出的文本Tpic為微信號或微博號,則將相應的文本圖片計入所述二維碼圖片的個數k中,而不將相應的文本Tpic加入所述文本集T;
逐一識別所述二維碼圖片,若識別出的二維碼為文字,則將識別出的文字作為文本Tpic加入所述文本集T,而不將相應的二維碼圖片計入所述二維碼圖片的個數k中;若識別出的二維碼為微信號或微博號,則將相應的二維碼圖片計入所述二維碼圖片的個數k中。
優選的,所述根據該網絡廣告的創意風險值Dk對該網絡廣告進行審核,包括:
優先選擇創意風險值Dk最高的網絡廣告進行審核;
若至少兩條網絡廣告的創意風險值同為最高,則優先選擇提交時間最早的網絡廣告進行審核。
另一方面,本發明提供一種網絡廣告的審核系統,包括:
素材獲取單元,獲取待審核的網絡廣告的基本信息,所述基本信息包括URL連結、文案Ttxt以及圖片;其中,所述圖片包括文字圖片和/或二維碼圖片;
圖片處理單元,用於識別所述文字圖片中的文本Tpic,以及統計所述二維碼圖片的個數k;
連結處理單元,用於通過網絡爬蟲提取出所述URL連結的目的地址中的文字內容Turl;
文本風險值計算單元,用於確定文本集T={Tpic,Turl,Ttxt}的風險值Tkscore;
圖片風險值計算單元,確定圖片風險值Ikscore,具體通過公式計算,其中α為二維碼圖片的基礎風險值;
創意風險值計算單元,用於確定該網絡廣告的創意風險值Dk,具體通過公式計算;
審核單元,用於根據確定出的創意風險值Dk對該網絡廣告進行審核。
優選的,所述文本風險值計算單元包括:
分詞子單元,用於將所述文本集T進行分詞處理,得到m個單詞的詞庫W={W1,W2,L,Wm};
單詞風險值計算子單元,用於確定每個單詞的風險值,具體通過公式Mi=Mj×sim(Wi,Pj)計算;其中,sim(Wi,Pj)為分詞得到的詞庫W中的單詞Wi與廣告規範中的敏感詞庫A中與Wi相似度最高的敏感詞Pj的相似度,Mj為敏感詞Pj的風險值;敏感詞庫A可表示為A={P1,P2,L,Pi,L,Pn};
求和子單元:用於對每個單詞的風險值進行求和,得到所述文本集T的風險值,具體通過以下公式計算:
優選的,所述圖片處理單元還用於:
在所述識別所述文字圖片中的文本Tpic,以及統計所述二維碼圖片的個數k之前,判定所述圖片為二維碼圖片或文字圖片。
優選的,所述圖片處理單元還用於:
逐一識別所述文本圖片,若識別出的文本Tpic為微信號或微博號,則將相應的文本圖片計入所述二維碼圖片的個數k中,而不將相應的文本Tpic加入所述文本集T;
逐一識別所述二維碼圖片,若識別出的二維碼為文字,則將識別出的文字作為文本Tpic加入所述文本集T,而不將相應的二維碼圖片計入所述二維碼圖片的個數k中;若識別出的二維碼為微信號或微博號,則將相應的二維碼圖片計入所述二維碼圖片的個數k中。
優選的,所述審核單元包括:
風險值對比子單元,用於優先選擇創意風險值Dk最高的網絡廣告進行審核;
提交時間對比子單元,用於當至少兩條網絡廣告的創意風險值同為最高時,優先選擇提交時間最早的網絡廣告進行審核。
上述技術方案具有如下有益效果:
通過:獲取廣告信息,所述廣告信息包括URL連結、文案Ttxt以及圖片;識別所述圖片中的文本Tpic和/或二維碼圖片的個數k;通過網絡爬蟲提取出所述URL連結的目的地址中的文字內容Turl;計算文本集T={Tpic,Turl,Ttxt}的風險值以及圖片風險值;計算該廣告的創意風險值;根據該廣告的創意風險值Dk進行審核,可以根據廣告信息計算其風險值,並優先處理風險值高的廣告,降低了未經審核的非法廣告的投放風險,降低了廣告供應平臺可能的經濟損失。
附圖說明
為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
圖1是本發明實施例一種網絡廣告的審核方法的流程圖;
圖2是本發明實施例一種網絡廣告的審核系統的結構圖;
圖3是本實施例中文本風險值計算單元的結構示意圖;
圖4為本實施例中審核單元的結構示意圖。
具體實施方式
傳統的廣告審核系統是基於廣告主對於廣告的提交時間進行審核排序的,即廣告創建時間越早則審核的越早,但對於社交網絡廣告的粉絲經濟業務的先投放後審核機制而言,如果投放出去的廣告涉嫌非法,同時該廣告的審核在審核任務流中優先級在最後,則該條廣告在推廣到較大範圍後才會被發現,引起客戶投訴,損害公司的形象。因此,對於這種涉嫌非法的廣告希望能儘快審核拒絕並下線,將非法廣告的負面影響範圍控制到最低,這就需要審核系統有廣告風險評估的過程來打亂傳統的按時間排序的審核工作流,將高風險的審核任務優先處理,避免非法廣告的對公司形象和業務的負面影響。
下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬於本發明保護的範圍。
實施例一
如圖1所示,為本發明實施例一種網絡廣告的審核方法的流程圖,包括以下步驟:
步驟101,獲取待審核的網絡廣告的基本信息,所述基本信息包括URL連結、文案Ttxt以及圖片;其中,所述圖片包括文字圖片和/或二維碼圖片;
步驟102,識別所述文字圖片中的文本Tpic,以及統計所述二維碼圖片的個數k;
步驟103,通過網絡爬蟲提取出所述URL連結的目的地址中的文字內容Turl;
URL連結主要是判斷連結地址是否涉黃或涉及敏感話題,本實施優選的,只提取網頁上的文本內容即可。當然,本領域技術人員也可以依照本發明的技術方案,進一步判斷連結地址中的圖片,這也應當屬於本發明的保護範圍。
步驟104,確定文本集T={Tpic,Turl,Ttxt}的風險值Tkscore;
步驟105,確定圖片風險值Ikscore,具體通過公式計算,其中α為二維碼圖片的基礎風險值;
本實施例優選的,α=100。
圖片的風險主要來自於其中的文字及二維碼圖片,二維碼圖片可以連結到各種公眾號、各種頁面。
步驟106,確定該網絡廣告的創意風險值Dk,具體通過公式計算;
步驟107,根據確定出的創意風險值Dk對該網絡廣告進行審核。
優選的,所述計算文本集T={Tpic,Turl,Ttxt}的風險值Tkscore包括以下步驟:
將所述文本集T進行分詞處理,得到m個單詞的詞庫:W={W1,W2,L,Wm};
確定每個單詞的風險值,具體通過公式Mi=Mj×sim(Wi,Pj)計算;其中,sim(Wi,Pj)為分詞得到的詞庫W中的單詞Wi與廣告規範中的敏感詞庫A中與Wi相似度最高的敏感詞Pj的相似度,Mj為敏感詞Pj的風險值;敏感詞庫A可表示為A={P1,P2,L,Pi,L,Pn};
對每個單詞的風險值進行求和,得到所述文本集T的風險值,具體通過以下公式計算:
優選的,所述識別所述文字圖片中的文本Tpic,以及統計所述二維碼圖片的個數k之前,還包括:
判定所述圖片為二維碼圖片或文字圖片。
優選的,所述識別所述文字圖片中的文本Tpic,以及統計所述二維碼圖片的個數k,包括:
逐一識別所述文本圖片,若識別出的文本Tpic為微信號或微博號,則將相應的文本圖片計入所述二維碼圖片的個數k中,而不將相應的文本Tpic加入所述文本集T;
逐一識別所述二維碼圖片,若識別出的二維碼為文字,則將識別出的文字作為文本Tpic加入所述文本集T,而不將相應的二維碼圖片計入所述二維碼圖片的個數k中;若識別出的二維碼為微信號或微博號,則將相應的二維碼圖片計入所述二維碼圖片的個數k中。
本實施例優選的,利用google的zxing包識別圖片中是否包含二維碼。
本實施例優選的,利用OCR技術識別圖片中的文字。
優選的,所述根據該網絡廣告的創意風險值Dk對該網絡廣告進行審核,包括:
優先選擇創意風險值Dk最高的網絡廣告進行審核;
若至少兩條網絡廣告的創意風險值同為最高,則優先選擇提交時間最早的網絡廣告進行審核。
實施例二
如圖2所示,為本發明實施例一種網絡廣告的審核系統的結構圖,包括以下單元:
素材獲取單元201,獲取待審核的網絡廣告的基本信息,所述基本信息包括URL連結、文案Ttxt以及圖片;其中,所述圖片包括文字圖片和/或二維碼圖片;
圖片處理單元202,用於識別所述文字圖片中的文本Tpic,以及統計所述二維碼圖片的個數k;
連結處理單元203,用於通過網絡爬蟲提取出所述URL連結的目的地址中的文字內容Turl;
文本風險值計算單元204,用於確定文本集T={Tpic,Turl,Ttxt}的風險值Tkscore;
圖片風險值計算單元205,確定圖片風險值Ikscore,具體通過公式計算,其中α為二維碼圖片的基礎風險值;
本實施例優選的,α=100。
創意風險值計算單元206,用於確定該網絡廣告的創意風險值Dk,具體通過公式計算;
審核單元207,用於根據確定出的創意風險值Dk對該網絡廣告進行審核。
圖3為本實施例中文本風險值計算單元的結構示意圖,如圖所示,所述文本風險值計算單元204包括:
分詞子單元2041,用於將所述文本集T進行分詞處理,得到m個單詞的詞庫W={W1,W2,L,Wm};
單詞風險值計算子單元2042,用於確定每個單詞的風險值,具體通過公式Mi=Mj×sim(Wi,Pj)計算;其中,sim(Wi,Pj)為分詞得到的詞庫W中的單詞Wi與廣告規範中的敏感詞庫A中與Wi相似度最高的敏感詞Pj的相似度,Mj為敏感詞Pj的風險值;敏感詞庫A可表示為A={P1,P2,L,Pi,L,Pn};
本實施例優選的,Mi的取值範圍為,
求和子單元2043:用於對每個單詞的風險值進行求和,得到所述文本集T的風險值,具體通過以下公式計算:
優選的,所述圖片處理單元202
還用於:
在所述識別所述文字圖片中的文本Tpic,以及統計所述二維碼圖片的個數k之前,判定所述圖片為二維碼圖片或文字圖片。
優選的,所述圖片處理單元202具體用於:
逐一識別所述文本圖片,若識別出的文本Tpic為微信號或微博號,則將相應的文本圖片計入所述二維碼圖片的個數k中,而不將相應的文本Tpic加入所述文本集T;
逐一識別所述二維碼圖片,若識別出的二維碼為文字,則將識別出的文字作為文本Tpic加入所述文本集T,而不將相應的二維碼圖片計入所述二維碼圖片的個數k中;若識別出的二維碼為微信號或微博號,則將相應的二維碼圖片計入所述二維碼圖片的個數k中。
圖4為本實施例中審核單元的結構示意圖,如圖所示,所述審核單元207包括:
風險值對比子單元2071,用於優先選擇創意風險值Dk最高的網絡廣告進行審核;
提交時間對比子單元2072,用於當至少兩條網絡廣告的創意風險值同為最高時,優先選擇提交時間最早的網絡廣告進行審核。
上述技術方案具有如下有益效果:
通過獲取廣告信息,所述廣告信息包括URL連結、文案Ttxt以及圖片;識別所述圖片中的文本Tpic和/或二維碼圖片的個數k;通過網絡爬蟲提取出所述URL連結的目的地址中的文字內容Turl計算文本集T={Tpic,Turl,Ttxt}的風險值以及圖片風險值;計算該廣告的創意風險值;根據該廣告的創意風險值Dk進行審核,可以根據廣告信息計算其風險值,並優先處理風險值高的廣告,降低了未經審核的非法廣告的投放風險,降低了廣告供應平臺可能的經濟損失。
本領域技術人員還可以了解到本發明實施例列出的各種說明性邏輯塊(illustrative logical block),單元,和步驟可以通過電子硬體、電腦軟體,或兩者的結合進行實現。為清楚展示硬體和軟體的可替換性(interchangeability),上述的各種說明性部件(illustrative components),單元和步驟已經通用地描述了它們的功能。這樣的功能是通過硬體還是軟體來實現取決於特定的應用和整個系統的設計要求。本領域技術人員可以對於每種特定的應用,可以使用各種方法實現所述的功能,但這種實現不應被理解為超出本發明實施例保護的範圍。
本發明實施例中所描述的各種說明性的邏輯塊,或單元都可以通過通用處理器,數位訊號處理器,專用集成電路(ASIC),現場可編程門陣列或其它可編程邏輯裝置,離散門或電晶體邏輯,離散硬體部件,或上述任何組合的設計來實現或操作所描述的功能。通用處理器可以為微處理器,可選地,該通用處理器也可以為任何傳統的處理器、控制器、微控制器或狀態機。處理器也可以通過計算裝置的組合來實現,例如數位訊號處理器和微處理器,多個微處理器,一個或多個微處理器聯合一個數位訊號處理器核,或任何其它類似的配置來實現。
本發明實施例中所描述的方法或算法的步驟可以直接嵌入硬體、處理器執行的軟體模塊、或者這兩者的結合。軟體模塊可以存儲於RAM存儲器、快閃記憶體、ROM存儲器、EPROM存儲器、EEPROM存儲器、寄存器、硬碟、可移動磁碟、CD-ROM或本領域中其它任意形式的存儲媒介中。示例性地,存儲媒介可以與處理器連接,以使得處理器可以從存儲媒介中讀取信息,並可以向存儲媒介存寫信息。可選地,存儲媒介還可以集成到處理器中。處理器和存儲媒介可以設置於ASIC中,ASIC可以設置於用戶終端中。可選地,處理器和存儲媒介也可以設置於用戶終端中的不同的部件中。
在一個或多個示例性的設計中,本發明實施例所描述的上述功能可以在硬體、軟體、固件或這三者的任意組合來實現。如果在軟體中實現,這些功能可以存儲與電腦可讀的媒介上,或以一個或多個指令或代碼形式傳輸於電腦可讀的媒介上。電腦可讀媒介包括電腦存儲媒介和便於使得讓電腦程式從一個地方轉移到其它地方的通信媒介。存儲媒介可以是任何通用或特殊電腦可以接入訪問的可用媒體。例如,這樣的電腦可讀媒體可以包括但不限於RAM、ROM、EEPROM、CD-ROM或其它光碟存儲、磁碟存儲或其它磁性存儲裝置,或其它任何可以用於承載或存儲以指令或數據結構和其它可被通用或特殊電腦、或通用或特殊處理器讀取形式的程序代碼的媒介。此外,任何連接都可以被適當地定義為電腦可讀媒介,例如,如果軟體是從一個網站站點、伺服器或其它遠程資源通過一個同軸電纜、光纖電纜、雙絞線、數字用戶線(DSL)或以例如紅外、無線和微波等無線方式傳輸的也被包含在所定義的電腦可讀媒介中。所述的碟片(disk)和磁碟(disc)包括壓縮磁碟、鐳射盤、光碟、DVD、軟盤和藍光光碟,磁碟通常以磁性複製數據,而碟片通常以雷射進行光學複製數據。上述的組合也可以包含在電腦可讀媒介中。
以上所述的具體實施方式,對本發明的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發明的具體實施方式而已,並不用於限定本發明的保護範圍,凡在本發明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發明的保護範圍之內。