新四季網

內容過濾方法及內容過濾裝置的製作方法

2023-08-03 22:30:56 1


專利名稱::內容過濾方法及內容過濾裝置的製作方法
技術領域:
:本發明涉及網絡信息搜索,更具體地說,涉及在網絡信息搜索中的內容過濾。
背景技術:
:隨著網際網路技術的飛速發展,人們不僅可以從單純的文本,而且可以通過圖片、音頻和/或視頻等多種媒體獲取各種信息(也稱為"內容")。由於現在網絡信息的泛濫,當用戶搜索某些包含圖片的內容時,搜索結果中往往有許多包括文字(抑或帶有圖像)的圖片(簡稱"小說圖片")。例如,在搜索某個人物有關的圖片時,就會出現很多與該人物有關的小說圖片。這常常彩響用戶的體驗感受。隨著網絡信息的迅速膨脹,搜尋引擎也在向行業化和細分化發展。垂直搜索是能夠針對特定行業、特定業務或專業需求而提供的一種搜索技術。作為已有的網絡搜索的細化和延伸,對某類網頁資源或結構化資源進行深度整合,從而為用戶提供符合專業用戶操作行為要求的信息服務。但是,在垂直搜索的技術中,目前對於諸如小說圖片等的內容進行過濾的技術還很少。
發明內容本發明提供一種內容過濾技術,能對不希望的內容進行判斷和過濾。根據本發明的一個方面,一種內容過濾方法包括將內容進行二值化處理;提取經過二值化處理後的內容中的特徵值;和根據所述特徵值確定是否將該內容過濾。根據本發明的另一個方面,一種內容過濾方法包括將內容進行二值化處理;獲取經過二值化處理後的內容的特徵值;基於特徵值,確定內容的置信概率;和根據置信概率確定是否將該內容過濾。在本申請中,"內容"可包括網絡信息的各種表示形式,例如可以是各種包含圖像或文字或兼有二者的網頁圖片等。根據本發明另一方面,還提供一種內容過濾裝置,包括二值化模塊,將內容進行二值化處理;特徵值獲取模塊,確定經過二值化處理後的內容的特徵值;以及過濾模塊,根據特徵值確定是否將內容進行過濾。根據本發明另一方面,還提供一種內容過濾裝置,包括二值化模塊,將內^ii行二值化處理;特徵值獲取模塊,確定經過二值化處理後的內容的特徵值;置信概率確定單元,根據內容特徵值確定內容的i信概率;以及過濾模塊,根據置信概率確定是否將該內容進行過濾。本發明能夠對諸如小說圖片之類的不希望的內容進行過濾,並可以用於垂直搜尋引擎中,但不以此為限。圖l是本發明的一種實施方式的內容過濾方法的流程示意圖;圖2是本發明另一種實施方式的內容過濾方法的流程圖;圖3是根據本發明的一種實施方式的內容過濾裝置的示意圖;圖4是根據本發明的另一種實施方式的內容過濾裝置的示意圖。具體實施例方式以下將參考對網絡搜索的內容進行過濾的一些實施方式。在這些實施方式中是以對網絡搜索中獲取的多個圖片中過濾掉小說圖片為例來說明的。如前所述,小說圖片是指包括文字(或文字+圖像)的圖片。但是這並不應當理解為是對本發明的限制。參照圖l,在一種實施方式中,內容過濾方法包括以下步驟在步驟SIO,將通過搜索獲取的圖片(即內容)進行二值化處理,以便於對圖片特徵的提取。在步驟Sll,從經過二值化處理的圖片中提取圖片的特徵值。圖片的特徵值可以包括字符排列整齊性和/或字符行的遊程分布緊密性,還可以包括字符大小一致性、字符顏色單一性等。在步驟S12,可以根據所確定的特徵值,判斷圖片是否為小說圖片。如是,則過濾該圖片。"過濾"可以是將該圖片所屬的網站降位排序,或者阻止其顯示。目前將圖片進行二值化處理所採用的二值化算法有多種,如全局閾值法、自動亮度選取法、筆劃特徵自適應閾值法和Niblack算法等。Niblack算法是一種局部二值化算法。灰度閾值通常由局部平均灰度和局部標準方差決定。在一個實施例中,採用改進的Niblack算法,即用固定經驗閾值來代替局部標準方差,可以去除大量Niblack算法帶來的固有的噪音,便於圖片特徵提取。改進的Niblack算法的計算公式如下T(x,y)=M(x,y)-Th(1)其中,T(x,y)是坐標為(x,y)的像素點的灰度閾值;M(x,y)是坐標為(x,y)的像素點的局部平均灰度值;Th是固定經驗閾值,可以通過大量試驗來獲取。在本例對圖片的分析中,採用窗體大小是20x20,Th值選擇為12,能達到較好的效果。該參數選擇尤其適合含有很多字符的圖片,可以避免在二值化處理後圖片部分發糊的現象,還可以很好地濾除噪音。邊界區域很小的圖片一般不具備窗體大小是20x20的條件,則可以用全局閾值進行二值化。具體方式如上,在此不再贅述。然後,根據取得的灰度閾值,輸出二值化圖片。參照圖2,說明判斷小說圖片以進行過濾的方法示例。在步驟Slll中,提取經過二值化處理後的圖片的特徵值。(1)投影特性在一個例子中,投影特性可以通過圖片的水平或垂直方向(取決於圖片中文字橫向排列還是縱向排列)的投影進行判定。例如,可以通過水平方向的投影的波谷分布進行判定。投影的波谷可以是投影累加和為零的投影。如果投影特性用Fl表示,則Fh波谷個數/圖片高度。通常小說圖片的字符排列整齊,尤其是水平方向字符行的排列。字符行之間的間隔在水平方向的投影形成波谷。Fl值越大,則波谷的個數多,可以認為圖片的字符排列比較整齊。在該例子中同樣可以通過海量的訓練樣本(例如通過訓練概率分布直方圖),獲取小說圖片的Fl值的範圍。F1值一般在0.03至1之間,Fl的值越大,例如0.5以上,圖片為小說圖片的可能性較大。根據發明人的試驗結果,利用這種投影特性值來判斷小說明圖片,準確率可以達到80%以上。(2)遊程分布緊密性在另一個例子中,還可以根據字符行的遊程分布緊密性來判斷小說圖片。例如可以通過圖片的黑色的遊程分布,對圖片進行鑑別。以下舉例對色素遊程(例如黑色遊程)進行說明。例如,二值化處理後圖片的一行像素分布如下(l代表黑,O代表白)的黑色遊程個數為5個。、'字符行的遊程分布緊密性如用F2表示,貝寸formulaseeoriginaldocumentpage6其中,1\是第r行的黑色遊程個數,r是行數,W是以像素個數表示的圖片的寬度,H是圖片的高度。在(nr/W-0.3)的值大於零時,Sgn(nr/W-0.3)取值為1,而當(iVW-0.3)的值是小於零時,取值為0或-l。由於小說圖片與正常人物或者風景等圖片相比,其黑色遊程個數較多,因而黑色遊程分布緊密性較高。因此,可以通過計算黑色遊程分布緊密性區分小說圖片與非小說圖片。通過公式(2)可以取得圖片黑色遊程分布緊密性F2。F2越大,則黑色遊程個數越多,其在圖片中分布的緊密程度也越高。可以通過海量的訓練樣本(例如概率分布直方圖),獲取小說圖片的F2值的範圍。根據一個訓練結果,F2值一般在0.2至1之間時,該圖片為小說圖片的可能性較大。根據發明人的試驗結果,利用這種遊程分布緊密性來判斷小說明圖片,準確率可以達到80%以上。(3)字符大小一致性字符大小一致性主要體現在圖片的連通域在水平和垂直方向投影大小的一致性的情況和連通域在水平方向和垂直方向的整齊性。一致性表示的是投影尺寸的特性,整齊性則反應投影分布的特性。設字符大d、一致性用F3表示,可以釆用以下的計算公式來確定c,min(h/w,w/h)xHxW,,、(1+1max(nw,nh)—max(H/W,W/H)|/2)x(1+max(dh,dw))x(1+max(dbh,dbw))其中,H為以像素單位表示的圖片的高度,W為以像素單位表示的圖片的寬度。將圖片的連通域分別作水平和垂直方向的投影,可以得到水平方向投影的高度h和垂直方向的投影的寬度w。為消除小噪聲的幹擾,規定每一個連續投影黑色像素數目應未超過一個經驗值(例如5個)時,就不進行上述處理。同時,統計出水平和垂直方向的投影寬度超過100個像素寬的投影個數nw和n,'。由水平方向投影高度h和垂直方向的投影寬度W,以及水平和垂直方向的像素點(i),可以得到水平方向投影和垂直方向投影直方圖分布的均值,從而得到水平方向投影寬度的方差d"、垂直方向投影寬度的方差cL、以及投影間隔寬度的方差dbh和dbw。通過式(3)得到F3的值在O.l至100之間。F3值越大,則字符大小一致性越好(即越一致)。在該例中,通過海量的訓練樣本,例如通過訓練概率分布直方圖來獲取小說圖片的F3值的範圍。其中,F3值在60至IOO之間時,該圖片為小說圖片的可能性較大。訓練概率分布直方圖為現有技術,在此不再贅述。(4)字符顏色單一性字符顏色單一性是圖片的字符顏色數與其RGB色彩模式的顏色數的對比情況,如用F4表示,則F4二字符顏色數/RGB色彩模式的顏色數。通常小說圖片的顏色色調比較單一,其F2值較小。在本例中,仍然可以通過海量的訓練樣本(例如通過訓練概率分布直方圖),獲取小說圖片的F4值的範圍。當F4值在0.00001至0.0015之間,字符顏色趨向於單一,圖片為小說圖片的可能性較大。參見步驟S112。根據本發明的一種實施方式,還可以根據上述特徵值來確定圖片為小說圖片的置信概率。根據置信概率來判斷該圖片是否為小說圖片從而確定是否將其過濾。在一個例子中,利用了貝葉斯分類算法進行置信概率的確定。貝葉斯分類算法可以獨立地學習每個圖片特徵值Ai(即上文中所說的投影特性、遊程分布緊密性、字符大小一致性、顏色單一性等特徵值)在類別(小說圖片或非小說圖片)下的條件概率Pd(AiiC=Ci)。根據貝葉斯公式計算某一圖片特徵值對某個類別的後驗概率P(C,IA,,Hjan一oP(di)f"[P(AilC:Ci)(4)其中,i、n為自然^:,C為類別變量,Cj為不同類別的常量(例如"1"或"0"),"為l/P(A,=a,AAAA=an)。P(A,-a丫AAA,a,')表示多個特徵^f直的聯合衝既率.在該例中,後驗概率可以作為圖片的置信概率。另外,利用公式(4)可以計算圖片單個特徵值的後驗概率。對圖片每種特徵值都可以計算出圖片單個特徵的後驗概率,從而判斷出小說圖片以進行過濾。這裡假設前文中提到的四種圖片特徵值是獨立分布的。這樣,四種特徵值的聯合概率可以由四種獨立特徵值的概率得到。通過綜合多個圖片特徵值,並同時根據分類效果進行特徵值加權,獲得基於特徵值加權的綜合後的後驗概率,對小說圖片進行判斷和過濾,可以達到更好的過濾效果。說明如下例如,假設A」。k是數據集D中所有圖片特徵值Aj取值等於a」k的數據集合。如果存在某個實例deA^,且滿足類別Cd=Ci,對於使用公式(4)計算的每一項(即每個特徵值的後驗概率)P(A廣a]klC^)給予係數w,j.k,貝'J:否則,Wii「A,其中0<|8^是一個修正係數。因此,綜合後的後驗概''J'|d|率P(c」〈a,,a2,A,a,,〉)可以為公式中,P(Ci)為類別Cj的後驗概率,P(a'klc,)為類別Ci中單個圖片特徵值的後驗概率的分布。通過上述公式(6),可以得出基於加權的綜合後的後驗概率,從而對由此判斷的小說圖片進行過濾。上述假設四種圖片特徵值是獨立分布的方法實際上是採用了樸素貝葉斯分類器(NaiveBayesianClassifier)來確定圖片的置信概率。樸素貝葉斯分類器是一種基於Bayes理論的簡單分類方法。樸素貝葉斯分類器的"樸素"指的是它的條件獨立性的假設。如上所述,可以利用特徵值加權技術來增強樸素貝葉斯分類器對小說圖片的過濾能力。通過將圖片的多個特徵值各自的後驗概率綜合,獲得綜合後的後驗概率。利用特徵值加權技術獲得綜合後驗概率在具體實現上與上述公式(6)的實質是一樣的,只是加權係數的確定方法不同。特徵加權技術的加權係數是多樣的,例如可以通過實驗結果確定,將對小說圖片的判斷影響較大的特徵值如投影特性和遊程分布緊密性設置為具有較大權值;將影響較小的特徵值如字符大小一致性、顏色單一性設置為具有較小權值等。公式(6)則是根據樣本和已經識別的圖片的結果確定加權係數,具有一定的自學習的能力。這樣,兩種方式都可以綜合各個圖片特徵值對辨識小說圖片的影響,使得經過特徵值加權技術處理的樸素貝葉斯分類器具有高準確率的小說圖片判定能力。通常,綜合後的後驗概率在0.6以下為小說圖片,否則為非小說圖片。後驗概率的範圍可以通過訓練概率分布直方圖取得。如上述,在對準確率要求不高的情況下,可以使用單個圖片特徵值的後驗概率,來判斷小說圖片。此外,通過綜合多個圖片特徵值的後驗概率,以獲得綜合後的後驗概率,根據該後驗概率對小說圖片進行過濾,可以達到更好的過濾效果。以上所述的小說圖片過濾方法通過計算圖片的置信概率來判斷小說圖片,具有簡單高效以及準確的優點。其中,利用特徵加權技術將圖片的多個特徵各自的後驗概率綜合,獲得綜合後的後驗概率來對小說圖片進行過濾,其識別準確率較之通過單個特徵值或單個特徵值的後驗概率判斷小說圖片要更為準確(例如可達到99%以上)。參照圖3,在一種實施方式中,一種小說圖片過濾裝置包括二值化模塊21,特徵值提取模塊22和過濾模塊23。其中二值化模塊21將搜索獲取的圖片進行二值化處理,以便於圖片特徵的提取。特徵值確定模塊22確定二值化處理後的圖片特徵值。如圖片的投影特性和/或字符行的遊程分布緊密性。圖片特徵值還可以包括字符大小一致性、字符顏色單一性等。過濾模塊23根據所確定的特徵值判斷和過濾小說圖片。確定這些特徵值的方法以及根據這些特徵判斷小說圖片的方式在前文中已描述,在此不再贅述。參照圖4,在另一種實施方式中,一種小說圖片過濾裝置包括二值化模塊21,特徵值提取模塊22,過濾模塊23,和置信概率確定模塊24。其中,二值化模塊21和特徵值提取模塊22可以採用圖3中所示的模塊,而置信概率確定模塊24根據圖片特徵值確定圖片為小說圖片的置信概率,確定置信概率的方法如前文如述。在這種情況下,過濾模塊23根據置信概率來判斷和過濾小說圖片。例如,綜合後的後驗概率通常在0.6以下為小說圖片,否則為非小說圖片。後驗概率的範圍可以通過訓練概率分布直方圖取得。利用上述的小說圖片過濾裝置和方法,對5577張小說圖片樣本和9960張非小說樣本進行測試。其中,採用多個特徵值綜合置信概率的方法得出的測試數據如表1所示。tableseeoriginaldocumentpage10表1其中,10的總時間是指圖片的輸入輸出所花費的時間;歸一化的總時間是指將圖片的規格統一所花費的時間。可以看出,內容過濾裝置通過確定圖片的置信概率來判斷並過濾小說圖片,具有簡單高效以及準確的優點。以上僅為本發明的一些實施例,並非因此限制本發明的專利範圍,凡是利用本發明說明書及附圖內容所做的等效結構或等效流程變換,或直接或間接運用在其他相關的
技術領域:
,均同理包括在本發明的專利保護範圍內。權利要求1、一種內容的過濾方法,包括將內容進行二值化處理;獲取所述二值化處理後的內容的特徵值;和根據所述特徵值確定是否對所述內容進行過濾。2、一種內容的過濾方法,包括將內容進行二值化處理;獲取所述二值化處理後的內容的特徵值;基於所述特徵值,確定所述內容的置信概率;和根據所述置信概率確定是否對所述內容進行過濾。3、根據權利要求1或2所述的方法,其中所述內容為至少包含文字和圖像之一的圖片。4、根據權利要求3所述的方法,其中所述內容的特徵值包括所述圖片的投影特性,和/或字符行的遊程分布緊密性。5、根據權利要求l、2或4所述的方法,其中所述內容的特徵值還包括所述圖片中字符大小的一致性,和/或字符顏色的單一性。6、根據權利要求4所述的方法,其中當以F1表示所述圖片的投影特性時,按如下方式確定F1:F14皮谷個數/圖片高度,其中,波谷指所述圖片在水平方向的投影累加和為零的投影,或所述圖片在垂直方向的投影累加和為零的投影,圖片高度以像素為單位;在以F2表示所述字符行的遊程分布緊密性時,按以下方式確定F2:formulaseeoriginaldocumentpage2其中,nr表示所述圖片中第r行黑色遊程的個數,W是以像素為單位表示的圖片寬度。7、根據權利要求4、5或6所述的方法,其中所述置信概率以P表示時,通過以下方式獲得P:formulaseeoriginaldocumentpage3其中,C表示類別變量,q表示不同類別的常量,A,表示圖片的第i個特徵formulaseeoriginaldocumentpage38、根據權利要求4、5或6所述的方法,其中所述內容的置信概率選自以下任一種方式確定通過確定單個所述特徵值對類別的後驗概率來確定所述置信概率;通過假定多個所述特徵值相互獨立,並對多個所述特徵值的後驗概率加權獲得綜合後的後驗概率,來確定所述置信概率。9、根據前述任一項權利要求所述的方法,其中所述二值化處理按如下方式進行T(x,y)=M(x,y)-Th(1)其中,T(x,y)表示坐標為(x,y)的像素點的灰度閾值,M(x,y)表示坐標為(x,y)的像素點的局部平均灰度值,Th是固定經驗閾值。10、一種內容過濾裝置,包括二值化模塊,將內容進行二值化處理;特徵值獲取模塊,確定所述二值化處理後的內容的特徵值;和過濾模塊,根據所述特徵值確定是否對所述內容進行過濾。11、一種內容過濾裝置,包括二值化模塊,將內容進行二值化處理;特徵值獲取模塊,確定所述二值化處理後的內容的特徵值;置信概率確定單元,根據所述內容特徵值確定所述內容的置信概率;和過濾模塊,根據所述置信概率確定是否對所述內容進行過濾。全文摘要公開了內容的過濾方法,包括以下步驟將所述內容進行二值化處理;確定所述二值化處理後的內容的特徵值;和根據所述內容的特徵值或根據特徵值確定的後驗概率,確定是否對所述內容進行過濾。還公開了內容過濾裝置。通過確定內容的特徵值,可判斷並過濾搜索結果中不需要的內容,例如小說圖片。文檔編號G06F17/30GK101441653SQ20081018618公開日2009年5月27日申請日期2008年12月19日優先權日2008年12月19日發明者波陳申請人:騰訊科技(深圳)有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀