新四季網

基於人工智慧的信息處理方法和裝置與流程

2023-04-25 22:49:06 1


本申請涉及計算機技術領域,具體涉及網際網路技術領域,尤其涉及基於人工智慧的信息處理方法和裝置。



背景技術:

人工智慧(artificialintelligence,ai),是研究、開發用於模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。人工智慧是計算機科學的一個分支,它企圖了解智能的實質,並生產出一種新的能以人類智能相似的方式做出反應的智能機器,該領域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統等。

當今網際網路和新媒體迅猛發展,網絡用戶的興趣多變。需要根據用戶群體行為,發現用戶當前時間感興趣的點,該點可以稱為具有時效性的興趣點。如「某某國發生地震」等這樣的新聞事件,又或「陳**」、「劉##」等這樣最近熱門的新聞娛樂人物,又或近期熱門的電影娛樂專名等,都是在某一時刻相對普通興趣點更加熱門的。將具有時效性的興趣點應用於信息推送等場景,可以提高用戶體驗,增加用戶粘性等。因此,如何挖掘具有時效性的興趣點是一個值得研究的問題。



技術實現要素:

本申請的目的在於提出一種改進的基於人工智慧的信息處理方法和裝置,來解決以上背景技術部分提到的技術問題。

第一方面,本申請實施例提供了一種基於人工智慧的信息處理方法,該方法包括:獲取在預定時間段內記錄的搜索點擊信息,其中,上述搜索點擊信息包括在上述預定時間段所包含的每個單位時間段內被搜索的詞條和各上述詞條在該單位時間段內的點擊量;從上述搜索點擊信息中選取在預設單位時間段內點擊量超出點擊量閾值的詞條生成候選詞條集合;對於上述候選詞條集合中的每個候選詞條,將該候選詞條在上述預定時間段內所對應的各個點擊量按照時間先後順序形成點擊量序列;基於各上述點擊量序列,確定與各上述點擊量序列分別對應的候選詞條的類別,其中,上述類別用於表徵候選詞條在上述預定時間段內被用戶關注的程度;將類別為預設類別的候選詞條作為興趣點並生成興趣點集合。

在一些實施例中,上述基於各上述點擊量序列,確定與各上述點擊量序列分別對應的候選詞條的類別,包括:對於每個上述點擊量序列,基於上述點擊量序列中的各分量的值隨時間變化的變化趨勢,將上述點擊量序列分割成多個子序列;生成針對上述多個子序列中的每個子序列的趨勢描述信息;將上述多個子序列和上述多個子序列分別對應的趨勢描述信息輸入預先訓練的分類模型,以使上述分類模型對上述點擊量序列所對應的候選詞條的類別進行預測;其中,上述分類模型用於表徵第一信息和類別的對應關係,上述第一信息包括點擊量序列所分割成的各個子序列和上述各個子序列分別對應的趨勢描述信息。

在一些實施例中,上述基於上述點擊量序列中的各分量的值隨時間變化的變化趨勢,將上述點擊量序列分割成多個子序列,包括:對於上述點擊量序列中的任意兩個相鄰分量,若預置數值範圍集合中存在包括上述相鄰分量的值的目標數值範圍,並且上述相鄰分量的值之差的絕對值大於上述目標數值範圍所對應的閾值,則將上述相鄰分量劃分到不同的子序列,其中,上述預置數值範圍集合中的每個預置數值範圍具有與之對應的閾值。

在一些實施例中,上述基於上述點擊量序列中的各分量的值隨時間變化的變化趨勢,將上述點擊量序列分割成多個子序列,包括:基於上述點擊量序列中的各分量的值隨時間變化的變化趨勢,將上述點擊量序列劃分成點擊量組序列;確定上述點擊量組序列中的每個點擊量組中的各分量的值的平均值和方差;基於所確定的平均值和方差,在上述點擊量組序列所包括的點擊量組中確定分割點;從所確定的分割點處對上述點擊量序列進行分割,得到與上述點擊量序列對應的多個子序列。

在一些實施例中,上述基於上述點擊量序列中的各分量的值隨時間變化的變化趨勢,將上述點擊量序列劃分成點擊量組序列,包括:從上述點擊量序列中查找出各個極值點,基於查找出的極值點將上述點擊量序列劃分成點擊量組序列,其中,上述極值點是上述點擊量序列中的值同時大於或小於左右相鄰分量的值的分量。

在一些實施例中,上述基於所確定的平均值和方差,在上述點擊量組序列所包括的點擊量組中確定分割點,包括:對於上述點擊量組序列中的任意兩個相鄰點擊量組,若第一預置數值範圍集合中存在目標第一預置數值範圍、上述相鄰點擊量組中的位置靠後的點擊量組所對應的平均值除以位置靠前的點擊量組所對應的平均值所得的商大於上述目標第一預置數值範圍所對應的第一預設值、並且上述相鄰點擊量組中的每個點擊量組所對應的方差除以所對應的平均值所得的商大於上述目標第一預置數值範圍所對應的第二預設值,則將上述位置靠前的點擊量組中的最後一個分量作為分割點,其中,上述目標第一預置數值範圍是包括上述相鄰點擊量組分別對應的平均值之差的絕對值的數值範圍,上述第一預置數值範圍集合中的每個第一預置數值範圍具有與之對應的第一預設值和第二預設值。

在一些實施例中,上述方法還包括:計算上述興趣點集合中的任意兩個興趣點之間的相似度,將相似度高於相似度閾值的興趣點進行合併以生成第一興趣點集合。

在一些實施例中,上述計算上述興趣點集合中的任意兩個興趣點之間的相似度,包括:對上述興趣點集合中的每個興趣點進行切詞,基於切出的詞來計算上述興趣點集合中的任意兩個興趣點之間的相似度。

在一些實施例中,上述方法還包括:從上述第一興趣點集合中移除包含預設關鍵詞集合中的關鍵詞的興趣點以生成第二興趣點集合。

第二方面,本申請提供了一種基於人工智慧的信息處理裝置,該裝置包括:獲取單元,配置用於獲取在預定時間段內記錄的搜索點擊信息,其中,上述搜索點擊信息包括在上述預定時間段所包含的每個單位時間段內被搜索的詞條和各上述詞條在該單位時間段內的點擊量;第一生成單元,配置用於從上述搜索點擊信息中選取在預設單位時間段內點擊量超出點擊量閾值的詞條生成候選詞條集合;形成單元,配置用於對於上述候選詞條集合中的每個候選詞條,將該候選詞條在上述預定時間段內所對應的各個點擊量按照時間先後順序形成點擊量序列;確定單元,配置用於基於各上述點擊量序列,確定與各上述點擊量序列分別對應的候選詞條的類別,其中,上述類別用於表徵候選詞條在上述預定時間段內被用戶關注的程度;第二生成單元,配置用於將類別為預設類別的候選詞條作為興趣點並生成興趣點集合。

在一些實施例中,上述確定單元包括:分割子單元,配置用於對於每個上述點擊量序列,基於上述點擊量序列中的各分量的值隨時間變化的變化趨勢,將上述點擊量序列分割成多個子序列;生成子單元,配置用於生成針對上述多個子序列中的每個子序列的趨勢描述信息;預測子單元,配置用於將上述多個子序列和上述多個子序列分別對應的趨勢描述信息輸入預先訓練的分類模型,以使上述分類模型對上述點擊量序列所對應的候選詞條的類別進行預測;其中,上述分類模型用於表徵第一信息和類別的對應關係,上述第一信息包括點擊量序列所分割成的各個子序列和上述各個子序列分別對應的趨勢描述信息。

在一些實施例中,上述分割子單元包括:處理模塊,配置用於對於上述點擊量序列中的任意兩個相鄰分量,若預置數值範圍集合中存在包括上述相鄰分量的值的目標數值範圍,並且上述相鄰分量的值之差的絕對值大於上述目標數值範圍所對應的閾值,則將上述相鄰分量劃分到不同的子序列,其中,上述預置數值範圍集合中的每個預置數值範圍具有與之對應的閾值。

在一些實施例中,上述分割子單元包括:劃分模塊,配置用於基於上述點擊量序列中的各分量的值隨時間變化的變化趨勢,將上述點擊量序列劃分成點擊量組序列;第一確定模塊,配置用於確定上述點擊量組序列中的每個點擊量組中的各分量的值的平均值和方差;第二確定模塊,配置用於基於所確定的平均值和方差,在上述點擊量組序列所包括的點擊量組中確定分割點;分割模塊,配置用於從所確定的分割點處對上述點擊量序列進行分割,得到與上述點擊量序列對應的多個子序列。

在一些實施例中,上述劃分模塊包括:劃分子模塊,配置用於從上述點擊量序列中查找出各個極值點,基於查找出的極值點將上述點擊量序列劃分成點擊量組序列,其中,上述極值點是上述點擊量序列中的值同時大於或小於左右相鄰分量的值的分量。

在一些實施例中,上述第二確定模塊包括:確定子模塊,配置用於對於上述點擊量組序列中的任意兩個相鄰點擊量組,若第一預置數值範圍集合中存在目標第一預置數值範圍、上述相鄰點擊量組中的位置靠後的點擊量組所對應的平均值除以位置靠前的點擊量組所對應的平均值所得的商大於上述目標第一預置數值範圍所對應的第一預設值、並且上述相鄰點擊量組中的每個點擊量組所對應的方差除以所對應的平均值所得的商大於上述目標第一預置數值範圍所對應的第二預設值,則將上述位置靠前的點擊量組中的最後一個分量作為分割點,其中,上述目標第一預置數值範圍是包括上述相鄰點擊量組分別對應的平均值之差的絕對值的數值範圍,上述第一預置數值範圍集合中的每個第一預置數值範圍具有與之對應的第一預設值和第二預設值。

在一些實施例中,上述裝置還包括:第三生成單元,配置用於計算上述興趣點集合中的任意兩個興趣點之間的相似度,將相似度高於相似度閾值的興趣點進行合併以生成第一興趣點集合。

在一些實施例中,上述第三生成單元包括:計算子單元,配置用於對上述興趣點集合中的每個興趣點進行切詞,基於切出的詞來計算上述興趣點集合中的任意兩個興趣點之間的相似度。

在一些實施例中,上述裝置還包括:第四生成單元,配置用於從上述第一興趣點集合中移除包含預設關鍵詞集合中的關鍵詞的興趣點以生成第二興趣點集合。

第三方面,本申請實施例提供了一種伺服器,該伺服器包括:一個或多個處理器;存儲裝置,用於存儲一個或多個程序;當上述一個或多個程序被上述一個或多個處理器執行,使得上述一個或多個處理器實現如第一方面中任一實現方式描述的方法。

第四方面,本申請實施例提供了一種計算機可讀存儲介質,其上存儲有電腦程式,上述程序被處理器執行時實現如第一方面中任一實現方式描述的方法。

本申請實施例提供的基於人工智慧的信息處理方法和裝置,通過獲取在預定時間段內記錄的搜索點擊信息,以便從該搜索點擊信息中選取在預設單位時間段內點擊量超出點擊量閾值的詞條生成候選詞條集合;而後對於該候選詞條集合中的每個候選詞條,通過將該候選詞條在該預定時間段內所對應的各個點擊量按照時間先後順序形成點擊量序列,以便基於該點擊量序列確定該點擊量序列所對應的候選詞條的類別;最後將類別為預設類別的候選詞條作為興趣點以便生成興趣點集合。從而有效利用了在預定時間段內所記錄的搜索點擊信息,實現了富於針對性的信息處理。

附圖說明

通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本申請的其它特徵、目的和優點將會變得更明顯:

圖1是本申請可以應用於其中的示例性系統架構圖;

圖2是根據本申請的基於人工智慧的信息處理方法的一個實施例的流程圖;

圖3是根據本申請的基於人工智慧的信息處理方法的一個應用場景的示意圖;

圖4是根據本申請的基於人工智慧的信息處理方法的另一個實施例的流程圖;

圖5是根據本申請的基於人工智慧的信息處理裝置的一個實施例的結構示意圖;

圖6是適於用來實現本申請實施例的伺服器的計算機系統的結構示意圖。

具體實施方式

下面結合附圖和實施例對本申請作進一步的詳細說明。可以理解的是,此處所描述的具體實施例僅僅用於解釋相關發明,而非對該發明的限定。另外還需要說明的是,為了便於描述,附圖中僅示出了與有關發明相關的部分。

需要說明的是,在不衝突的情況下,本申請中的實施例及實施例中的特徵可以相互組合。下面將參考附圖並結合實施例來詳細說明本申請。

圖1示出了可以應用本申請的基於人工智慧的信息處理方法或基於人工智慧的信息處理裝置的實施例的示例性系統架構100。

如圖1所示,系統架構100可以包括信息處理伺服器101,網絡102和數據存儲用伺服器103。網絡102用以在信息處理伺服器101和數據存儲用伺服器103之間提供通信鏈路的介質。網絡102可以包括各種連接類型,例如有線、無線通信鏈路或者光纖電纜等等。

數據存儲用伺服器103可以是提供各種服務的伺服器,例如對用戶在每個單位時間段(例如一天、半小時等)內的搜索點擊信息(包括搜索的詞條和在該單位時間段內對該詞條的點擊量)進行存儲。

信息處理伺服器101可以是提供各種服務的伺服器,例如定期地從數據存儲用伺服器103獲取在預定時間段內所記錄的搜索點擊信息,並對該搜索點擊信息進行處理,得到處理結果(例如所生成的興趣點集合)。

需要說明的是,本申請實施例所提供的基於人工智慧的信息處理方法一般由信息處理伺服器101執行,相應地,基於人工智慧的信息處理裝置一般設置於信息處理伺服器101中。

應該理解,圖1中的信息處理伺服器、網絡和數據存儲用伺服器的數目僅僅是示意性的。根據實現需要,可以具有任意數目的信息處理伺服器、網絡和數據存儲用伺服器。

需要指出的是,當所獲取的搜索點擊信息預先存儲在信息處理伺服器101本地時,系統架構100中可以不包括數據存儲用伺服器103。

繼續參考圖2,示出了根據本申請的基於人工智慧的信息處理方法的一個實施例的流程200。該基於人工智慧的信息處理方法,包括以下步驟:

步驟201,獲取在預定時間段內記錄的搜索點擊信息。

在本實施例中,基於人工智慧的信息處理方法運行於其上的電子設備(例如圖1所示的信息處理伺服器101)可以定期地(例如每天或每半小時等)獲取在預定時間段內記錄的搜索點擊信息。其中,該搜索點擊信息可以包括在該預定時間段所包括的每個單位時間段內被搜索的詞條和該詞條在該單位時間段內的點擊量。這裡,詞條可以包括字、詞或其組合等。新聞事件的標題、新聞娛樂人物名稱、電影娛樂專名等通常可以成為詞條。需要說明的是,若上述電子設備以天為單位來獲取搜索點擊信息,則上述預定時間段可以不包括當天,上述預定時間段可以例如是當天的前30天或前20天等,上述預定時間段所包括的每個單位時間段的長度可以是1天。若上述電子設備以半小時為單位來獲取搜索點擊信息,則上述預定時間段可以不包括當前時刻,上述預定時間段可以例如是當前時刻的前12小時或前6小時等,上述預定時間段所包括的每個單位時間段的長度可以是半小時等。

在本實施例的一些可選的實現方式中,上述電子設備所獲取的搜索點擊信息可以預先存儲在上述電子設備本地或與上述電子設備遠程通信連接的伺服器(例如圖1所示的數據存儲用伺服器103)。

步驟202,從搜索點擊信息中選取在預設單位時間段內點擊量超出點擊量閾值的詞條生成候選詞條集合。

在本實施例中,上述電子設備可以從所獲取的搜索點擊信息中選取在預設單位時間段內點擊量超出點擊量閾值的詞條生成候選詞條集合。其中,該預設單位時間段可以是上述預定時間段內的結束單位時間段。例如,若上述預定時間段所包括的各個單位時間段依次為5月6日至6月4日,那麼6月4日可以為上述預定時間段內的結束單位時間段,該預設單位時間段可以是6月4號。若上述預定時間段所包括的每個單位時間段依次為00:00-00:29、00:30-00:59、01:00-01:29、…、11:30-11:59,那麼11:30-11:59可以為上述預定時間段內的結束單位時間段,該預設單位時間段可以是11:30-11:59。這裡,上述點擊量閾值可以是人為設置的,也可以是上述電子設備自動設置的,上述點擊量閾值可以根據實際需要進行修改,本實施例不對此方面內做任何限定。需要指出的是,不同長度的預定時間段可以對應不同的點擊量閾值。

步驟203,對於候選詞條集合中的每個候選詞條,將該候選詞條在預定時間段內所對應的各個點擊量按照時間先後順序形成點擊量序列。

在本實施例中,上述電子設備在生成候選詞條集合後,可以將該候選詞條集合中的每個候選詞條在上述預定時間段內所對應的各個點擊量(該候選詞條在上述預定時間段所包括的各個單位時間段內的點擊量)按照時間先後順序形成點擊量序列。例如,假定上述預定時間段所包括的各個單位時間段依次為5月5日、5月6日、5月7日,詞條「周**演唱會」在5月5日的點擊量為1000,在5月6日的點擊量為5000,在5月7日的點擊量為4800,則上述電子設備按照時間先後順序所形成的針對該詞條的點擊量序列可以例如是[1000,5000,4800]。

步驟204,基於各點擊量序列,確定與各點擊量序列分別對應的候選詞條的類別。

在本實施例中,上述電子設備在形成與上述候選詞條集合中的每個候選詞條對應的點擊量序列後,上述電子設備可以基於所形成的各個點擊量序列,確定各個點擊量序列分別對應的候選詞條的類別。其中,類別可以用於表徵候選詞條在上述預定時間段內被用戶關注的程度。類別可以例如包括熱門、周期、平穩、變冷等。當某個候選詞條所對應的點擊量序列中的各分量的值隨時間變化整體呈上升趨勢時(例如點擊量序列[30,50,100,68,101],雖然68低於100,但從該點擊量序列的起始點到結束點整體還是呈上升趨勢的),可以表徵該候選詞條被用戶關注的程度同樣是呈上升趨勢的,那麼該候選詞條的類別可以例如是熱門。當某個候選詞條所對應的點擊量序列中的各分量的值隨時間變化呈現例如上升、下降、上升、下降等(例如點擊量序列[50,100,50,100]),或下降、上升、下降、上升等(例如點擊量序列[100,50,100,50])這種周期性的趨勢時,可以表徵該候選詞條被用戶關注的程度也是呈周期性趨勢的,那麼該候選詞條的類別可以例如是周期。當某個候選詞條所對應的點擊量序列中的任意兩個分量的值之差的絕對值低於絕對值閾值時,可以表徵該點擊量序列中的各分量的值大小接近,變化趨勢比較平穩,同時可以表徵該候選詞條被用戶關注的程度比較平穩,那麼該候選詞條的類別可以例如是平穩。當某個候選詞條所對應的各分量的值隨時間變化整體呈下降趨勢時(例如點擊量序列[1000,1200,900],雖然1200大於1000,但從該點擊量序列的起始點到結束點整體是呈下降趨勢的),可以表徵該候選詞條被用戶關注的程度也呈下降趨勢,那麼該候選詞條的類別可以例如是變冷。需要說明的是,對於類別的命名,並不局限於上述熱門、周期、平穩、變冷等,類別的名稱是可以根據實際需要進行修改的。

在本實施例的一些可選的實現方式中,對於上述電子設備所形成的每個點擊量序列,上述電子設備可以根據該點擊量序列中的各分量的值隨時間變化的變化趨勢,將該點擊量序列分割成多個子序列,並生成針對該多個子序列中的每個子序列的趨勢描述信息。上述電子設備可以將該多個子序列和該多個子序列分別對應的趨勢描述信息輸入預先訓練的分類模型,以使該分類模型對該點擊量序列所對應的候選詞條的類別進行預測。其中,該分類模型可以用於表徵第一信息和類別的對應關係,該第一信息可以包括點擊量序列所分割成的各個子序列和該各個子序列分別對應的趨勢描述信息。作為示例,對於該點擊量序列中的任意兩個相鄰分量,若預置數值範圍集合中存在包括該相鄰分量的值的目標數值範圍,並且該相鄰分量的值之差的絕對值大於所述目標數值範圍所對應的閾值,則上述電子設備可以將該相鄰分量劃分到不同的子序列。其中,該預置數值範圍集合中的每個預置數值範圍具有與之對應的閾值。這裡,趨勢描述信息可以包括用於表徵上升趨勢的信息和用於表徵下降趨勢的信息。趨勢描述信息可以用特定的字符進行表示,例如用「1」表示上升,用「2」表示下降,本實施例不對此方面內容做任何限定。另外,上述預置數值範圍集合和上述預置數值範圍集合中的每個數值範圍所對應的閾值可以是人為設置的,也可以是上述電子設備自動設置的,本實施例不對此方面內容做任何限定。

在本實施例的一些可選的實現方式中,上述電子設備還可以通過執行以下步驟將每個點擊量序列分割成多個子序列:根據該點擊量序列中的各分量的值隨時間變化的變化趨勢,將該點擊量序列劃分成點擊量組序列;確定該點擊量組序列中的每個點擊量組中的各分量的值的平均值和方差;基於所確定的平均值和方差,在該點擊量組序列所包括的點擊量組中確定分割點;從所確定的分割點處對該點擊量序列進行分割,得到與該點擊量序列對應的多個子序列。作為示例,對於點擊量序列[75,85,253,273,133,167,370],假定值為85的分量被確定為分割點,則與該點擊量序列對應的多個子序列可以為[75,85]和[253,273,133,167,370]。這裡,上述電子設備可以從點擊量序列中查找出各個極值點,基於查找出的極值點將該點擊量序列劃分成點擊量組序列。其中,該極值點可以是該點擊量序列中的值同時大於或小於左右相鄰分量的值的分量。例如,假定該點擊量序列為[25,50,32,46],由於50同時大於25和32,並且32同時小於50和46,則上述電子設備可以將該點擊量序列劃分成點擊量組序列例如{[25,50],[32],[46]}。

對於任意一個點擊量組,該點擊量組中的各分量的值的平均值可以為該各分量的值之和與該各分量的數目的比值。上述電子設備可以利用如下公式計算該各分量的值的方差:

其中,n可以表示該各分量的數目;i為自然數,且1≤i≤n;xi表示該各分量中的第i個分量的值;表示該各分量的值的平均值;表示該各分量的值的方差。

需要指出的是,對於上述點擊量組序列中的任意兩個相鄰點擊量組,若第一預置數值範圍集合中存在目標第一預置數值範圍、該相鄰點擊量組中的位置靠後的點擊量組所對應的平均值除以位置靠前的點擊量組所對應的平均值所得的商大於該目標第一預置數值範圍所對應的第一預設值、並且該相鄰點擊量組中的每個點擊量組所對應的方差除以所對應的平均值所得的商大於該目標第一預置數值範圍所對應的第二預設值,則上述電子設備可以將該位置靠前的點擊量組中的最後一個分量作為分割點,其中,該目標第一預置數值範圍是包括該相鄰點擊量組分別對應的平均值之差的絕對值的數值範圍,該第一預置數值範圍集合中的每個第一預置數值範圍具有與之對應的第一預設值和第二預設值。需要說明的是,該第一預置數值範圍集合和該第一預置數值範圍集合包括的每個第一預置數值範圍所對應的第一預設值和第二預設值可以是人為設置的,也可以是上述電子設備自動設置的,本實施例不對此方面內容做任何限定。

在本實施例的一些可選的實現方式中,對於所形成的每個點擊量序列,上述電子設備還可以將該點擊量序列所包括的各個極值點直接作為分割點,從該分割點處對該點擊量序列進行分割,得到該點擊量序列的多個子序列。

步驟205,將類別為預設類別的候選詞條作為興趣點並生成興趣點集合。

在本實施例中,上述電子設備在確定上述候選詞條集合中的每個候選詞條的類別後,可以將類別為預設類別的候選詞條作為興趣點並生成興趣點集合。這裡,該預設類別可以例如是表徵候選詞條在上述預定時間段內被用戶關注的程度呈上升趨勢的類別,例如類別「熱門」。

可選地,上述電子設備可以對所生成的興趣點集合進行存儲,例如存儲至上述電子設備本地或與上述電子設備遠程通信連接的伺服器。

在本實施例的一些可選的實現方式中,上述電子設備還可以從上述興趣點集合中移除包含預設關鍵詞集合中的關鍵詞的興趣點以生成新興趣點集合。這裡,該預設關鍵詞集合中的關鍵詞可以例如是包括黃色內容(例如黃色電影的名稱、黃色網站的站點名稱等)的關鍵詞。這樣,將該新興趣點集合用於信息推送等場景時,可以避免向用戶推薦不良信息。

繼續參見圖3,圖3是根據本實施例的基於人工智慧的信息處理方法的應用場景的一個示意圖。在圖3的應用場景中,信息處理伺服器301可以在每天早上9點自動獲取當天的前30天所記錄的搜索點擊信息,其中,該搜索點擊信息可以包括在該30天所包括的每天被用戶群搜索的詞條和該詞條在該天的點擊量,該搜索點擊信息可以預存在數據存儲用伺服器302。假定當天為6月1日,信息處理伺服器301可以在當天早上9點從數據存儲用伺服器302獲取5月2日至5月31日記錄的搜索點擊信息303。而後,信息處理伺服器301可以從搜索點擊信息303中選取在5月31日點擊量超出點擊量閾值的詞條生成候選詞條集合304。之後,對於候選詞條集合304中的每個候選詞條,信息處理伺服器301可以將該候選詞條在5月2日至5月31日所對應的各個點擊量按照時間先後順序形成點擊量序列,這裡,可以將所形成的各個點擊量序列稱為點擊量序列集合305。然後,信息處理伺服器301可以基於點擊量序列集合305,確定與點擊量序列集合305中的各點擊量序列分別對應的候選詞條的類別,這裡,可以將所確定的各個類別稱為類別集合306。最後,信息處理伺服器301可以將候選詞條集合中的類別為預設類別「熱門」的候選詞條作為興趣點並生成興趣點集合307。

本申請的上述實施例提供的方法通過獲取在預定時間段內記錄的搜索點擊信息,以便從該搜索點擊信息中選取在預設單位時間段內點擊量超出點擊量閾值的詞條生成候選詞條集合;而後對於該候選詞條集合中的每個候選詞條,通過將該候選詞條在該預定時間段內所對應的各個點擊量按照時間先後順序形成點擊量序列,以便基於該點擊量序列確定該點擊量序列所對應的候選詞條的類別;最後將類別為預設類別的候選詞條作為興趣點以便生成興趣點集合。從而有效利用了在預定時間段內所記錄的搜索點擊信息,實現了富於針對性的信息處理。

進一步參考圖4,其示出了基於人工智慧的信息處理方法的又一個實施例的流程400。該基於人工智慧的信息處理方法的流程400,包括以下步驟:

步驟401,獲取在預定時間段內記錄的搜索點擊信息。

在本實施例中,基於人工智慧的信息處理方法運行於其上的電子設備(例如圖1所示的信息處理伺服器101)可以定期地(例如每天或每半小時等)獲取在預定時間段內記錄的搜索點擊信息。其中,該搜索點擊信息可以包括在該預定時間段所包括的每個單位時間段內被搜索的詞條和該詞條在該單位時間段內的點擊量。這裡,針對步驟401的解釋說明可參見圖2所示實施例中的步驟201的相關描述,在此不再贅述。

步驟402,從搜索點擊信息中選取在預設單位時間段內點擊量超出點擊量閾值的詞條生成候選詞條集合。

在本實施例中,上述電子設備可以從所獲取的搜索點擊信息中選取在預設單位時間段內點擊量超出點擊量閾值的詞條生成候選詞條集合。其中,該預設單位時間段可以是上述預定時間段內的結束單位時間段。這裡,針對步驟402的解釋說明可參見圖2所示實施例中的步驟202的相關描述,在此不再贅述。

步驟403,對於候選詞條集合中的每個候選詞條,將該候選詞條在預定時間段內所對應的各個點擊量按照時間先後順序形成點擊量序列。

在本實施例中,上述電子設備在生成候選詞條集合後,可以將該候選詞條集合中的每個候選詞條在上述預定時間段內所對應的各個點擊量(該候選詞條在上述預定時間段所包括的各個單位時間段內的點擊量)按照時間先後順序形成點擊量序列。這裡,針對步驟403的解釋說明可參見圖2所示實施例中的步驟203的相關描述,在此不再贅述。

步驟404,基於各點擊量序列,確定與各點擊量序列分別對應的候選詞條的類別。

在本實施例中,上述電子設備在形成與上述候選詞條集合中的每個候選詞條對應的點擊量序列後,上述電子設備可以基於所形成的各個點擊量序列,確定各個點擊量序列分別對應的候選詞條的類別。這裡,針對步驟404的解釋說明可參見圖2所示實施例中的步驟204的相關描述,在此不再贅述。

步驟405,將類別為預設類別的候選詞條作為興趣點並生成興趣點集合。

在本實施例中,上述電子設備在確定上述候選詞條集合中的每個候選詞條的類別後,可以將類別為預設類別的候選詞條作為興趣點並生成興趣點集合。這裡,該預設類別可以例如是表徵候選詞條在上述預定時間段內被用戶關注的程度呈上升趨勢的類別,例如類別「熱門」。

步驟406,計算興趣點集合中的任意兩個興趣點之間的相似度,將相似度高於相似度閾值的興趣點進行合併以生成第一興趣點集合。

在本實施例中,上述電子設備可以計算興趣點集合中的任意兩個興趣點之間的相似度,將相似度高於相似度閾值的興趣點進行合併以生成第一興趣點集合。這裡,上述電子設備可以例如採用編輯距離(editdistance)算法來計算任意兩個興趣點之間的相似度。編輯距離又稱levenshtein距離,是指兩個字串之間,由一個轉成另一個所需的最少編輯操作次數。許可的編輯操作包括將一個字符替換成另一個字符,插入一個字符,刪除一個字符。一般來說,編輯距離越小,兩個串的相似度越大。這裡,該第一興趣點集合包括上述興趣點集合中的未經合併的興趣點和通過合併所得的興趣點。這樣,通過對相似度較高的興趣點進行合併,可以減少興趣點的數量,以及提高興趣點的質量。

在本實施例的一些可選的實現方式中,上述電子設備還可以對上述興趣點集合中的每個興趣點進行切詞,基於切出的詞來計算上述興趣點集合中的任意兩個興趣點之間的相似度。這裡,上述電子設備可以採用餘弦相似度(cosinesimilarity)算法、jaccard係數之類的公知的文本相似度計算方法來進行相似度計算。以jaccard係數方法為例,上述電子設備可以將上述興趣點集合中的每個興趣點所切出詞的詞組成詞集合,對於上述興趣點集合中的某兩個興趣點,例如興趣點a和興趣點b,興趣點a對應詞集合a1,興趣點b對應詞集合b1,詞集合a1和詞集合b1之間的相似度可以等於詞集合a1和詞集合b1之間共有的詞的數目除以詞集合a1和詞集合b1一起包括的詞的數目。

步驟407,從第一興趣點集合中移除包含預設關鍵詞集合中的關鍵詞的興趣點以生成第二興趣點集合。

在本實施例中,上述電子設備在生成上述第一興趣點集合後,可以進一步從第一興趣點集合中移除包含預設關鍵詞集合中的關鍵詞的興趣點以生成第二興趣點集合。這裡,該預設關鍵詞集合中的關鍵詞可以例如是包括黃色內容(例如黃色電影的名稱、黃色網站的站點名稱等)的關鍵詞。這樣,將該第二興趣點集合用於信息推送等場景時,可以避免向用戶推薦不良信息。而且,通過從第一興趣點集合中移除包含預設關鍵詞集合中的關鍵詞的興趣點,可以進一步減少興趣點的數量,以及提高興趣點的質量。

從圖4中可以看出,與圖2對應的實施例相比,本實施例中的基於人工智慧的信息處理方法的流程400突出了對第一興趣點集合和第二興趣點集合的生成步驟。由此,本實施例描述的方案可以進一步減少所確定的興趣點的數量,並且可以提高興趣點的質量。

進一步參考圖5,作為對上述各圖所示方法的實現,本申請提供了一種基於人工智慧的信息處理裝置的一個實施例,該裝置實施例與圖2所示的方法實施例相對應,該裝置具體可以應用於各種電子設備中。

如圖5所示,本實施例所示的基於人工智慧的信息處理裝置500包括:獲取單元501、第一生成單元502、形成單元503、確定單元504和第二生成單元505。其中,獲取單元501配置用於獲取在預定時間段內記錄的搜索點擊信息,其中,上述搜索點擊信息包括在上述預定時間段所包含的每個單位時間段內被搜索的詞條和各上述詞條在該單位時間段內的點擊量;第一生成單元502配置用於從上述搜索點擊信息中選取在預設單位時間段內點擊量超出點擊量閾值的詞條生成候選詞條集合;形成單元503配置用於對於上述候選詞條集合中的每個候選詞條,將該候選詞條在上述預定時間段內所對應的各個點擊量按照時間先後順序形成點擊量序列;確定單元504配置用於基於各上述點擊量序列,確定與各上述點擊量序列分別對應的候選詞條的類別,其中,上述類別用於表徵候選詞條在上述預定時間段內被用戶關注的程度;而第二生成單元505配置用於將類別為預設類別的候選詞條作為興趣點並生成興趣點集合。

在本實施例中,基於人工智慧的信息處理裝置500中:獲取單元501、第一生成單元502、形成單元503、確定單元504和第二生成單元505的具體處理及其所帶來的技術效果可分別參考圖2對應實施例中的步驟201、步驟202、步驟203、步驟204和步驟205的相關說明,在此不再贅述。

在本實施例的一些可選的實現方式中,上述確定單元504可以包括:分割子單元(圖中未示出),配置用於對於每個上述點擊量序列,基於上述點擊量序列中的各分量的值隨時間變化的變化趨勢,將上述點擊量序列分割成多個子序列;生成子單元(圖中未示出),配置用於生成針對上述多個子序列中的每個子序列的趨勢描述信息;預測子單元(圖中未示出),配置用於將上述多個子序列和上述多個子序列分別對應的趨勢描述信息輸入預先訓練的分類模型,以使上述分類模型對上述點擊量序列所對應的候選詞條的類別進行預測;其中,上述分類模型用於表徵第一信息和類別的對應關係,上述第一信息包括點擊量序列所分割成的各個子序列和上述各個子序列分別對應的趨勢描述信息。

在本實施例的一些可選的實現方式中,上述分割子單元可以包括:處理模塊(圖中未示出),配置用於對於上述點擊量序列中的任意兩個相鄰分量,若預置數值範圍集合中存在包括上述相鄰分量的值的目標數值範圍,並且上述相鄰分量的值之差的絕對值大於上述目標數值範圍所對應的閾值,則將上述相鄰分量劃分到不同的子序列,其中,上述預置數值範圍集合中的每個預置數值範圍具有與之對應的閾值。

在本實施例的一些可選的實現方式中,上述分割子單元可以包括:劃分模塊(圖中未示出),配置用於基於上述點擊量序列中的各分量的值隨時間變化的變化趨勢,將上述點擊量序列劃分成點擊量組序列;第一確定模塊(圖中未示出),配置用於確定上述點擊量組序列中的每個點擊量組中的各分量的值的平均值和方差;第二確定模塊(圖中未示出),配置用於基於所確定的平均值和方差,在上述點擊量組序列所包括的點擊量組中確定分割點;分割模塊(圖中未示出),配置用於從所確定的分割點處對上述點擊量序列進行分割,得到與上述點擊量序列對應的多個子序列。

在本實施例的一些可選的實現方式中,上述劃分模塊可以包括:劃分子模塊(圖中未示出),配置用於從上述點擊量序列中查找出各個極值點,基於查找出的極值點將上述點擊量序列劃分成點擊量組序列,其中,上述極值點是上述點擊量序列中的值同時大於或小於左右相鄰分量的值的分量。

在本實施例的一些可選的實現方式中,上述第二確定模塊可以包括:確定子模塊(圖中未示出),配置用於對於上述點擊量組序列中的任意兩個相鄰點擊量組,若第一預置數值範圍集合中存在目標第一預置數值範圍、上述相鄰點擊量組中的位置靠後的點擊量組所對應的平均值除以位置靠前的點擊量組所對應的平均值所得的商大於上述目標第一預置數值範圍所對應的第一預設值、並且上述相鄰點擊量組中的每個點擊量組所對應的方差除以所對應的平均值所得的商大於上述目標第一預置數值範圍所對應的第二預設值,則將上述位置靠前的點擊量組中的最後一個分量作為分割點,其中,上述目標第一預置數值範圍是包括上述相鄰點擊量組分別對應的平均值之差的絕對值的數值範圍,上述第一預置數值範圍集合中的每個第一預置數值範圍具有與之對應的第一預設值和第二預設值。

在本實施例的一些可選的實現方式中,上述裝置500還可以包括:第三生成單元(圖中未示出),配置用於計算上述興趣點集合中的任意兩個興趣點之間的相似度,將相似度高於相似度閾值的興趣點進行合併以生成第一興趣點集合。

在本實施例的一些可選的實現方式中,上述第三生成單元可以包括:計算子單元(圖中未示出),配置用於對上述興趣點集合中的每個興趣點進行切詞,基於切出的詞來計算上述興趣點集合中的任意兩個興趣點之間的相似度。

在本實施例的一些可選的實現方式中,上述裝置500還可以包括:第四生成單元(圖中未示出),配置用於從上述第一興趣點集合中移除包含預設關鍵詞集合中的關鍵詞的興趣點以生成第二興趣點集合

本申請的上述實施例提供的裝置通過獲取在預定時間段內記錄的搜索點擊信息,以便從該搜索點擊信息中選取在預設單位時間段內點擊量超出點擊量閾值的詞條生成候選詞條集合;而後對於該候選詞條集合中的每個候選詞條,通過將該候選詞條在該預定時間段內所對應的各個點擊量按照時間先後順序形成點擊量序列,以便基於該點擊量序列確定該點擊量序列所對應的候選詞條的類別;最後將類別為預設類別的候選詞條作為興趣點以便生成興趣點集合。從而有效利用了在預定時間段內所記錄的搜索點擊信息,實現了富於針對性的信息處理。

下面參考圖6,其示出了適於用來實現本申請實施例的伺服器的計算機系統600的結構示意圖。圖6示出的伺服器僅僅是一個示例,不應對本申請實施例的功能和使用範圍帶來任何限制。

如圖6所示,計算機系統600包括中央處理單元(cpu)601,其可以根據存儲在只讀存儲器(rom)602中的程序或者從存儲部分608加載到隨機訪問存儲器(ram)603中的程序而執行各種適當的動作和處理。在ram603中,還存儲有系統600操作所需的各種程序和數據。cpu601、rom602以及ram603通過總線604彼此相連。輸入/輸出(i/o)接口605也連接至總線604。

以下部件連接至i/o接口605:包括鍵盤、滑鼠等的輸入部分606;包括諸如陰極射線管(crt)、液晶顯示器(lcd)等以及揚聲器等的輸出部分607;包括硬碟等的存儲部分608;以及包括諸如lan卡、數據機等的網絡接口卡的通信部分609。通信部分609經由諸如網際網路的網絡執行通信處理。驅動器610也根據需要連接至i/o接口605。可拆卸介質611,諸如磁碟、光碟、磁光碟、半導體存儲器等等,根據需要安裝在驅動器610上,以便於從其上讀出的電腦程式根據需要被安裝入存儲部分608。

特別地,根據本公開的實施例,上文參考流程圖描述的過程可以被實現為計算機軟體程序。例如,本公開的實施例包括一種電腦程式產品,其包括承載在計算機可讀介質上的電腦程式,該電腦程式包含用於執行流程圖所示的方法的程序代碼。在這樣的實施例中,該電腦程式可以通過通信部分609從網絡上被下載和安裝,和/或從可拆卸介質611被安裝。在該電腦程式被中央處理單元(cpu)601執行時,執行本申請的系統中限定的上述功能。

需要說明的是,本申請所示的計算機可讀介質可以是計算機可讀信號介質或者計算機可讀存儲介質或者是上述兩者的任意組合。計算機可讀存儲介質例如可以是——但不限於——電、磁、光、電磁、紅外線、或半導體的系統、裝置或器件,或者任意以上的組合。計算機可讀存儲介質的更具體的例子可以包括但不限於:具有一個或多個導線的電連接、可攜式計算機磁碟、硬碟、隨機訪問存儲器(ram)、只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或快閃記憶體)、光纖、可攜式緊湊磁碟只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本申請中,計算機可讀存儲介質可以是任何包含或存儲程序的有形介質,該程序可以被指令執行系統、裝置或者器件使用或者與其結合使用。而在本申請中,計算機可讀的信號介質可以包括在基帶中或者作為載波一部分傳播的數據信號,其中承載了計算機可讀的程序代碼。這種傳播的數據信號可以採用多種形式,包括但不限於電磁信號、光信號或上述的任意合適的組合。計算機可讀的信號介質還可以是計算機可讀存儲介質以外的任何計算機可讀介質,該計算機可讀介質可以發送、傳播或者傳輸用於由指令執行系統、裝置或者器件使用或者與其結合使用的程序。計算機可讀介質上包含的程序代碼可以用任何適當的介質傳輸,包括但不限於:無線、電線、光纜、rf等等,或者上述的任意合適的組合。

附圖中的流程圖和框圖,圖示了按照本申請各種實施例的系統、方法和電腦程式產品的可能實現的體系架構、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段、或代碼的一部分,上述模塊、程序段、或代碼的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。也應當注意,在有些作為替換的實現中,方框中所標註的功能也可以以不同於附圖中所標註的順序發生。例如,兩個接連地表示的方框實際上可以基本並行地執行,它們有時也可以按相反的順序執行,這依所涉及的功能而定。也要注意的是,框圖或流程圖中的每個方框、以及框圖或流程圖中的方框的組合,可以用執行規定的功能或操作的專用的基於硬體的系統來實現,或者可以用專用硬體與計算機指令的組合來實現。

描述於本申請實施例中所涉及到的單元可以通過軟體的方式實現,也可以通過硬體的方式來實現。所描述的單元也可以設置在處理器中,例如,可以描述為:一種處理器包括獲取單元、第一生成單元、形成單元、確定單元、第二生成單元。其中,這些單元的名稱在某種情況下並不構成對該單元本身的限定,例如,獲取單元還可以被描述為「獲取在預定時間段內記錄的搜索點擊信息的單元」。

作為另一方面,本申請還提供了一種計算機可讀介質,該計算機可讀介質可以是上述實施例中描述的伺服器中所包含的;也可以是單獨存在,而未裝配入該伺服器中。上述計算機可讀介質承載有一個或者多個程序,當上述一個或者多個程序被一個該伺服器執行時,使得該伺服器包括:獲取在預定時間段內記錄的搜索點擊信息,其中,上述搜索點擊信息包括在上述預定時間段所包含的每個單位時間段內被搜索的詞條和各上述詞條在該單位時間段內的點擊量;從上述搜索點擊信息中選取在預設單位時間段內點擊量超出點擊量閾值的詞條生成候選詞條集合;對於上述候選詞條集合中的每個候選詞條,將該候選詞條在上述預定時間段內所對應的各個點擊量按照時間先後順序形成點擊量序列;基於各上述點擊量序列,確定與各上述點擊量序列分別對應的候選詞條的類別,其中,上述類別用於表徵候選詞條在上述預定時間段內被用戶關注的程度;將類別為預設類別的候選詞條作為興趣點並生成興趣點集合。

以上描述僅為本申請的較佳實施例以及對所運用技術原理的說明。本領域技術人員應當理解,本申請中所涉及的發明範圍,並不限於上述技術特徵的特定組合而成的技術方案,同時也應涵蓋在不脫離上述發明構思的情況下,由上述技術特徵或其等同特徵進行任意組合而形成的其它技術方案。例如上述特徵與本申請中公開的(但不限於)具有類似功能的技術特徵進行互相替換而形成的技術方案。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀