新四季網

怎麼可以弄成柯南的變聲器(現實版柯南變聲器)

2023-11-05 10:50:24 1

聲音秒變志玲姐姐,秒變「矮大緊」,秒變蘿莉、正太,現在通通不是問題!

近日,搜狗公司 CEO 王小川在一場大會上展示了搜狗變聲功能,可以讓你的聲音秒變志玲姐姐,下一秒變馬雲,下一秒再變高曉松。

這一語音變聲技術可以實現把任何人的聲音轉化成特定聲音,即「Anyone to One」. 這是表徵學習在變聲應用方面的一個突破,搜狗將這項技術落地搜狗輸入法中,在行業率先實現落地商用。

在搜狗輸入法中,搜狗目前提供了明星、卡通人物、遊戲 IP、方言等幾個類別供 19 種特定聲音,你可以將自己的聲音自由變換成喜歡的聲音,目前在微信、QQ、陌陌等主要社交場景均可使用。

更為重要的是,當搜狗將自身的語音變聲技術、AI 合成主播技術等與行業結合,尤其尤其是與媒體、教育、內容製作、旅遊等場景結合,將會帶來更大的價值想像空間。

一、搜狗語音變聲實測:逼真度高、自由度高

在搜狗輸入法中,通過「變聲」功能,我們的聲音可以轉化為明星、動漫人物、遊戲人物等各種炫酷的嗓音。目前,搜狗輸入法的「變聲」功能可轉化為 19 種不同音色的語音,可以在微信、QQ 等聊天時使用,更像一種「語音表情包」,為社交增添新的玩法。

我們先看看語音變聲到底是什麼樣的:

可以看出,搜狗語音變聲是一種將任意說話人音色實時高逼真度變換到指定說話人音色的技術,即把我們的說話內容和風格完整地遷移到特定對象的語音上。這種變聲要比單純的變音難很多,最重要的是模型需要通過深度學習從語音抽取特定的嵌入向量,這些嵌入向量表示了說話的內容、風格、情感、音色等信息,並用目標音色代替原始音色實現變聲。

它主要有如下三大特點:

高還原度的變聲:變聲結果和目標說話人的真實嗓音非常像;

自由度極高的變聲:使用者的語音沒有任何限制,選定目標嗓音後,不同使用者變聲後的嗓音能保持一致。也就是說這是一種 Any-to-One 的方式,任意人變聲到一人的能力;

風格遷移的變聲:我們的說話內容、風格(語速、停頓、情感等)都能保留下來,只是音色變換到選定的目標嗓音。

語音變聲是搜狗的創新,這是全新的發展領域比語音合成更具有廣泛的使用場景。同時,搜狗則在語音表徵學習、遷移學習技術的突破基礎上,再進一步將其部署到產品中,率先在行業實現落地。

而 Any-to-One 的方式意味著,模型不對說話人做約束,就可以實現變聲到制定目標音色的遷移效果。模型訓練只需要幾十分鐘的聲音語料即可學習到目標語音的特點,所以如果你想定製一個變聲語音,成本並不會很大。

二、受益表徵學習突破 詳解搜狗變聲模型

搜狗語音交互中心高級總監陳偉表示,搜狗語音變聲技術的突破,主要是在表徵學習的研究上取得的,基於大量的語音數據,從中學習到有效表達說話人不同維度信息和屬性的表徵。

針對變聲的任務需要學習到三類表徵:

說話人無關的內容表徵:基於大量說話人語音數據,從中學習提取說話人無關表徵的模型;

目標說話人聲紋表徵,它表示不同人的「嗓音」差別。不同的聲紋特徵向量,對應著不同的目標音色;

說話風格的表徵,模型還應該學習到各種說話風格韻律相關的特徵,例如語速的快慢和情感的起伏等。

搜狗構建的模型,主要會從說話人語音的音色、內容和韻律 (講話節奏、情感語氣等信息) 三個維度描述相關特徵。並將學習到的說話人音色特徵替換成目標說話人,最後基於搜狗語音到語音的新技術生成變聲音頻。

當這三類特徵都能學習出來時,通過模型的學習進行解碼生成對應目標音色的語音,從而實現將源說話人的內容和風格遷移到目標說話人的音色。

變聲的架構

那麼這些特徵都是怎樣聯合,並完成變聲的呢?陳偉解釋了變聲功能的整體架構與過程,它是一個端到端的高效模型。對應上面所述的三類特徵,編碼部分可以分為 A、B、C 三個子模塊。每一個模塊負責一類特徵,最後結合三種特徵而解碼為目標語音、。如下為變聲功能的整體架構:

其中 A、B、C 組成了表徵學習部分,後面的注意力機制和解碼器組成了語音變聲模塊。這裡可能令人疑惑的是,為什麼說 B 和 C 兩個嵌入向量能學習到內容與韻律,注意力機制又是怎樣結合三大特徵?

嵌入向量是什麼?

A 的嵌入向量能學習到聲紋信息並不難理解。如果嵌入向量能區分不同的說話人,那麼就表示它學習到了不同人的音色或嗓音,A 也就完成了對音色語料的聲紋特徵編碼。

但問題是,為什麼 B 和 C 兩個模塊能從輸入音頻中學習到內容與韻律?

陳偉表示,這兩個向量都要加一些約束才能學習到不同的特徵。現在很多模型學習到的表徵都是採用無監督的方式,例如自編碼器、基於流的方法,學習到的表徵並不能確定具體表示什麼。只有人工再去判斷,我們才能知道它可能和語音、圖像的哪些屬性相關。

但是在 B 和 C 兩個模塊中,模型的目的非常明確,它希望學習到與內容和風格相關的特徵。在這個過程中需要其它約束與監督信息,使模型朝著具體的方向學習。具體而言,如果 B 希望學習到內容相關的特徵,那麼可能就需要語音內容進行約束。只有 B 的嵌入向量能重構出文本內容,這才表示它確實學到了。

注意在 B 中會有一個說話人歸一化的模塊,主要用來去除音色信息。

注意的是什麼?

對於語音變聲中,若得到各種嵌入向量,並通過注意力機制加權成特徵編碼,那麼就可以繼續通過 WaveRNN 等神經網絡聲碼器將其恢復為語音,從而最終得到帶有目標音色的音頻。

所以注意力機制到底「注意」的是什麼?

陳偉表示,整個注意力機制需要將三種不同的表徵信息進行對齊,其中說話人編碼器(A)學到的聲紋嵌入向量是與時間無關,是基於整段音頻學習到的表徵矢量,但是對於內容和風格韻律而言,它們與時間相關,不同時間點的表徵是不同的。

在時間序列上,模型需要逐幀地解碼而生成目標語音。在每一個時間步上,或者說每一步解碼上,模型都需要通過注意力機制確定到底要用那些內容、風格與目標說話人聲紋進行融合。融合這些信息之後,模型才能完成整個序列的解碼,從而生成目標音色對應的語音。

三、想像空間遠不止步於輸入法

針對語音變聲技術在搜狗輸入法中的應用,陳偉表示,變聲功能上線第一天,使用次數就有數百萬次,目前用戶使用量在持續增長。在當前上線的目標音色中,林志玲的聲音是使用最多的,東北方言、磁性男聲等具有特色的嗓音,也非常受歡迎。

他還表示,搜狗輸入法除了解決效率問題外,正在不斷嘗試提升用用戶體驗,比如這次的搜狗變聲,讓輸入法變得更加有趣好玩。

但搜狗語音變聲技術的想像空間遠不止如此。

陳偉說,變聲能力本質解決兩個問題,一個是聲音美化(聲音濾鏡以及音色遷移),一個是隱私保護,這兩塊有非常大的潛在應用空間,甚至會對行業帶來重要的影響。

比如在教育行業,遠程直播 / 網絡課程非常紅火,但是有些老師往往帶有口音,普通話並不標準。通過變聲技術,可以把網絡教師的音色變為一個普通話標準的、更加有品質的音色,同時保留老師自身的內容、風格特色。

再比如未來的內容製作領域,以兒童故事、有聲內容為例,假如你擁有蠟筆小新的 IP 版權,結合變聲技術就可以以蠟筆小新的口吻講述小朋友喜歡的故事。

除了教育、有聲內容製作外,電商、旅遊、宣傳等中多領域,變聲技術都有用武之地。陳偉也表示,目前公司正在跟一些行業企業接觸,未來會走向行業應用。

搜狗語音變聲技術,再結合搜狗近期推出的 AI 合成主播,相信與內容製作、教育、娛樂等行業的進一步結合,將會有更大的商用空間有待探索。

來源:北國網

(免責聲明:以上內容為本網站傳播商業信息之目的進行轉載發布,不代表本網觀點,亦不代表本網站贊同其觀點或證實其內容的真實性。)

,
同类文章
貓咪多久需要擠肛門腺(貓咪肛門腺到底要不要擠)

貓咪多久需要擠肛門腺(貓咪肛門腺到底要不要擠)

鏟屎官最近聞到自家的貓咪散發出一股臭味,久久揮散不去,走哪帶哪。 貓咪也開始頻繁在地上摩擦自己的屁股,這是貓咪需要擠肛門腺了嘛? 鏟屎官立刻就某度了一下,結果有人說要擠!有人說不要擠!這給人整暈乎了,到底是擠還是不擠啊! 本篇文章就幫鏟屎官們理理清楚,先出結論:不用擠!
寧波流浪狗愛心救助直播(寧波最暖心物業)

寧波流浪狗愛心救助直播(寧波最暖心物業)

救人一命 勝造七級浮屠 那救狗一命呢? 天熱了 小動物們都很愛折騰啊 論壇上剛來了一隻最不要臉的邊牧犬 現在又有了一隻錯估自己頭型 伸進欄杆卻出不來的流浪狗 …… (拍的略糊,可這小眼神看著又慘又想笑) 東論網友@quyd拍攝 終於,這副慘狀引來好心
蜘蛛俠新角色首曝(蜘蛛俠新女友黑貓)

蜘蛛俠新角色首曝(蜘蛛俠新女友黑貓)

2021年還剩下幾天就將成為過去式,而未來式的2022年也是站在了接力點前,而伴隨著2022年虎年的到來,關於漫威這段時間的很多消息傳聞也是不斷湧現出來,有關於後續的項目作品的,也有關於之前漫威項目新消息的。 所以,今天咱們就來看看,漫威這段時間都有哪些新消息曝光: 【1】8個漫威秘
狗突然的對主人叫心臟都要嚇壞了(主人以為狗狗躺在血泊中)

狗突然的對主人叫心臟都要嚇壞了(主人以為狗狗躺在血泊中)

家裡養了狗,那真就是隨時準備迎接新驚喜,尤其是柯基這種渾身上下散發著「智慧」氣質的狗狗。 這隻超可愛的柯基叫作Cartier,它的主人在泰國大城經營著一家咖啡館兒,平時它就跟主人在店裡呆著,四處遛遛什麼的。 前幾天主人像往常一樣讓Cartier出門自己上廁所然後等它回來。結果等了好久
貓超卡划算嗎(10元貓超卡又來了)

貓超卡划算嗎(10元貓超卡又來了)

前言:收到顯示器,黑色背景下全是彩色亮點,換貨; 不過27寸4K的屏幕,用電腦真的爽,比筆記本爽多了,雖然我這個筆記本是16寸的。01 10元貓超卡又來? 一、活動概覽 活動地址:https://developer.aliyun.com/adc/series/activity/serv
戰神貓熊滿級(娜貓的雙子指令形態登場)

戰神貓熊滿級(娜貓的雙子指令形態登場)

在最新的特攝雜誌上,出現了比較有趣的劇照,首先就是關於女騎假面騎士娜貓的新形態。雖然是女騎,但其實她的新形態比較少,目前一直都是在使用這個節拍形態,終於有了新的形態了。另外就是之前因為基洛利而下線的假面騎士棕熊,似乎並沒有死亡,然後再度歸來。然後就是假面騎士極狐和邪魔徒的立場了,似乎是合作了?因為
世界排名前10最聰明的狗貴賓(能記住一千多個單詞)

世界排名前10最聰明的狗貴賓(能記住一千多個單詞)

2021年5月10日,Hub City Animal Project宣布展出一座銅像,以紀念「世界上最聰明的狗狗」——Chaser。 她有多聰明呢?她在1歲時就能記住約4百個單詞,在三歲時,她的詞彙量已經超過了一千個! Chaser飼主的女兒Bianchi還說道,除了知道哪個單詞對應
淘寶目前暢銷的玩具(天貓618四大類玩具熱賣榜)

淘寶目前暢銷的玩具(天貓618四大類玩具熱賣榜)

截止6月20日23:59,天貓「618年中大促」落下帷幕。與往年鋪天蓋地的宣傳相比,今年整個活動周期都顯得有些安靜,平臺方甚至沒在活動結束第一時間發布最終成交額數據。這不免讓人忐忑:今年的行情是否很差? 從玩具業來看,不是很樂觀。中外玩具全媒體中心記者從部分廠商處獲悉,由於疫情對經濟造成的
愛養貓的女生什麼性格(養女兒如養貓)

愛養貓的女生什麼性格(養女兒如養貓)

在眾多想生兒子的家庭中,不全是因為重男輕女,而是有些夫妻感覺養女兒後經歷失望和傷心,許多方面要比養男孩更操心。 可女兒不是一直被稱為爸爸媽媽的貼心小棉襖嗎?為何會有人這樣比喻女兒呢?這不得不提有些女孩總在感情中犯傻的情況。 不久前的假期我參加了多場婚禮,現場有許多新娘新郎的長輩,在一聲聲祝
已滅絕的金剛鸚鵡(最高可賣上萬歐元)

已滅絕的金剛鸚鵡(最高可賣上萬歐元)

金剛鸚鵡原產於巴西的亞馬遜熱帶雨林地區。圖據《國家地理》網站 金剛鸚鵡是色彩豔麗的大型鸚鵡,羽毛五彩斑斕,像彩虹一樣漂亮。平均體長在90-100釐米左右。它們智商很高,模仿能力超強,平均壽命有65年之久。由於廣受喜歡,金剛鸚鵡長期以來成為不法分子走私的對象。據美國《國家地理》雜誌報導,隨