新四季網

方言ai識別(20種語言方言實時轉錄)

2023-11-06 09:05:39

機器之心報導

作者:寓揚

一款「開掛」的錄音筆,你會喜歡嗎?

在 AI 的加持下,錄音筆仿佛有了開掛的「人生」:

最高支持 10 米遠距離拾音,可過濾 4 萬餘種真實噪音;可根據用戶語言習慣個性化轉寫,語音轉寫準確率達 98%;還能區分不同人聲,做重點標記,自動提煉摘要。

它還能充當你的翻譯官,支持 63 種語言的對話翻譯,以及同聲傳譯。

你可以用它做會議錄音、聽課記錄、採訪,也可以用它與不同國家的遊客交流,甚至可以拿著它刷美劇。

沒錯,這正是搜狗新推出的新款 AI 錄音筆 S1。它的背後,不單單是一款硬體,更是搜狗 AI 能力的集合。

搜狗公司 CEO 王小川道出了他們做 AI 硬體的目的,「隨著 AI 技術的進步,我們希望用戶能更自由的表達,用你的聲音、表情或肢體來表達,機器就可以理解,這些我們能做到的時候,就算達到了一個技術高度。」

01、搜狗 AI 錄音筆是如何煉成的?

從搜狗輸入法到語音交互、機器翻譯,再到 AI 硬體,這背後有著深刻的搜狗 AI 發展邏輯。

早在 2016 年,當時搜狗沒有做 AI 硬體,而是做了語音開放平臺「知音引擎」,嘗試技術輸出。

但當時各路語音平臺紛紛湧現,方案上沒有誰真正不可替代,客戶往往在多家間來回切換。另一方面,通用技術平臺體驗並不理想,加上 AI 行業處於早期,軟體免費的思路還停留在很多人心中。

因此從 2017 年下半年開始,搜狗開啟 AI 硬體的探索,沉澱技術,打磨硬體與場景。

2018 年上半年,搜狗推出探索之作——AI 翻譯機和 AI 錄音筆。如今 AI 硬體,已和輸入法、搜索一樣,是搜狗的幾大重要戰略之一。

接著 2019 年 3 月,搜狗又推出一款小巧的 AI 錄音筆 C1,它具備了最新產品的雛形,支持語音轉寫、雲端分享、中英同傳等多種 AI 功能。

更重要的是,C1 的出現讓略顯疲態的錄音筆行業鮮活了起來。經過用戶一段時間的使用,搜狗對用戶行為數據深入分析後,第一次呈現了用戶的真實畫像。

搜狗發現,使用錄音筆的第一大場景並非大家預想的媒體採訪,而是企業內部的商務場景,比如會議記錄,佔比高達 44%;其次是學習培訓佔比 24%,媒體採訪佔比 21%,這三大場景佔總使用場景的近九成。

正是基於對三大場景的思考,在 C1 的基礎上,搜狗推出全新的 S1 和 E1 兩款 AI 錄音筆,還與故宮宮廷文化合作推出兩款聯名產品。

對比這兩代產品,搜狗 CTO 楊洪濤解釋,C1 系列解決的是隨身便攜的錄音需求,可以像領件一樣夾在衣領上,它的使用空間相對近場,一般不要超過 3 米。而最新發布的 S1 和 E1 產品,主要解決複雜場景的錄音需求,能在多人會議、課堂聽講、嘈雜背景採訪中使用,可將使用範圍擴大到 5~10 米。

為了滿足更為複雜專業的需求,搜狗在遠距離拾音、降噪上投入頗多。AI 錄音筆 S1 搭配 2 顆哈曼指向性麥克風和 6 顆全向麥克風,在麥克風陣列算法的加持下,可有效過濾噪音,實現最高 10 米遠距離拾音。

更重要的是,它還採用 AI 降噪,能夠過濾 4 萬餘種真實噪音,讓人聲收錄更清晰。

搜狗 AI 交互技術部總經理陳偉解釋道,在硬體降噪基礎上,搜狗首次將基於深度學習的降噪能力完全產品化。「我們使用了 4 萬多種噪聲,讓模型學習到人聲與噪聲的區別,從而達到超出麥克風陣列以及行業其他降噪方案的更好降噪效果。」

在現場的測試環節,AI 錄音筆 S1 面對鍵盤敲打、吹風機等的考驗下,依然能夠過濾噪音,提取清晰的人聲。

可以看出,在硬體之路上摸爬滾打近 3 年後,搜狗對於 AI 硬體的理解也更為深刻。

只有面向用戶體驗,深入場景打磨技術,將技術、硬體、場景融合才能構建 AI 的競爭力。

02、AI 要轉化為服務能力

搜狗內部有一句話叫,只做技術是不夠的,技術要轉化為服務能力。因為沒有面向場景的深度優化,技術往往是一種雞肋。

搜狗 AI 錄音筆 S1

圍繞多人會議、學習培訓、媒體採訪等核心場景,搜狗 AI 錄音筆 S1 除了做到「超強拾音」外,還具備「準確轉寫」「高效整理」「全能翻譯」的能力,也呈現出搜狗將技術轉化為服務能力的思考。

如果放在一個工作流中,錄完音後,如何準確快速地語音轉寫至關重要。如果交給人來做是個繁重的體力活,而語音轉寫軟體多不準確。

搜狗稱,AI 錄音筆 S1 及 E1 目前已能達到 98% 的轉寫準確率。這一數字背後搜狗做了大量的優化工作。

首先,搜狗輸入法每天 8.3 億次的語音請求,為聽寫服務提供了絕佳的「練兵場」,結合遠場語音數據和真實場景的優化,已能將準確率達到不錯的效果。

在此基礎上,搜狗又打通用戶輸入法帳號,根據用戶的語言習慣,進行個性化轉寫。此外,搜狗語音團隊還專門圍繞財經貿易、醫療衛生、IT 科技、政法、文化體育等 5 個領域,構建專用語言模型,進一步提升行業詞彙的識別,做到了 98% 的準確率。

S1 及 E1 這兩款產品也十分高效,均可做到錄音 1 小時,出稿 5 分鐘,並且支持 10 種語言和 10 種方言的錄音與轉寫。

搜狗 AI 錄音筆 E1

接下來是高效整理。結合使用場景,搜狗做了一些非常實用的功能點,讓人印象深刻的是「敲重點」和智能摘要技術。

當你在聽課或者參加會議時,突然聽到一句神來之筆或者金句,「敲重點」就派上用場了。S1 有一個專用「M」鍵,按一下,它就會將這句話標記為重點。

面對一篇萬字長文,如何能快速獲取其關鍵信息。正是出於這種考慮,搜狗推出智能摘要功能,但其效果如何呢?

陳偉坦言,在 AI 錄音筆中提取摘要,遠大於學術研究中的摘要生成問題,因為錄音筆是在噪聲環境下,語音識別難以保證 100% 的準確率,從噪音文本中整理出符合文章語意的摘要是相當困難的。

因此在技術路線上,搜狗沒有使用生成模型,而是採用抽取式的摘要能力,基於原文找到關鍵詞,再通過排序算法,從文章中抽取關鍵句,形成摘要,保證足夠的精度。

此外,AI 錄音筆 S1 還能支持 5 人內的人聲分離,從而在文稿中自動分段呈現。考慮到掌聲、笑聲、點讚等節點可能會出現一些重點或金句,它還會自動識別並重點標記。

除了錄音筆所需要的服務外,搜狗還將 AI 翻譯能力內嵌其中。

目前搜狗 AI 錄音筆 S1 支持 63 個語種的在線翻譯,9 種離線翻譯。在對話過程中,S1 還具備自由對話功能,能夠自動識別說話人是否講完,進而呈現翻譯結果,無需手動操作。

此外,它還具備同聲傳譯功能,你可以帶著它聽英文演講、報告,屏幕上就會同步翻譯中文字幕。

種種服務背後,正如搜狗 CTO 楊洪濤所言,AI 錄音筆是為了讓人們更自由的表達,而這背後所用到的技術,相當多是對搜狗原有技術體系的復用,並針對硬體做更好的 AI 優化。

03、AI 加持,行業呈現「新藍海」

與搜狗 AI 錄音筆迭代一同上演的是,錄音筆行業的洗牌與變革。

錄音筆是一個相對狹小的傳統市場,過去 20 年間沒有太多變化,隨著智慧型手機集成功能的持續豐富,它面臨被手機替代的風險。

因此我國錄音筆每年銷量在 400 多萬臺徘徊,增長基本停滯,市場多被索尼、愛國者、紐曼等硬體廠商佔據。

隨著搜狗 AI 錄音筆 C1 推出,市場格局開始出現變化。2019 年 6 月,它便成為京東錄音筆類目單品銷量冠軍、天貓錄音筆類目單品銷售額冠軍,隨後 11 月又拿下天貓京東雙平臺單品總銷量冠軍。

更為重要的是,AI 錄音筆的出現,在主流電商平臺上,讓原本趨於平緩甚至下滑的錄音筆品類訪客數據明顯上升,既有的市場天花板正在被打破,行業呈現「新藍海」。

到 2020 年一季度,AI 錄音筆的銷量已佔據整個錄音筆市場的 35%,行業變革正在上演。

與此同時,行業逐漸意識到 AI 優質服務的重要性,不少公司主動找到搜狗,甚至包括一些硬體上的競爭對手,詢問能否購買搜狗的 AI 能力。

對於搜狗而言,儘管在硬體上取得一定成績,但很難一家獨大。因為在 C 端硬體市場,即使是最大的玩家,也很難佔據 50% 以上的市場份額。但軟體不同,後者可以發揮網絡效應,一家獨大。

內外部因素碰撞下,搜狗決定再往前邁一步,開放 AI 錄音筆背後的聽寫服務。去年 8 月,搜狗聯合愛國者、紐曼、索尼錄音筆、萬城集團等錄音筆行業頭部企業,成立 AI 創新聯盟,將搜狗 AI 能力開放給業界。

傳統錄音筆以硬體為主的商業模式也正在被打破,「硬體 服務」的新型收益模式正在形成。

搜狗 CTO 楊洪濤稱,「過去傳統硬體主要是賣毛利,未來我們希望探索一種服務化模式,通過 AI 能力向用戶提供更多增值服務,擴展傳統商業模式的空間。」

在 AI 錄音筆身上,我們看到兩條不斷交織的線,一條是搜狗 AI 的演進線,在「自然交互 知識計算」的指引下,從最初的語音識別發展到機器翻譯、搜狗分身,再到如今的多模態交互。

另一條是 AI 硬體變革線,將 AI 能力不斷注入硬體中,升級一個行業,而錄音筆只是第一個。

,
同类文章
貓咪多久需要擠肛門腺(貓咪肛門腺到底要不要擠)

貓咪多久需要擠肛門腺(貓咪肛門腺到底要不要擠)

鏟屎官最近聞到自家的貓咪散發出一股臭味,久久揮散不去,走哪帶哪。 貓咪也開始頻繁在地上摩擦自己的屁股,這是貓咪需要擠肛門腺了嘛? 鏟屎官立刻就某度了一下,結果有人說要擠!有人說不要擠!這給人整暈乎了,到底是擠還是不擠啊! 本篇文章就幫鏟屎官們理理清楚,先出結論:不用擠!
寧波流浪狗愛心救助直播(寧波最暖心物業)

寧波流浪狗愛心救助直播(寧波最暖心物業)

救人一命 勝造七級浮屠 那救狗一命呢? 天熱了 小動物們都很愛折騰啊 論壇上剛來了一隻最不要臉的邊牧犬 現在又有了一隻錯估自己頭型 伸進欄杆卻出不來的流浪狗 …… (拍的略糊,可這小眼神看著又慘又想笑) 東論網友@quyd拍攝 終於,這副慘狀引來好心
蜘蛛俠新角色首曝(蜘蛛俠新女友黑貓)

蜘蛛俠新角色首曝(蜘蛛俠新女友黑貓)

2021年還剩下幾天就將成為過去式,而未來式的2022年也是站在了接力點前,而伴隨著2022年虎年的到來,關於漫威這段時間的很多消息傳聞也是不斷湧現出來,有關於後續的項目作品的,也有關於之前漫威項目新消息的。 所以,今天咱們就來看看,漫威這段時間都有哪些新消息曝光: 【1】8個漫威秘
狗突然的對主人叫心臟都要嚇壞了(主人以為狗狗躺在血泊中)

狗突然的對主人叫心臟都要嚇壞了(主人以為狗狗躺在血泊中)

家裡養了狗,那真就是隨時準備迎接新驚喜,尤其是柯基這種渾身上下散發著「智慧」氣質的狗狗。 這隻超可愛的柯基叫作Cartier,它的主人在泰國大城經營著一家咖啡館兒,平時它就跟主人在店裡呆著,四處遛遛什麼的。 前幾天主人像往常一樣讓Cartier出門自己上廁所然後等它回來。結果等了好久
貓超卡划算嗎(10元貓超卡又來了)

貓超卡划算嗎(10元貓超卡又來了)

前言:收到顯示器,黑色背景下全是彩色亮點,換貨; 不過27寸4K的屏幕,用電腦真的爽,比筆記本爽多了,雖然我這個筆記本是16寸的。01 10元貓超卡又來? 一、活動概覽 活動地址:https://developer.aliyun.com/adc/series/activity/serv
戰神貓熊滿級(娜貓的雙子指令形態登場)

戰神貓熊滿級(娜貓的雙子指令形態登場)

在最新的特攝雜誌上,出現了比較有趣的劇照,首先就是關於女騎假面騎士娜貓的新形態。雖然是女騎,但其實她的新形態比較少,目前一直都是在使用這個節拍形態,終於有了新的形態了。另外就是之前因為基洛利而下線的假面騎士棕熊,似乎並沒有死亡,然後再度歸來。然後就是假面騎士極狐和邪魔徒的立場了,似乎是合作了?因為
世界排名前10最聰明的狗貴賓(能記住一千多個單詞)

世界排名前10最聰明的狗貴賓(能記住一千多個單詞)

2021年5月10日,Hub City Animal Project宣布展出一座銅像,以紀念「世界上最聰明的狗狗」——Chaser。 她有多聰明呢?她在1歲時就能記住約4百個單詞,在三歲時,她的詞彙量已經超過了一千個! Chaser飼主的女兒Bianchi還說道,除了知道哪個單詞對應
淘寶目前暢銷的玩具(天貓618四大類玩具熱賣榜)

淘寶目前暢銷的玩具(天貓618四大類玩具熱賣榜)

截止6月20日23:59,天貓「618年中大促」落下帷幕。與往年鋪天蓋地的宣傳相比,今年整個活動周期都顯得有些安靜,平臺方甚至沒在活動結束第一時間發布最終成交額數據。這不免讓人忐忑:今年的行情是否很差? 從玩具業來看,不是很樂觀。中外玩具全媒體中心記者從部分廠商處獲悉,由於疫情對經濟造成的
愛養貓的女生什麼性格(養女兒如養貓)

愛養貓的女生什麼性格(養女兒如養貓)

在眾多想生兒子的家庭中,不全是因為重男輕女,而是有些夫妻感覺養女兒後經歷失望和傷心,許多方面要比養男孩更操心。 可女兒不是一直被稱為爸爸媽媽的貼心小棉襖嗎?為何會有人這樣比喻女兒呢?這不得不提有些女孩總在感情中犯傻的情況。 不久前的假期我參加了多場婚禮,現場有許多新娘新郎的長輩,在一聲聲祝
已滅絕的金剛鸚鵡(最高可賣上萬歐元)

已滅絕的金剛鸚鵡(最高可賣上萬歐元)

金剛鸚鵡原產於巴西的亞馬遜熱帶雨林地區。圖據《國家地理》網站 金剛鸚鵡是色彩豔麗的大型鸚鵡,羽毛五彩斑斕,像彩虹一樣漂亮。平均體長在90-100釐米左右。它們智商很高,模仿能力超強,平均壽命有65年之久。由於廣受喜歡,金剛鸚鵡長期以來成為不法分子走私的對象。據美國《國家地理》雜誌報導,隨