車載語音導航新篇章!採訪Nuance高層
2025-05-14 16:42:09
泡泡網上海分站12月22日 在2011年12月7-9日,Nuance參加了在上海雅居樂萬豪酒店舉行的2011 Telematics @ China高峰論壇並展出最新的中文車載語音解決方案。而我們知道,Nuance通訊公司是世界領先的語音和語言解決方案提供商,企業級和消費級用戶遍及全球。其提供的技術、應用軟體和服務改變了人們進行信息交互,和創建、共享以及使用文檔的方式,並很大程度上提升了用戶體驗。
近日與中國領先的導航地圖和動態交通信息服務提供商四維圖新(NAVINFO)達成合作,雙方將共同開發導航用的語音地圖數據,並於NavInfo在2012年5月發布的新版地圖同時推出用於語音導航的數據。四維圖新將藉助Nuance最新的字音轉換工具,引領語音技術成為未來語音導航產品的趨勢。在2011年12月8日,泡泡網有幸對Nuance移動語音部全球嵌入解決方案構架總監Brian Radloff、語音合成產品經理Dr Johan Wouters、顧問經理蘇厚昌和上海研發中心總監張亞昕博士進行採訪,聽他們談談Nuance最近的一個市場發展情況和新的技術特點。
首先張亞昕博士為我們演示了Nuance語音導航是怎麼實現的。舉了一個雲端和本地端來結合的例子:
Nuance上海研發中心總監張亞昕博士
系統:「請選擇一個任務」
Nuance:命令詞控制。
系統:「命令詞控制,請說命令。」
Nuance:發簡訊給劉濤,今天晚上七點圖書館見。
系統:「發簡訊給劉濤,簡訊內容:今天晚上七點圖書館見。」
「見」這個音是對了,字是錯了。然後它這個是這樣,我說的這一句話,這個語音識別的實現,實際是上本地和雲端結合起來實現的。
通過語音本地端完成了發簡訊給劉濤這個命令詞的識別,識別完了以後,它把劉濤的電話號碼從地址簿裡邊調出來,放在你這個簡訊的筐裡頭,然後把「今天晚上七點圖書館見」的這一段語音就發到雲端,雲端的識別器把它識別完了以後,把文本反饋回來,再填到這兒。所以剛才看到大家稍微有點等,在等的過程當中,實際上就是這個信號傳到雲端,雲端識別幾乎是不花時間的,因為它非常強大,然後再傳回送。這個就是網絡的傳送時間,有時候等待時間,因為現在無線網絡有時候也不是特別好。這是一個比較典型的一個例子。
泡泡網:在看完張亞昕博士對Nuance語音導航的演示,請問一下如果編輯錯的話,能不能修改?
Nuance:可以修改。到你需要修改的那個「見」上,你再說「見」或者見面,它就給你弄過來了。但是我們覺得在中國區,在中文的修改上,這未必可能是個好辦法,我們也在試探另外一種辦法,這個辦法我現在可以給大家介紹一下。就是這樣,我要說修改,那麼那個語音合成TS就開始給你再讀,剛才不是讀了一遍嗎,它再給你讀,但是這一次讀,它是一個詞一個詞地讀。他說,今天我不吭聲,晚上,我不吭聲,他說七點,我也不吭聲,等他說「見」的時候,我說「見面」,他知道我說的這個詞要把那個覆蓋掉,再改,再把它改了。這樣可能更合理一些,就是你手不用去摸什麼東西,眼睛看什麼東西,完全能保持你在駕駛的時候,這是我們目前還在進行開發的一個東西,或許下一次如果我們再有機會我們就可以把這個演示一下。
泡泡網:這樣輸入就很容易產生一個問題,比如說,他說劉濤,中文姓名裡面,劉濤這個名字出現的概率比較多,如果說你的電話中多個人同時叫劉濤,它怎麼識別?
Nuance:這個對於語音識別來講,它唯一的辦法就是把幾個劉濤列出來讓你選擇,這個時候沒有別的辦法,我知道你說這個,這實際上是我們經常見到的一種情況,只能讓用戶自己來選擇。有時候同樣詞也會出現這個問題,可以讓用戶自己選擇。然後我再介紹一下關於自然語言理解,這麼一個演示。自然語言理解。我想回家。這個就是剛才大家看到那個主頁面,就是我們模擬在汽車環境下,你可能做的一些任務,它現在就是這個識別就不是你預定的命令詞,如果是讓工程師來設計這個命令詞,我可能會要求用戶說,目的地設為家庭、家裡,是這樣說,然後用戶必須這樣說,但是多數時候,當你的命令越來越多,幾百個,上千個的時候,人很難記住你的命令詞是什麼樣子。所以我們現在這個演示,能把它叫做自然語言理解是什麼意思。就是說我給你定義任務,然後用戶用你自己的話,用你自己的詞,用你自己的習慣說法,來把這個任務說出來就行了。你想咋說就咋說,我可以打電話給劉濤,我可以說接通劉濤,我可以把劉濤給我接上等等,反正你想怎麼說,大概這個意思是把他能連上就行了。這是完全用戶主導的。因為你可以想像人的語言是很複雜的,每個人說話跟每個人說話的習慣是不一樣的。
比方說這個關於空調問題,我們過去,空調的命令詞是「把空調打開,空調溫度提高3度。」現在我也可以這樣說,空調調高一點,我有點冷,也可以。就是你在車裡邊完全可以用你自己的語言來說你想幹的事。比如說,前邊你不知道明天天氣會怎麼樣,人一般都會想想,明天天氣如何,或者是告訴我天氣預報。但是你也可以這樣說。明天會下雨嗎?也可以這樣說。或者你這樣說,你說,今天大盤怎麼樣。完全是用自然語言來說。堵不堵車,「查詢交通情況。」這就是,實際上可以有各種不同的說法來完成這個任務,這是我們自然語言的一個演示。
泡泡網:問下以上兩個演示已經有實踐應用了嗎?
Nuance:現在跟客戶推進。
泡泡網:有沒有什麼計劃,大概什麼時候可以在咱們車載上面可以用到?
Nuance:這個取決於車廠了。而且汽車行業跟手機行業不一樣。手機行業我們新東西推出來以後,可能三個月、六個月以後就上市了,汽車行業的東西相對來講慢一點,他們做東西,做計劃,產品進去了以後反覆測驗,一般都得一兩年。
泡泡網:在中國的車載業務有什麼新的進展嗎?能否給我們介紹一下。
Nuance:其實可以這樣說,過去一年我們跟不同的供應商都有合作,第一就是導航的供應商,以及一些汽車廠商。在明年大家應該可以看到有國內的汽車會用我們的產品。現在這個實施過程中還在做,剛剛張博士也說過了,關鍵看這一家汽車公司他們推出的時間會在什麼時候,說不定是下年年中,還是下年年底,就看他們的情況,什麼時間做。但是我們的合作已經在實施過程裡面。所以大家會看到。
泡泡網:剛才張博士也介紹了這種最新的語音識別技術,我想問一下在語音識別技術這塊,相對其他廠商而言我們有哪些主要的競爭優勢?
Nuance:如果是談到Nuance在語音方面的競爭優勢,我們就會感到很自豪。首先它是全球最大的語音技術公司,我們佔的語音市場份額,就是語音技術不光用在車裡邊,包括用在各行各業裡邊,語音技術,我們在2/3之上,基本上主導了這個語音市場。正因為處在這個位置上,我們對語言的覆蓋面是最廣的。我們全球只要稍微主要一點的語言,我們基本上都支持,這個是不容易的。因為每做一個語言,公司的投入是非常大的,這是我們的優勢。如果回到汽車上邊,我們可能最大的優勢還是我們的抗噪性更好一些。因為在汽車裡邊應用語音技術,抗噪性好不好,直接決定了最後你這個系統,就是終端用戶會不會接受它,會不會用它的問題。如果說稍微有點噪聲,你就老識別錯,別人就煩人,或者不會再用它。Nuance在過去幾十年裡邊一直在汽車行業,因為我們現在給你演示的這個引擎,實際上是專門針對汽車開發的,我們相應的還有一些其他的抗噪,減噪的一些算法和一些模塊,來幫助處理。從高端到低端的方案我們都有,在歐洲一些高端車上,已經都應用了,抗噪性能好到什麼程度?就是你駕駛員在這兒用語音操控你這個機器的時候,副駕駛上坐著人在那兒說話,你這個收音機是打開的,都沒什麼影響。它就好到這個程度。
泡泡網:Nuance會考慮支持地方方言嗎?
Nuance:暫時不會支持方言,但普通話帶口音是可以的。我們大家都說普通話,我們的識別系統也說普通話,其次要意識到現狀,在未來幾十年裡邊,不要指望大家普通話說的都像我這樣標準。開玩笑。就說南方人,還會是南方人。所以這是我們的一個努力方向。目前我們的語音識別系統已經儘可能照顧到南北方口音的差異。我可以說目前我們的口音的覆蓋面,和我們其他競爭對手裡邊,我們也是最好的,因為有我們的客戶獨立做的測試。他做的這個測試很有意思,我們都沒有想到他這樣測試。本來是測試看你的準確率怎麼樣,然後看你的準確率在不同的汽車速度下的準確率,我在靜止的時候,30公裡的時候,60公裡的時候,100公裡的時候,我的準確率怎麼樣。一般我們想到他會這樣去測。他公司裡邊的人就是全國各地來的,他把每個人的統計下來,最後我們一看這個曲線,最後他得了一個結論,Nuance這個語音識別系統,目前對語音口音的覆蓋還是比較均勻。
泡泡網:Nuance是怎麼看到中國市場的?有沒有具體的開拓計劃,能否跟我們分享一下?
Nuance:毫無疑問中國市場非常重要,尤其是汽車市場是全球最大的,而且還以高於全球的增長速度還在繼續的增長,所以Nuance肯定是重視這一塊的,在過去三年裡邊,Nuance在中國市場的投入與增長,相比較全球各個區,包括在北美和歐洲,都是增長最快的。我們在中國市場,在三年以前,大概就是幾十人,現在已經增長到超過100多個人可見對這個市場的重視程度。在中國、日本、韓國,比利時和德國等都設有研發中心。據了解,奧迪每一年在中國賣掉的車比在整個歐洲賣掉的車還要多,到了這種程度上,所以我們一定會非常重視中國這塊市場的。
這些年我們的一些汽車廠商的大客戶,他們也已經意識到中國市場的重要性。他們經常也會跟Nuance談到,他們在把重心向中國移同時,也建議Nuance也要增加在中國地區的研發力量,來配合我們的工程設計人員在當地的開發,所以後續的發展和在中國的投入將會越來越大。■