新四季網

ai語音功能是什麼(AIoT的語音技術究竟如何落地)

2023-09-20 07:34:31

AIoT融合AI技術和IoT技術,除了實現技術的革新,其主要技術的應用和真正落地也是該領域的重點問題。

是新的技術和生產工藝(例如,早期的汽車)通過被應用和被應用而獲得改善,之後在獲得進一步的應用和採用,進而創造出正反饋或者收益遞增的效用。——《技術的本質》,布萊恩·阿瑟

上篇我們講到了AIoT並非泛泛而談的口號,他是有自身的用戶價值和商業價值邏輯。從這篇開始我們要講講在AIoT用到的主要技術,也是我入門(keng)以來的梳理和沉澱,若有問題也歡迎交流。

我認識在AI領域這樣強技術領域,了解其技術原理和技術邊界,結合市場需求,才能更高效地輸出產品服務。

本篇文章核心內容有以下幾點:

首先,我們先從AIoT的產業鏈入手,從宏觀維度對整個AIoT產業有個宏觀認知;其次,這篇文章會先聚焦於語音技術在AIoT領域的技術原理和落地產品服務方法。其餘幾大個技術模塊我們會在後續的文章中陸續更新。

一、AIoT產業鏈

AIoT產業鏈主要包括以下幾個部分:

上遊:硬體:晶片廠商、通信模塊等;軟體:AI技術、IoT技術中遊:作業系統、App、雲端服務下遊:渠道(線上 / 線下)

AIoT產業鏈

從上圖我們可以大致了解整個AIoT產業全貌,是一個軟硬通吃,涉及模塊最全的行業。所以作為產品經理,在這個領域,有很大的發揮空間。

二、AIoT產品都做些什麼

不同類型的AIoT產品對技術理解要求不同,如阿里雲IoT、騰訊雲IoT其業務目標是要做生態,做水電煤,主打PaaS層的輸出,直接服務開發者,所以這對產品的技術能力要求就非常高,一般得有幾年相關開發經驗。

而做前端交互體驗的,跟用戶直接接觸的體驗層產品對技術要求就不那麼高了,結合產業鏈越往下遊對產品對技術要求越低。結合上面的產業鏈結構圖可以分為三大塊:

硬體產品:為整個終端硬體體驗負責。需要從硬體定義、設計到最後的量產全鏈路環節都有深入理解,這塊在這兒不展開說,後續講到硬體產品再深入聊;軟體產品:為整個IoT軟體服務體驗負責。這個是個大模塊,再往細的分有 App產品、系統產品、IoT平臺產品,如果還有線上渠道,那還有電商產品等;AI算法產品:為整個AI體驗負責。按照技術鏈路還可以細分為聲學前端產品、ASR產品、NLP產品、TTS產品。關於這塊的技術,下面我們具體展開來說。

AIoT產品職能與產業鏈關係圖

三、AIoT之語音技術

對於產品經理來說,了解語音技術主要的技術點,可以:

快速收斂問題,幫助開發提高定位和修改問題效率;輸出穩定產品,了解技術原理和邊界,才能快速輸出穩定的產品服務。這個無論對於C端用戶或B端客戶來說都是最基本的需求。

我們這裡以用戶使用語音中控設備控制燈為例(詳情可見以下流程圖):

語音控制智能家居流程圖

用戶發出「打開燈」指令,則會經過以下幾個步驟:

第一步 拾音

根據使用場景也分為近場拾音(一般3m以內)和遠場拾音(一般3-5m)。這一部分在技術上稱為聲學前端

主要原理是通過單mic或mic陣列能準確獲取到用戶語音信息,為下一步ASR(語音識別)做準備,主要包括以下幾個技術點(但不限於,整個鏈路涉及到很多技術環節,下面主要將跟產品體驗比較相關的主要技術點抽離出來):

VAD(Voice Activity Detection),語音活性檢測。使用音頻特徵等進行分析,確定聲音的開始與結束點。對於產品來說經常會遇到某條指令沒有識別全,比如「打開燈」只識別到了「打」導致最後沒有命中相應技能,無法完成用戶意圖,這時候可能就是VAD異常截斷問題;AEC(Acoustic Echo Cancellation),回聲消除。如果當前設備在用mic拾音的同時又在播放音樂等音頻內容,那mic會將這設備播放出去的聲音再重拾回來,避免再播放出去有回音。對於產品來說這是考核一個有待音頻播放功能的智能語音設備必然考核的體驗點,比如播放音樂時經常有回音問題,那可能是AEC算法沒做好;BF(Beam Forming),波速成形。用於將單個方向的語音進行增強,削弱無關的聲音,使得聲音聽起來更加乾淨。對於產品來說這個是在嘈雜環境下提高識別的核心技術點,如果嘈雜環境裡你的產品識別差,可以從這個點入手看看。

第二步 ASR(Automatic Speech Recognition)

這一步主要是將前端拾音的語音信息轉化成文本信息,將處理的文本信息丟給下一步NLP(自然語言處理)來做處理。主要考核指標識別率和誤喚醒等。關於這點hanniman老師有做比較深入的講解,這裡就不多做說明。

第三步 NLP(Natural Language Processing)

自然語言處理的目的是主要是將文本信息轉化成機器語言,明確用戶意圖,在為下一步,觸發用戶預期的意圖做準備。在產品運營側主要會分為下面幾個部分:

Domain,即所屬領域,如 音樂、智能家居分別都算是一個領域。領域相當於類別,比如我想創景一個電視控制技能,就先創建一個電視的Domain;Intent,即意圖,用戶想要讓機器做的事情。如 以本章節「打開燈」這個例子為例,「打開燈」即為用戶的行為意圖,但同樣一個控制意圖可能有不同的說法,比如「打開燈」可以說「把燈打開」或「燈被打開」這時需引入一個東西叫Pattern,他是來解決不同說法或句式的問題,產品運營人員可以配置幾個常用的句式或說法,然後通過算法進行枚舉和泛化;Slot,即詞槽,在本例中,「打開」和「燈」都是詞槽。

第四步 平臺轉發

語音廠商IoT平臺→廠商IoT平臺→廠商設備。因為智能家居領域較為特殊,從用戶維度來看,一個用戶可能會有各種不同品牌的智能家居設備;而從市場維度來看,目前智能家居市場品類繁多,碎片化嚴重。

以天貓精靈為例,目前已接入了600 品牌。單純用技能方式對接,不利於廠商運營管理和用戶端體驗。所以大部分語音廠商還會針對智能家居做一個管理平臺。

經過上一步NLP的處理信息傳給語音廠商的IoT平臺,語音廠商的IoT平臺會根據用戶已經綁定智能家居品牌和設備能力,在將這些信息傳給相應的三方廠商IoT平臺,最終將控制信息下達給相應的控制設備,完成整個控制鏈路。

第五步 TTS(Text To Speech)

顧名思義是將文本轉成語音,如果你的中控設備帶有Speaker,當整個控制鏈路完成後,可以播報一個結果語音來提升整個產品體驗,完成體驗閉環。

四、語音技術*AIoT

以上各項技術以排列組合的方式我們很容易算出可以提供給客戶25種不同產品技術方案,而對於C端用戶產品服務也不計其數。但對於目前很多公司最大的問題在於:如何在於這「汪洋大海」中找到自己的一片天(就連空調都集成語音能力了,很多人都無法理解)。

以下談談我對語音技術之於AIoT落地的看法(以下方法對C和B端同樣適用):

首先,效率,萬事以高效為先。一切新產品或新技術的應用的第一優先考核指標在於相比原先的服務是否提高效率。什麼是高效?高效即做同樣的事情誰花的時間最短。以「打開電視後我想看湖南衛視」這個用戶場景為例,以下是三種不同類型的電視操作路徑對比:

傳統電視:遙控器的頻道鍵→左右鍵切換3-4頁數(除湖南本省外,其他外省可能把忽然衛視放到3、4頁後)→上下鍵選擇到湖南衛視→點擊確定。大概需要操作5-6步;智能電視(不帶語音):我的應用→電視貓App→搜索湖南衛視→點擊確定。大概要操作4步;語音電視:一句話「xxx,我要看湖南衛視」,甚至可以直接免喚醒詞。只要1步。

其次,成本,要考量在單位時間內所消耗的能量和成本。基於上一點「做同樣事情誰花的時間短」除了這一維度還不夠,因為速度快並不代表成本低,所以還要考量在單位時間內所消耗的能量和成本。

比如,你花了20塊需要2小時,而花60塊錢只能算短到1.5個小時,明顯性價比不高。

以集成語音能力的智能空調為例。目前市面上此類空調價位在¥6999~¥9999之間,主打高端市場。而一個語音模組的價格在幾十塊左右,這個成本完全承擔得起,而且還提升了其議價空間。

而比如在小家電領域,客單價普遍比較低的領域,這個成本可能就有很大的成本壓力了。所以,目前語音模組更廣泛應用於大家電如 電視、空調等。所以除了用戶場景,成本維度也是重要的考慮因素;

最後,影響力,要考慮做這件事對外部的影響力。即你的產品與用戶/客戶的交互反饋,主要分為積極影響和消極影響:

積極影響力,比如,接近真人的TTS體驗,自然的人機對話體驗;消極影響力,比如,前幾個月的Amazon的Echo鬼聲事件。

可以從定性(滿意度等)和定量(日活、留存等)角度來衡量,但為了方便下面延展,我們可以簡單的把積極影響力記為正數,消極影響力記為負數。

AIoT產品服務公式

總結:我把評判一個AIoT產品服務的好壞,結合三要素,總結為如圖所示公式:

AIoT產品服務=效率/成本*影響力

通過這個公式我們可以很容易得出:一款好的AIoT產品服務需要具備高效、低成本以及積極影響力,而且這個服務會隨著你的正向影響以乘法疊加的方式增長。

同理,我們也可以很快得到一個差的AIoT產品服務是由什麼因素決定的。

為了方便大家理解,我們以上面提到的例子,目前空調集成語音能力這個是個好的AIoT產品服務嗎?

首先,語音控制相比空調的物理遙控器確實是更方便,假設切換到製冷模式,物理在初始狀態下要按兩下「模式」鍵,而語音只要一句話就能解決,效率提高50%;

其次,對於廠商來說,假設一個模組成本是¥50,目前帶語音能力的空調普遍售價在¥6999~¥¥9999之間,以6999的價格和35%的毛利率(目前幾家空調大廠毛利在這個水平,高端型號肯定毛利更高)來算差不多隻佔了1%的成本,完全cover的住;

再來,關於影響力,先不說語音控制在某些場景效率比遙控器高,用戶買了一個那麼貴的空調,還有語音能力(除了控制,還能問問天氣等),雖然可能平時基本不咋用,但是至少還有個炫耀的資本。比如,有客人來,可以很裝13地說「我這空調可以語音控制哦」,相比不帶語音功能的高端空調,確實有一定的附加值。假設以-5~5來做滿意度打分,至少給個3分吧;

最後,通過公式我們可以算出整個空調集成語音能力的AIoT產品服務分數為150分。從這個維度來看,空調集成語音能力是有積極價值的。

五、小結

在《技術的本質》中,作者 布萊恩·阿瑟(複雜性科學奠基人) 認為:

技術,是新的技術和生產工藝(例如,早期的汽車)通過被應用和被應用而獲得改善,之後在獲得進一步的應用和採用,進而創造出正反饋或者收益遞增的效用。

目前AIoT行業還在早期階段,了解語音技術這個「新技術」可以使我們更加從容。祝各位同仁能用這個「新技術」創造出更多正反饋或者效益遞增的效用。

作者:elek,萬悟互連(ID:iotforall),AIoT產品經理。

本文原創發布於人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基於CC0協議

,
同类文章
葬禮的夢想

葬禮的夢想

夢見葬禮,我得到了這個夢想,五個要素的五個要素,水火只好,主要名字在外面,職業生涯良好,一切都應該對待他人治療誠意,由於小,吉利的冬天夢想,秋天的夢是不吉利的
找到手機是什麼意思?

找到手機是什麼意思?

找到手機是什麼意思?五次選舉的五個要素是兩名士兵的跡象。與他溝通很好。這是非常財富,它擅長運作,職業是仙人的標誌。單身男人有這個夢想,主要生活可以有人幫忙
我不怎麼想?

我不怎麼想?

我做了什麼意味著看到米飯烹飪?我得到了這個夢想,五線的主要土壤,但是Tu Ke水是錢的跡象,職業生涯更加真誠。他真誠地誠實。這是豐富的,這是夏瑞的巨星
夢想你的意思是什麼?

夢想你的意思是什麼?

你是什​​麼意思夢想的夢想?夢想,主要木材的五個要素,水的跡象,主營業務,主營業務,案子應該抓住魅力,不能疏忽,春天夢想的吉利夢想夏天的夢想不幸。詢問學者夢想
拯救夢想

拯救夢想

拯救夢想什麼意思?你夢想著拯救人嗎?拯救人們的夢想有一個現實,也有夢想的主觀想像力,請參閱週宮官方網站拯救人民夢想的詳細解釋。夢想著敵人被拯救出來
2022愛方向和生日是在[質量個性]中

2022愛方向和生日是在[質量個性]中

[救生員]有人說,在出生88天之前,胎兒已經知道哪天的出生,如何有優質的個性,將走在什麼樣的愛情之旅,將與生活生活有什么生活。今天
夢想切割剪裁

夢想切割剪裁

夢想切割剪裁什麼意思?你夢想切你的手是好的嗎?夢想切割手工切割手有一個真正的影響和反應,也有夢想的主觀想像力。請參閱官方網站夢想的細節,以削減手
夢想著親人死了

夢想著親人死了

夢想著親人死了什麼意思?你夢想夢想你的親人死嗎?夢想有一個現實的影響和反應,還有夢想的主觀想像力,請參閱夢想世界夢想死亡的親屬的詳細解釋
夢想搶劫

夢想搶劫

夢想搶劫什麼意思?你夢想搶劫嗎?夢想著搶劫有一個現實的影響和反應,也有夢想的主觀想像力,請參閱週恭吉夢官方網站的詳細解釋。夢想搶劫
夢想缺乏缺乏紊亂

夢想缺乏缺乏紊亂

夢想缺乏缺乏紊亂什麼意思?你夢想缺乏異常藥物嗎?夢想缺乏現實世界的影響和現實,還有夢想的主觀想像,請看官方網站的夢想組織缺乏異常藥物。我覺得有些東西缺失了