語音及語言信息處理（語音和文字信息的表達）

2023-10-06 04:15:53

編輯導語：在如今這個快節奏的社會，人們大多用社交軟體進行交流，可以使用語音或者發信息等方式；這兩種方式的表達和接收程度是不一樣的，語音能更好地表達情緒，而文字更加的正式和便於記錄；本文作者對語音和文字進行了詳細的分析和解釋，我們一起來看一下。
一、語言與文字是什麼？
在開始今天的話題之前，我想先問問大家一個問題：語言和文字分別是什麼？
根據百度百科的定義：語言是生物同類之間由於溝通需要而制定的具有統一編碼解碼標準的聲音（圖像）指令；實質定義語言是以聲音/符號為物質外殼，以含義為內涵，由詞彙和語法構成並能表達人類思想的指令系統；語音、手勢、表情是語言在人類肢體上的體現，文字符號是語言的顯像符號。
從這個解釋中，可以總結出來語言的特徵：
因為溝通需要而制定；具有統一編碼解碼標準；載體是聲音（圖像）指令；
而文字呢？
文字是人類用表意符號記錄表達信息以傳之久遠的方式和工具。
而從產生先後順序來看，雖然沒有實際上的證據證明，但應該是先有語言，畢竟人首先溝通的需求強度是高於記錄的；而語言的溝通效率是高於文字的，產生語言，語言成體系之後，出於記錄的需要，才誕生了文字。
但是在網際網路的發展史上，兩者產生的先後順序確是相反的，先有文字的信息，再有語音信息的出現；這種現象存在的原因，就要從兩者的差異開始聊起了。
二、語音與文字，溝通與記錄之間的差異
1. 生產者與接收者的角度
語音VS文字
對於生產者而言：
表達成本：異步文字<同步文字<同步語音<異步語音；表意準確性：同步文字<同步語音<異步文字<異步語音；
對於接收者而言：
接收成本：異步文字<同步文字<異步語音<同步語音;理解成本：異步語音<同步語音<異步文字<同步文字同等時間獲取信息密度：同步文字<同步語音<異步文字<異步語音；獲取信息準確性：同步文字<同步語音<異步文字<異步語音；
其實隨便想一下，在忽略同步異步場景的時候，語音的表意豐富性與準確性是高於文字的；這是因為語音在傳遞的過程中包含了多維的信息，不僅僅是原本信息的部分，還夾雜著語氣、語調、重音分配等各種額外信息；這使得不論對於生產者還是接收者，其溝通表達的效率都要更高。
這當然不是意味著文字的存在沒有價值，在溝通方面，語音存在接收低門檻，單位時間接收者獲取信息密度更高的特點；除此之外，在記錄與回溯上，文字也有著自己的優勢。
2. 更易結構化的信息，文字在記錄上的優勢
在信息的記錄上，很長時間文字都是唯一的記錄載體，甚至很長時間語音的使用場景僅有同步這一個；而即使在今天，語音信息可異步、可存儲的，但其效率仍然明顯低於文字。
原因也與兩者的特點相關，因為語音對信息的傳遞是多維的，包含了更多額外的信息；這促進了其表達溝通方便的同時，也帶來了記錄上的難題，當下僅僅解決的只要存儲。
但對於信息記錄來說，很重要的場景是可回溯，語音因為信息結構化程度低，導致難以被解碼，並提供有效的檢索方式。
舉個例子：A君和朋友B說自己肚子餓了。
這在文字的場景下，儘管可能需要花更多的篇幅來補充信息，比如A君在什麼時間進行的表達、A君和B君什麼關係、A君說這句話是為了什麼；終究都可以在一種載體中清晰的表達記錄，這也非常方便後續的回溯。
而在語音場景下，很多東西都是模糊的，都是默認接收者已知；在這個場景下，不會有一條語音這麼說：「9月4日晴，我想約B出來吃飯，所以我給朋友B打了電話，跟他說我餓了」。
究其原因，文字因為先天表意上的缺陷，會更加用戶視角，這就導致它對於接收者更為友好。
而語音，更多是站在上帝視角，存在很多先置信息；這部分信息隱匿在語氣、語調中，這對於信息的結構化與回溯，簡直是災難。
三、網際網路而言，語音與文字怎麼發展？
饒了一大圈之後，我們再來看看，對於兩種各有優劣的表達與記錄形式，在網際網路行業中，是否還存在機會，未來會如何發展。
首先，我表達一個個人觀點：網際網路最大的價值在於極大程度的消除了信息差，更加直觀的說——提供了信息表達、接收與記錄的更優解。
而拋開視頻不談（那是更宏大的話題），人類這麼多年來最重要的信息表達、接收與記錄方式——語音與文字，在當下的情境中，還存在可優化的點嗎？
我覺得是有的。
可以問自己三個問題（僅針對語音和文字）：
對於信息的表達、接收流程還可以優化嗎？是否存在新的場景讓我們更加願意表達和接收信息？信息如何記錄可以使得效率更優？
1. 信息表達、接收流程可優化嗎？
對於同步的場景，文字部分流程相對通暢，對於語音而言，在網絡延遲和語音質量上還存在可優化的空間，比如最簡單的證明就是當下微信電話的通話質量是遠差於直接撥打電話的。
而對於異步的場景，當前文字的表達接收在信息流產品上，通過「表達-內容理解-算法個性化 | 社交推薦-接收」的流程在運轉，整體邏輯也是較為通暢的；而隨著算法的不斷提升，已經平臺掌握用戶社交鏈的增多，整體的效率也還存在提升的可能。
而對於語音，目前表達和接收的流程，僅跑通了「表達-接收」的流程，並沒有複雜算法機制介入；就算喜馬拉雅等平臺，也僅是通過對長語音內容打內容標籤（依靠用戶上傳）來進行推薦分發。
這中間很重要的原因是因為語音的語義識別能力不夠，且用戶對於短語音並沒有形成消費習慣，長語音因為複雜性與消費場景的局限性，賽道太窄，播客這一形式還是門檻太高。
短語音有消費價值嗎？
這或許是個可以進一步思考的問題。
2. 表達接收信息意願更高的新場景可構建嗎？
當下的時代，越來越多的人將朋友圈設置了僅三天可見，因為真實社交鏈的接入與網上關係鏈構建深度加深，人們在平臺上表達信息的成本越來越高了。
這種失語的環境，很多人覺得會以一種陌生人社交平臺的方式解決，或者在新浪提出來「公域朋友圈」——綠洲上，得到紓解；但推廣很久依然效果平平，已經證明了這種模式並不能解決問題。
那麼，表達接收信息意願更高的新場景是可構建的嗎？
我認為解決方式可能存在於給予用戶不同的身份與對應的社交貨幣來解決，而最有效的方式可以通過構建網上多元角色來實現；這非常重要的一點是用戶形象一定要是具象化的，因為只有具象化的東西，才能讓接收者願意產生互動與形成新的社交鏈，這方面的一些想法見：升維：社交與遊戲化，遊戲與社區。
彼時，文字和語音都是豐富人物形象的一種方式，在新的場景下，用戶可以以不同的具象化形象表達和接收不同的信息，以一種更加開放自由的心態。
3. 信息如何記錄可以使得效率更優？
這部分討論對應的是當下的信息記錄工具，比如印象筆記、notion等，這些工具的存在解決了信息記錄的一個很大痛點：結構化且可回溯，使得信息記錄的效率有了極大的提升。
在此基礎上，還有什麼是可以提升記錄效率的呢？
對於文字而言：
是否可以提供在收藏時就對收藏內容進行解析並自動分類貼標籤的功能？是否可以提供將記錄的文字通過語音的形式進行接收？這樣可以滿足一部分用戶在特殊場景（不方便看手機，但想聽自己收藏內容）的需求？
而對於語音而言：
能夠提供更優質的語音轉文字工具，幫助將語音內容轉化為文字信息，更高效的存儲？能否提供語音的搜索功能，簡單場景是能對於語音關鍵節點做標記，幫助用戶搜尋，而更高級的是對語音內容進行解析，並提供全語音搜索功能？
這些僅僅是對於文字與語音使用場景的一點點想法，可能存在很多並不現實、可行性不高的方案。
四、總結
對於效率的追逐是人類的天性，語音和文字作為信息的載體之二，提效總歸不是壞事；而人們對於信息表達、接收、記錄的思考，也永遠不會停止，也正是這種思辨的微光，一簇簇匯聚，將人類歷史的天空點亮。共勉~
#專欄作家#
隨心將夜，微信公眾號 : 網際網路菜鳥產品進階之路，人人都是產品經理專欄作家。關注社交賽道和社區發展，擅長分析行業趨勢。
本文原創發布於人人都是產品經理，未經許可，禁止轉載
題圖來自Unsplash，基於CC0協議
,