騰訊開放圖像識別技術和語音識別技術
2025-04-05 20:21:24
4月8日,微信對外上線智能開放平臺,首批上線包括「語音開放平臺」和「圖像開發平臺」。前者為微信服務號提供語音識別和合成技術,後者則為第三方應用提供免費的圖像識別技術與服務。
利用語音識別技術,微信服務號的用戶能夠自定義詞庫,在識別到某些關鍵詞後,自動返回特定的結果,微信稱「後期也會考慮支持定製化的服務」。另外,微信開放的語音合成功能,能將書面文字轉換成語音對外播放。這些技術已經在騰訊自家的多個產品中得到了驗證。比如微信的語音輸入、語音轉文字;QQ音樂中報歌名播放對應音樂;騰訊地圖中語音識別地名等;另外,騰訊在與招商銀行服務號的合作中,提供了語音互動合作。
而圖像識別技術則是通過開放SDK接口,讓第三方應用開發者接入,使其應用具備圖像識別與搜索的能力。目前,騰訊已經開放SDK demo,開發者能直接下載Android SDK進行測試。騰訊勾勒的圖像識別接口已經開始商業化的應用,通過掃描電影海報做電影票的導購;掃描圖書封面引導用戶去電商平臺下單。目前圖像識別應用範圍還包括雜誌、廣告、平面出版物上的圖片,並支持延伸閱讀內容、導購、深度閱讀、參與互動和點評分享。早在2011年9月,騰訊就上線了擁有自身圖像識別技術的SOSO慧眼,其中就包含了名片識別、圖書電影海報的識別,經過近三年的調試磨合到最終開放,騰訊花了近3年的時間。
看得出來,騰訊正在做的就是在為微信這個平臺招攬更多的第三方開發者——無論是服務號還是第三方應用,其本質都是基於微信關係鏈構建的網際網路服務。而他們所開放的兩項技術——語音識別和圖像識別,正是兩種能夠將人和現實世界聯繫起來的交互方式,所以這也被不少人看作是網際網路服務新的入口。
其實不只是騰訊,百度在去年推出輕應用時也大張旗鼓地開放了自己的語言識別、圖像識別技術,二者的思路十分相似——百度希望讓開發者能圍繞百度的搜索能力,構建新的移動網際網路服務生態。這算得上是一件好事,至少,它降低了創業者們提供高質量服務的門檻,給了微信服務號和微信平臺更大的一塊試驗田,接下來,就看看有什麼在這個已經擁有7億用戶的平臺上,能長出什麼新玩意兒吧。