Google Gboard App 本身已有语音辨识输入功能,用家可以读出内容,Gboard App 就会辨识并转化为文字,但一向都要依赖网络透过服务器端配合使用,才可提供良好的辨认效果。
Google 近年来透过不同的架构和模型,利用 AI 等技术不断改进语音辨识,最新就为 Gboard App 的语音输入推出了 end-to-end, all-neural, on-device speech recognizer。Google 采用了 RNN-T 技术训练的新模型,可以缩细至适合放在装置内运行应用。即是话新的语音输入不需再依赖网络配合使用,不会有网络延迟问题,用家就算是 Offline 也可应用。在新技术下,透过语音输入的文字是会以逐一字母显示,效果就如打字般,画面看起来会更感流畅。
这个全新的 all-neural, on-device Gboard 功能,将会率先在 Pixel 装置 (英文美国) 提供。随着技术改进,稍后亦可应用在其他语音,拓展至其他应用层面。
Source: Google AI Blog