PRODUCTS
9月1日音讯,Kaldi之父Daniel Povey表明,新一代Kaldi的方针不仅仅是赶上或许略微抢先现在现有的语音辨认库,而是要从根本上改动语音辨认的完结方法。“现在小米产品中的 ASR 用的是第一代 Kaldi,咱们正在运用 k2 来加快现有出产模型的解码。解码速度到达实时的300倍。”Daniel表明,估计今年年底或下一年初开始将下一代 Kaldi 应用于小米产品,但现在还有许多集成和测验要做。
据了解,k2是新一代Kaldi的中心。其中心奉献在于,将加权有限状况转换器(WFST)和相关算法集成到根据Autograd的机器学习工具包,如PyTorch(已完结支撑)和TensorFlow中。能够消除以往语音辨认使命中练习跟解码进程不匹配的问题、多轮(可求导)的语音辨认进程、在声学网络中嵌入恣意辅佐信息等。k2也能够用来很方便地完结许多现有的语音辨认模型。
现在国内外语音帮手像小爱同学、苹果的Siri、亚马逊的Alexa等的底层结构都是Kaldi。信任下一代Kaldi将更适用于各种场景的不同语音模型,如远近场语音唤醒、离在线语音辨认、说话人辨认等通用模型,以及白话评测、语种辨认、语音心情辨认等特定模型。