PRODUCTS
近来,讯飞输入法迎来十周年,具有许多黑科技的10.0版别也正式露脸,都说“5年一小,10年一大”,关于讯飞输入法来说又何曾不是。讯飞输入法10.0版别要点更新了A.I.语音引擎,使得讯飞输入法通用语音辨认精确率在98%的基础上获得进一步进步,坚持辨认作用业界榜首,用户体会最佳。作为讯飞输入法的十周年之作,10.0版别背面有哪些黑科技?
首要,最新发布的10.0版别搭载了科大讯飞最新A.I.技能动态自适应编解码语音辨认引擎(DomainSoft FusionEncoder-Decoder)。作为技能驱动型产品,顶天的技能是做好产品体会的根基。语音辨认技能适当于给机器安装了“耳朵”,技能实力越强,机器听得越明晰越精确,给予人的协助越大。
这一全新的A.I.语音输入引擎向着多模态辨认、范畴个性化方向开展。科大讯飞关注到,听力和视觉是人类捕捉外部信息最要害的器官,同理语音辨认和图像辨认对机器而言也适当重要,而且这两项技能在进化中处于中心位置。得益于深度学习的开展,讯飞快速完结语音辨认到计算机图像辨认之间的算法结构搬迁和学习,在语音辨认上获得长足进步。在新技能的运用下,讯飞输入法10.0新增唇形辅佐输入,运用视频辅佐语音辨认,然后得到更好的输入作用,进步喧闹环境及近距离多人说话的辨认作用;另一方面大幅优化范畴词辨认,输入法会帮你更精准的匹配游戏、医疗、旅行、购物等不同的场景词汇。
比如说手机购物,要输入商品名称,有了讯飞输入法购物范畴的模型和没有的辨认成果是不一样的。在模型的辅佐下,输入成果会依据模型做特别的优化,以进步辨认的精确率。
正如科大讯飞副总裁章继东说的那样,“许多的技能是看不见的,可是咱们信任相应技能会改动世界。”创建10年以来,讯飞输入法秉持着技能顶天,引领语音交互落地的理念,不断改造产品,尽力让让亿万用户高效输入,乐享交流。
2010年,将GMM-hmm-隐马尔可夫模型运用到语音辨认体系中:运用WFST解码器,进步杂乱的言语模型,辨认率到达70%;
2011年,运用BN(bottomneck)辨认模型,经过神经网络提取音素特征,进步辨认精确率;
2012年,全球首个中文语音辨认DNN体系上线年,运用SDT-DNN和根据DNN的VAD模型、深度学习离线版别,语音辨认精确率进步至85%,完成离线年,运用UB-LSTM,语音辨认率进步至95%。
2015年,运用无监督的speakcode技能,完成了声学个性化辨认。由于除了言语模型之外,还有声学模型,即每个人的声响特征不一样,能够根据咱们每个人的声响个性化来进行分辩的技能,完成实践功率的进步。
2016年,将DFCNN运用于语音辨认,语音辨认精确率达97%,离线、噪声、远场辨认率明显进步。
2018年,运用HybridCNN算法,经过结构优化大幅进步并发路数,语音辨认精确率打破98%;
2019年,根据注意力机制的Encode-Deconde模型运用,完成中英文免切换语音辨认;
2020年,全新A.I.输入引擎再完成自我打破,搭载动态自适应编解码语音辨认引擎,完成多模态输入和范畴个性化辨认,包括更多运用场景。
2020年5月,世界多通道语音别离和辨认大赛(CHiME)组委会在线揭晓最新一届CHiME-6成果:科大讯飞联合中科大语音及言语信息处理国家工程实验室(USTC-NELSLIP)在给定说话人鸿沟的多通道语音辨认两个参赛使命上夺冠。值得一提的是,科大讯飞也包办了之前CHiME-5的悉数冠军、CHiME-4的三项冠军。当咱们看到夺冠这个现象的时分,其实背面便是科大讯飞强壮的AI实力在起作用。
回忆这十年的开展进程,讯飞输入法完成把“中文语音技能做到全球最好”的小方针。下一个十年,跟着5G和AIoT年代的到来,讯飞输入法将持续以过硬的技能实力直面职业开展的应战与机会,不断进步语音输入的职业天花板,为用户带来高功率的输入体会。(作者:张彬)