PRODUCTS
编者按:在人工智能飞速开展的今日,语音辨认技能成为许多设备的标配,曩昔五年间,语音辨认的需求逐步迸发。可是,现在语音辨认相关的运用及运用场景仍具有局限性,因而,国内外许多企业纷繁开端探求语音辨认的新算法新策略。本文中,百分点感知智能试验室从技能开展的视点动身,深入分析了语音辨认技能不同开展阶段的模型构建和优化,以及未来开展趋势。
语音辨认技能简略的说,便是将计算机接收到的音频信号转换为相应的文字。语音辨认技能从上个世纪50年代呈现,开展到现在已有半个多世纪的前史。经过多轮技能迭代,语音辨认现已从最早的孤立数字辨认,开展到今日杂乱环境下的接连语音辨认,而且现已运用到各种电子产品中,为人们的日常日子带来许多便当。
从技能开展的前史来讲,语音辨认技能首要阅历了三个年代,即根据模版匹配的技能结构、根据计算机器学习的技能结构和最新的端到端技能结构。近年来,得益于深度学习技能突破性的开展,以及移动互联网的遍及带来的海量数据603138股吧)的堆集,语音辨认现已到达了十分高的准确率,在某些数据集上乃至超过了人类的辨认才能。
跟着辨认准确率的提高,研讨者们的重视点也从语音辨认的准确率,逐渐搬运到了一些愈加杂乱的问题上,比方多语种混合语音辨认。该问题涉及到多语种混合建模、搬迁学习和小样本学习等技能。对某些小语种来说,因为无法获得足够多的练习样本,因而,怎么从小样本数据中构建牢靠的语音辨认体系成为一个待处理的难题。
针对该问题,百分点科技提出了一系列的算法,针对小语种语音辨认体系构建中呈现的练习样本获得困难、文本书写规矩杂乱、发音单元不一致等问题作了相应的优化。根据这些技能,百分点科技现已成功研宣布数十种小语种语音辨认体系,在支撑语种的数量,以及辨认准确率上都处于国内领先地位。
接下来的章节中,将要点介绍语音辨认技能不同开展阶段阅历的重要技能结构,包含传统的HMM-GMM和HMM-DNN,以及最新的端到端方法等。
先从GMM-HMM开端说,GMM-HMM根本运用HTK或许Kaldi进行开发。在2010年之前,整个语音辨认范畴都是在GMM-HMM里做一些文章,如图一所示。
图三展现了根本的练习前预备,此外便是纯练习的进程。纯练习处理的是怎么将图三右边的特征向量分配到左面状况序列里的问题。
在2010年前后,因为深度学习的开展,整个语音辨认的结构开端转变成DNN-HMM。其实便是把本来用GMM对特征进行建模,转换成用神经网络去建模。因为神经网络从2010年至今不断开展,各种不同的结构不断呈现,也带来了不同的作用。DNN-HMM的根本结构如图四所示。
从上述的试验成果中能够看到,相对传统的GMM-HMM结构,DNN-HMM在语音辨认使命上能够获得全面的提高。DNN-HMM之所以获得巨大的成功,通常被认为有三个原因:榜首,DNN-HMM放弃了声学特征的散布假定,模型愈加杂乱精准;第二,DNN的输入能够选用接连的拼接帧,因而能够更好有利地势用上下文的信息;第三,能够更好的运用辨别性模型的特色。
端到端语音辨认,是近年来业界研讨的热门,干流的端到端方法包含CTC,RNN-T和LAS,如图五所示。
CTC在业界的运用有2个方法,有人把它当作声学模型运用,有人把它当作语音辨认的悉数。但现在工业界体系都只把CTC当作声学模型来运用,其作用更好。纯端到端的运用CTC做语音辨认,作用仍是不够好。
这儿说下chain模型,Chain模型的来源来自kaldi。kaldi其时也想做CTC,但发现kaldi体系下CTC作用欠好,但CTC的一些思维特别好,后来Dan Povey发现能够在此基础上做一些优化调整,所以就把chain模型调好了。但在kaldi体系里chain模型的作用确实比本来模型的作用要更好,这个在Dan Povey的论文中有解说。
CTC年代的改善让语音辨认技能朝着十分好的方向开展,CTC还有一个奉献便是前面说到的建模单元,CTC把建模单元从本来的cd-states调整为cdphone,或到后边的音节(syllable),或到后边的字等级(char)。因而,端到端的语音辨认体系里就很少用前面细粒度的建模。现在许多公司的线上体系都是根据LSTM的CTC体系。
CTC在业界用得最成功的论文是《Fast and Accurate Recurrent Neural NetworkAcoustic Models for Speech Recognition》,论文里探求出来在CTC范畴比较稳定的模型结构是5层LSTM的结构。这篇文章从LSTM是单向仍是双向,建模单元是cdstate是ciphone仍是终究的cdphone等问题进行探求。会集建模单元的比较成果,如下面的表格所示。从表格上能够看到,功能最优的是cdphone的双向LSTM的CTC体系。可是因为双向在线上流式处理睬欠好处理,所以单向LSTM的功能也是能够承受的。
接下来便是注意力机制(attention)。注意力机制天然合适seq2seq的模型,而语音天然便是序列问题。LAS的全称叫做listen, attended and spell,此模型拉开了纯端到端语音辨认架构的前奏,一个LAS模型的全体结构如图九所示。LAS现在应该是一切网络结构里边最好的模型,功能也是最好的,这点毋庸置疑,超过了本来根据LSTM-CTC的baseline。可是LAS要求见到一切的输入,这对流式解码来说是不允许的,这一丧命的问题影响了这种算法的推动,也引起了许多研讨者的重视。当然最好的方法便是把attention对输入那块改小点,出了一个叫Mocha的算法,该算法今后有时机再做介绍。
CTC算法虽然是一个路程牌的算法,但CTC算法也有缺点,比方要求每一帧是条件独立的假定,比方要想功能好需求外加言语模型。一开端的LAS模型作用也不够好,试验比照的成果如下表所示。
谷歌终究在大数据集上验证了功能比基线好。这是一个路程碑,但这些都是Alex Graves作业的延展。因为RNN-T天然具有流式,外加RNN-T模型作用好,谷歌不断的宣扬这个模型结构,此模型终究也被谷歌上线到pixel手机上。
最终,为什么要去我们都去研讨端到端模型,其实能够从两方面来考虑:榜首,端到端模型把本来传统的模型简化到最简略的模型,扔掉了传统的那些杂乱的概念和过程;第二,其实整个端到端模型用很小的模型结构巨细就到达本来几十G模型的作用。谷歌论文的原文里写着:
但端到端模型真正与事务相结合时,遇到的问题仍是很明显,比方:不同场景下模型需求怎么调整?遇到一些新词的时分LM怎么调整?针对此类问题,学术界和工业界都在寻觅新的处理方案。