从不温不火到炙手可热：语音识别技术简史

作者|陈，冯大航，
| AI技术大本营(ID: rgznai100)
【导读】语音识别自诞生半个世纪以来，一直处于不温不火的状态。直到2009年深度学习技术的快速发展，语音识别的准确率才有了很大的提高。虽然不能无限领域、无限人群的应用，但也提供了大多数场景下便捷高效的沟通方式。本文将从技术和产业两个方面回顾语音识别发展的历史和现状，并分析未来的一些趋势，希望能帮助更多的年轻技术人员了解语音行业并对其感兴趣。语音识别，通常称为自动语音识别，英文缩写为ASR。它主要是将人类语音的词汇内容转换成计算机可读的输入，一般是可以理解的文本内容，也可能是二进制代码或字符序列。然而，我们通常理解语音识别实际上是一个狭义的语音到文本的过程。简称为STT(speech-to-text recognition)更为合适，因此它可以对应于语音合成(TTS)。语音识别是一项融合多学科知识的前沿技术，涵盖数学与统计、声学与语言学、计算机与人工智能等基础学科和前沿学科。是人机自然交互技术中的关键环节。然而，语音识别自诞生半个多世纪以来，在实际应用中并没有得到普遍认可。一方面与语音识别的技术缺陷有关，其识别精度和速度不能满足实际应用的要求。另一方面，与业界对语音识别的期望过高有关。事实上，语音识别应该与键盘、鼠标或触摸屏集成在一起，而不是被替代。深度学习技术自2009年兴起以来，取得了长足的进步。语音识别的准确率和速度取决于实际应用环境。而在安静环境、标准口音、常用词汇场景下的语音识别率已经超过95%，这意味着我们已经具备了与人类相似的语言识别能力，这也是当前语音识别技术发展火热的原因。随着技术的发展，口音、方言、噪音等场景的语音识别已经达到可以使用的状态。尤其是远场语音识别，随着智能音箱的兴起，已经成为全球消费电子领域最成功的技术之一。由于语音交互提供了一种更加自然、便捷、高效的交流形式，语音必将成为未来最重要的人机交互界面之一。当然，目前的技术还有很多不足，比如强噪声、远场、强干扰、多语言、大词汇量等场景下的语音识别。需要大幅度提高；此外，多人语音识别和离线语音识别也是目前需要解决的问题。虽然语音识别不能无限的应用领域和人群，但至少我们从应用实践中看到了一些希望。本文将从技术和产业两个方面回顾语音识别发展的历史和现状，并分析未来的一些趋势，希望能帮助更多的年轻技术人员了解语音行业并对其感兴趣。
语音识别的技术历程现代语音识别可以追溯到1952年。戴维斯等人开发了世界上第一个可以识别10个英文数字发音的实验系统，随后正式开始了语音识别的进程。语音识别已经发展了70多年，但从技术方向上大致可以分为三个阶段。下图是1993年到2017年交换机上语音识别率的进步。从图中也可以看出，1993-2009年，语音识别处于GMM-HMM时代，语音识别率提升缓慢，尤其是2000-2009年，语音识别率基本处于停滞状态；2009年，随着深度学习技术的兴起，尤其是DNN，语音识别的框架变成了DNN-HMM，语音识别进入了DNN时代，语音识别的准确率显著提高。2015年后，由于“端到端”技术的兴起，语音识别进入了百花齐放的时代。语音社区正在训练更深更复杂的网络。同时，通过使用端到端技术，语音识别的性能有了很大的提高。直到2017年，微软在Swichboard上达到了5.1%的单词错误率，从而使得语音识别的准确率首次超越人类。当然，这是在一定有限条件下的实验结果，不具有普遍代表性。
在20世纪70年代的GMM-HMM时代，语音识别主要集中在小词汇量和孤立词上，使用的方法主要是简单的模板匹配方法，即先提取语音信号的特征构造参数模板，然后将测试语音与参考模板参数逐一进行比较匹配，将最接近样本对应的词作为语音信号的发音。该方法对孤立词识别有效，但对大词汇量和非特定人连续语音识别无能为力。因此，自20世纪80年代以来，研究思路发生了很大的变化，从传统的基于模板匹配的技术思路发展到基于统计模型(HMM)的技术思路。隐马尔可夫模型的理论基础是由Baum等人在1970年左右建立的，然后由CMU的Baker和IBM的Jelinek应用于语音识别。HMM模型假设一个音素包含3到5个状态，同一状态的发音相对稳定，不同的状态可以按照一定的概率跳变；状态的特征分布可以用概率模型来描述，GMM模型是应用最广泛的模型。因此，在GMM-HMM框架下，HMM描述了语音的短期稳定动态，GMM用于描述HMM各状态下的发音特征。基于GMM-HMM框架，研究者提出了各种改进方法，如结合上下文信息的动态贝叶斯方法、判别训练方法、自适应训练方法、HMM/NN混合模型方法等。所有这些方法都对语音识别研究产生了深远的影响，并为下一代语音识别技术做了准备。自20世纪90年代提出语音识别声学模型的判别训练准则和模型自适应方法以来，语音识别的发展长期缓慢，语音识别的线错误率没有明显下降。
DNN-HMM时代2006年，辛顿提出深度信任网络(DBN)，推动了深度神经网络(DNN)研究的复兴。2009年，Hinton将DNN应用于语音的声学建模，在TIMIT上取得了当时最好的结果。2011年底，微软研究院的于冬和李征将DNN技术应用于大词汇量连续语音识别，大大降低了语音识别的错误率。从此，语音识别进入了DNN-HMM时代。DNN-HMM主要使用DNN模型代替原来的GMM模型对每个状态进行建模。DNN的优点是不需要假设语音数据的分布，拼接相邻语音帧也包含了语音的时序结构信息，使得状态的分类概率明显提高。同时，DNN具有很强的环境学习能力，可以提高对噪声和口音的鲁棒性。
简单地说，DNN是对应于一系列输入特征的状态概率。由于语音信号是连续的，音素、音节、单词之间没有明显的界限，每个发音单位也受上下文的影响。虽然框架可以增加语境信息，但对于言语来说还不够。递归神经网络(RNN)的出现可以记忆更多的历史信息，更有利于对语音信号的上下文信息进行建模。由于简单RNN存在梯度爆炸和梯度耗散的问题，难以训练，不能直接应用于语音信号建模，因此学者们进一步探索和发展了许多适用于语音建模的RNN结构，其中以LSTM最为著名。LSTM可以通过输入门、输出门和遗忘门更好地控制信息的流动和传递，具有长时和短时记忆的能力。虽然LSTM的计算复杂度将高于DNN，但其整体性能稳步提升约20%。
BLSTM是在LSTM基础上的进一步改进。它不仅考虑了语音信号的历史信息对当前帧的影响，还考虑了未来信息对当前帧的影响。因此，在其网络中沿着时间轴有两个信息传递过程，即正向和反向。该模型能够充分考虑上下文对当前语音帧的影响，大大提高了语音状态分类的准确性。BLSTM考虑未来信息的代价是需要在句子层面更新，模型训练收敛速度慢，也会带来解码的延迟。对于这些问题，业内已经进行了工程优化和改进，即使很多大公司还在使用这种模型结构。
图像识别中的主流模型是CNN，语音信号的时频图也可以看作是一幅图像，所以在语音识别中也引入了CNN。为了提高语音识别率，需要克服语音信号的多样性，包括说话人自身、说话人所处的环境、采集设备等。可以等效为各种滤波器和语音信号的卷积。而CNN则相当于设计了一系列具有局部注意特性的滤波器，通过训练学习滤波器的参数，从而从各种语音信号中提取不变部分。CNN本质上也可以看作是从语音信号中不断提取特征的过程。与传统的DNN模型相比，在相同性能下，CNN具有更少的参数。综上所述，对于建模能力，DNN适合特征映射到独立空间，LSTM具有长时和短时记忆能力，CNN擅长降低语音信号的多样性，所以好的语音识别系统是这些网络的结合。
端到端时代语音识别的端到端方法主要是代价函数变了，但神经网络的模型结构变化不大。一般来说，端到端技术解决了输入序列长度远大于输出序列长度的问题。端到端技术主要分为两类：一类是CTC方式，另一类是顺序对顺序方式。在传统语音识别DNN-HMM架构的声学模型中，每帧输入对应一个标签类别，标签需要重复迭代以确保更准确的对齐。使用CTC作为损失函数的声学模型序列可以仅由一个输入序列和一个输出序列训练，而不需要预先进行数据对齐。CTC关心的是预测输出序列是否接近真实序列，而不是预测输出序列中的每个结果是否与该时间点的输入序列完全对齐。CTC建模单位是音素或单词，所以引入了Blank。对于一个语音，CTC最终输出一个峰值序列，其位置对应建模单元的标签，其他位置为空白。序列对序列方法最初主要用于机器翻译领域。2017年，谷歌将其应用于语音识别领域，取得了非常好的效果，将单词错误率降至5.6%。如下图所示，Google提出的新系统框架由三部分组成：编码器组件，类似于标准声学模型，输入语音信号的时频特征；经过一系列神经网络后，映射到高级特征henc，然后传递给注意力组件，注意力组件使用henc特征学习输入X和预测子单元之间的对齐，预测子单元可以是音素或单词。最后，注意力模块的输出传输到解码器，生成一系列假设词的概率分布，类似于传统的语言模型。
端到端技术的突破不再需要HMM来描述音素的内部状态变化，而是将语音识别的所有模块统一到一个神经网络模型中，使得语音识别朝着更简单、更高效、更准确的方向发展。
目前主流的语音识别框架仍然由声学模型、语言模型和解码器三部分组成，有些框架还包括前端处理和后处理。随着各种深度神经网络和端到端技术的兴起，声学模型成为近年来非常热门的方向，业界纷纷发布自己的新声学模型结构，刷新各种数据库的识别记录。由于汉语语音识别的复杂性，国内声学模型的研究进展相对较快，主流方向是更深更复杂的神经网络技术与端到端技术的融合。2018年，科大讯飞提出了深度全序列卷积神经网络(DFCNN)。DFCNN使用大量卷积直接对整个语音信号建模，主要借鉴图像识别的网络配置。每个卷积层使用一个小的卷积核，在多个卷积层之后添加一个池层。通过积累大量的褶积池层对，可以看到更多的历史信息。2018年，阿里提出了LFR-DF SMN(更低帧率-深度前馈顺序存储网络)。该模型将低帧率算法与DFSMN算法相结合，语音识别错误率比上一代技术降低20%，解码速度提高3倍。FSMN可以通过在FNN的隐藏层中添加一些可学习的记忆模块，有效地对语音的长期相关性进行建模。DFSMN通过跳转避免了深度网络的梯度消失，可以训练更深层次的网络结构。2019年，百度提出了流式多级截断注意力模型SMLTA，该模型在LSTM和CTC的基础上引入了注意力机制，以获取更加广泛和层次化的上下文信息。其中流式表示可以直接对一小段语音进行增量解码；多级表征栈多级注意模型；截断是指利用CTC模型的峰值信息将语音切割成小段，注意力模型和解码可以在这些小段上开发。在线语音识别率，该模型性能比百度上一代Deep Peak2模型高15%。开源语音识别Kaldi是业界语音识别框架的基石。《卡尔迪》的作者丹尼尔波维一直主张连锁模式。该模型是一种类似于CTC的技术。与传统状态相比，建模单元更粗，只有两种状态，一种状态是CD Phone，另一种是空白CD Phone。训练方法是无网格MMI训练。该模型结构可以低帧率解码，解码帧率是传统神经网络声学模型的三分之一，准确率较传统模型有显著提高。远场语音识别技术主要解决真实场景下舒适距离内的人机任务对话和服务问题，是2015年后开始兴起的技术。远场语音识别由于解决了复杂环境下的识别问题，已经广泛应用于智能家居、智能汽车、智能会议、智能安防等实际场景中。目前国内远场语音识别的技术框架主要集中在前端信号处理和后端语音识别。前端利用麦克风阵列做混响去除和波束形成等信号处理使语音更清晰，然后送到后端语音识别引擎进行识别。语音识别的另外两个技术部分：语言模型和解码器目前变化不大。语言模型的主流仍然是基于传统的N-Gram方法。虽然目前有关于神经网络语言模型的研究，但在实践中主要用于后处理纠错。解码器的核心指标是速度。业界大多采用静态解码，即将声学模型和语言模型构建成WFST网络，包含所有可能的路径。解码就是在这个空间里搜索的过程。因为这个理论比较成熟，更多的是关于工程优化，所以目前学术界和产业界都比较少关注。
语音识别的技术趋势语音识别趋向于远场和融合，但远场可靠性还存在很多困难，如多轮交互、场景嘈杂等。哪些还需要突破，哪些更迫切的语音分离等技术。新技术应该彻底解决这些问题，让机器听觉远远超过人类感知。这不仅仅是算法的进步，而是整个产业链共同的技术升级，包括更先进的传感器和计算能力更强的芯片。单从远场语音识别技术来看，还有很多挑战，包括：(1)回声消除技术。由于喇叭非线性失真的存在，单靠信号处理很难消除回声，这也阻碍了语音交互系统的普及。现有的基于深度学习的回声消除技术不考虑相位信息，直接计算每个频带的增益。非线性失真能否通过深度学习和信号处理来拟合，可能是一个很好的方向。(2)噪声下的语音识别仍有待突破。信号处理擅长处理线性问题，深度学习擅长处理非线性问题。然而，实际问题必然是线性和非线性问题的叠加。因此，只有将两者融合，才有可能更好地解决噪声下的语音识别问题。(3)以上两个问题的共性是，目前的深度学习只利用了语音信号各个频带的能量信息，而忽略了语音信号的相位信息。特别是对于多通道，如何让深度学习更好的利用相位信息，可能是未来的一个方向。(4)另外，在数据较少的情况下，如何通过迁移学习得到好的声学模型也是一个热门的研究方向。比如方言识别，如果有一个好的普通话声学模型，如何利用少量的方言数据得到一个好的方言声学模型，会大大扩展语音识别的应用范围。这方面有所进步，但更多的是一些训练技巧，离最终目标还有一定差距。(5)语音识别的目的是让机器能够理解人类，所以转换成文字不是最终目的。如何把语音识别和语义理解结合起来，可能是未来更重要的方向。语音识别中的LSTM已经考虑了语音的历史时刻信息，但是语义理解需要更多的历史信息才有帮助，所以如何将更多的上下文会话信息传递给语音识别引擎是一个难题。(6)让机器理解人类语言是不够的。下一步必须融合“声、光、电、热、磁”的物理传感手段。只有这样，机器才能感知世界的真实信息，这是机器学习人类知识的前提。而且，机器必须超越人类的五官，能够看到人类看不到的世界，听到人类听不到的世界。
语音识别的产业化历程在半个多世纪的语音识别产业化历程中，有三个关键节点，其中两个与技术有关，一个与应用有关。第一个关键节点是1988年的一篇博士论文，开发了第一个基于隐马尔可夫模型(HMM)的语音识别系统，3354Sphinx。当时实现这个系统的是著名投资人李开复。从1986年到2010年，虽然高斯混合模型的效果不断改进并应用到语音识别中，语音识别的效果也确实有所提高，但实际上语音识别已经遇到了技术天花板，识别准确率很难超过90%。很多人可能还记得，1998年左右，IBM和微软都推出了语音识别相关的软件，但是最后都没有成功。第二个关键节点是，2009年，深度学习被系统应用到语音识别领域。这导致识别准确率再次大幅提升，最终突破90%，在标准环境下逼近98%。有趣的是，尽管技术不断突破，出现了一些相关产品，比如Siri、谷歌助手等。与它们所吸引的关注度相比，这些产品的实际成绩要逊色很多。Siri刚出现的时候，时任谷歌CEO的施密特就叫嚣着会对谷歌的搜索业务造成根本性的威胁，但实际上这种根本性的威胁直到亚马逊Echo出来才真正有了具体的载体。第三个关键点是亚马逊Echo的出现。单纯从语音识别、自然语言理解等技术甚至功能的角度来看这款产品，与Siri等相比并没有本质的变化。核心的改变只是把近场语音交互变成了远场语音交互。Echo于2015年6月正式上市，到2017年，销量已经突破1000万。与此同时，在Echo上扮演Siri角色的Alexa也逐渐生态化，后台第三方技能已过万。随着落地时从近场到远场的突破，亚马逊一举从这个赛道的落伍者变成了行业的领跑者。但自从远场语音技术规模化落地后，语音识别领域的产业竞争开始从研发转向应用。R & ampd比较标准环境下的纯算法谁更有优势，应用比较谁的技术能在真实场景下产生优秀的用户体验。一旦对比真实场景中的体验，语音识别就失去了独立存在的价值，更多的是作为产品体验的一个环节而存在。于是到了2019年，语音识别似乎进入了一个相对平静的时期，全球行业的主要玩家，包括亚马逊、谷歌、微软、苹果、百度、科大讯飞、阿里、腾讯、云知声、Spirits、Sonic等公司，在一路狂奔之后，开始反思自己的定位和下一步。——智能音箱，声轨中的符号产品，以大跃进的姿态出现在大众面前。2016年之前，智能音箱玩家对这款产品的认识还停留在：亚马逊生产了一款名为Echo的产品，功能与Siri类似。科大讯飞的先驱丁咚斯比克开局不利，加重了其他人的观望态度。真正让很多玩家从观望转为积极参与的转折点，是逐渐曝光的Echo销售。2016年底，Echo近千万的美国销量震惊了全世界。这是智能设备从未达到过的最高点。在Echo之前，除了Apple Watch和手环之外，类似恒温器和摄像头这样的产品销量突破百万是一个惊人的表现。这种销量和智能音箱的AI属性促使国内巨头在2016年下半年几乎同时转变态度，积极打造自己的智能音箱。未来回顾整个发展历程，2019年是一个清晰的分界点。在此之前，整个行业都在突飞猛进，但在2019年之后，开始渗透和打磨细节。人们关注的焦点不再是单纯的技术指标，而是回归到体验和“新的交互方式能给我们带来什么价值”这样一个更一般、更纯粹的商业视角。
从技术到产品再到是否需要与特定的形象互动，比如人物；过程自动化是否应该与语音相结合；酒店应该如何利用这种技术提升体验等等，最终都会呈现给从业者。这个时候，行业的主角也会从原来的产品方过渡到平台提供方。AIoT太深了，没有一家公司能全线打造所有产品。
语音识别的行业趋势在语音行业需求遍地开花的同时，行业的发展速度又会反过来受限于平台服务商的供给能力。把目光放在具体的案例之外，行业下一步发展的本质逻辑是每个具体点的投入产出是否达到一个普遍接受的极限。越接近这个边界，行业就越接近滚雪球式发展的临界点，否则整体增速会比较平缓。无论是家居、酒店、金融、教育还是其他场景，如果解决问题是一件非常高投入、长期的事情，承担成本的一方就会犹豫，相当于试错成本很高。如果投资后没有可感知的新体验或销售提升，承担成本的一方就会犹豫，这显然会影响价值是否值得的判断。归根结底，这两件事必须由平台方来解决，产品方或解决方案方对此无能为力，这是由智能语音交互的基本技术特性决定的。从核心技术来看，整个语音交互链条有五个单点技术：唤醒、麦克风阵列、语音识别、自然语言处理、语音合成。其他技术如声纹识别、哭闹检测等数十种技术，通用性略弱，但它们出现在不同的场景中，在具体的场景中会成为关键。看起来相关的技术已经比较复杂了，但是当我们切换到商业的角度，就会发现要找到这些技术，打造一个体验优秀的产品，还有很大的距离。所有语音交互产品都是端到端的产品。如果每个厂商都从这些基础技术构建产品，那么每个公司都要建立自己的云服务稳定性，保证响应速度，适应自己选择的硬件平台，并逐项整合具体内容(如音乐、有声读物)。从产品方或解决方案提供商的角度来看，这是不可接受的。这时就会诞生相应的平台服务商，同时解决技术、内容接入、工程细节等问题，最终达到试错成本低、体验足够好的目的。平台服务不需要闭门造车。平台服务的前提是有一个可以屏蔽产品差异的操作系统。这是艾IOT的特色，也是借鉴。在过去的10年里，亚马逊开始同时做两件事：一是持续推出面向终端用户的产品，如Echo、Echo Show等。一种是将所有产品的内置系统Alexa平台化，同步开放设备端和技能端的SDK和调试发布平台。虽然谷歌助手宣称单点技术更先进，但从各方面来看，Alexa是最先进的系统平台。遗憾的是，Alexa不支持中文以及相应的后台服务。国内缺乏像亚马逊这样的主导系统平台提供商。目前的平台商分为两大阵营：一是以百度、阿里、讯飞、小米、腾讯为代表的传统互联网或上市公司；一类是以盛智等为代表的新兴人工智能公司。相对于传统公司，新兴的人工智能公司在产品和服务上的历史包袱更轻，所以反而可以在平台服务上推广一些更面向未来、更有特色的基础服务。比如新兴公司会在兼容性上做的更彻底，这对于一套产品同时覆盖国内外市场还是相当有利的。相比过去的Android，语音交互的平台提供商其实面临的挑战更大，发展过程可能更曲折。事实上，过去常被提及的操作系统概念，在智能语音交互的背景下，正在被赋予新的内涵。它越来越分成两个必须紧密结合的不同部分。过去，Linux及其变种承担了功能操作系统的角色，而以Alexa为代表的新系统承担了智能系统的角色。前者完成对完整硬件和资源的抽象和管理，后者让这些硬件和资源得到具体应用，两者结合才能输出最终用户感知的体验。
功能操作系统和智能操作系统注定是一对多的关系。不同的AIoT硬件产品在传感器(深度相机、雷达等)上差异巨大。)和显示器(有无屏幕、小屏幕、大屏幕等。)，这会导致功能系统的不断分化(可以对应Linux的分化)。这反过来意味着一套智能系统必须同时解决适应功能系统和支持不同后端内容和场景的双重责任。双方在操作和属性上存在巨大差异。解决前者需要参与传统的产品制造链条，而解决后者更像是应用商店的开发者。这里面有巨大的挑战和机遇。以前在搭建功能操作系统的过程中，国内程序员更多扮演的是用户的角色。不过，虽然智能操作系统也可以参考其他的，但这一次他们要从零开始构建一个完整的系统。(国外巨头在中文相关的技术和内容整合上其实很弱，没有入侵国内市场的可能。)随着平台服务商两边的问题解决的越来越好，基础计算模式也会逐渐改变，人们的数据消费模式也会和今天不一样。个人计算设备(目前主要是手机、笔记本、pad)会根据不同场景进一步分化。比如在车上、家里、酒店、工作场景、路上、业务办理等。将根据位置和业务进行区分。但差异化的同时，背后的服务是统一的，大家可以根据场景自由迁移设备。虽然背后的服务会针对不同的场景进行优化，但在个人喜好上是统一的。目前人与数字世界的界面越来越统一在具体的产品形态上(比如手机)，但随着智能系统的出现，这种统一会越来越统一在系统本身。因此，数字化的程度将继续加深，我们越来越接近一个100%数字化的世界。
从技术进步和产业发展的角度来看，语音识别还不能解决不限场景、不限人的一般识别问题，但已经广泛应用于所有真实场景，并得到了规模化的验证。更何况技术和产业之间有很好的正向迭代效应。落地场景越多，数据越真实，用户需求越精准。这有助于语音识别技术的快速进步，基本满足了行业需求，解决了很多实际问题。这也是语音识别相对于其他AI技术最明显的优势。但也要看到，语音识别的内涵必须不断拓展，狭义的语音识别必须走向广义的语音识别，让机器理解人类的语言，才能把语音识别研究带到更高的维度。我们认为多技术、多学科、多传感器的融合将是未来人工智能发展的主流趋势。在这种趋势下，我们还有很多未来的问题需要讨论，比如如何改变键盘、鼠标、触摸屏和语音交互的关系？搜索、电商、社交是不是又重构了？硬件反击变得比软件更重要了吗？产业链上传感器、芯片、操作系统、产品、内容厂商之间的关系应该如何变化？本文得到了多位语音识别领域专家的指导，并引用了一些带图的参考资料。在此表示感谢，文章中的不足之处请批评指正。参考文献[1] W .华敏，k .库玛塔尼，s .孙达拉姆，N. Strm和b .霍夫迈斯特，“用于远距离语音识别的频域多声道声学建模”，ICASSP 2019 – 2019 IEEE声学、语音和信号处理国际会议(ICASSP)，英国布莱顿，2019年，第6640-6644页。[2]李B、赛纳特TN、纳拉亚南A、卡罗塞利J、巴恰尼M、米斯拉A、沙夫兰I、萨克H、彭达克G、钦KK、西姆KC。谷歌主页的声学建模。InInterspeech 2017年8月20日(第399-403页)。[3]邱CC，Sainath TN，Wu Y，Prabhavalkar R，Nguyen P，Chen Z，Kannan A，Weiss，Rao K，Gonina E，Jaitly N .2018年IEEE声学、语音和信号处理国际会议(ICASSP) 2018年4月15日(第4774-4778页)。IEEE。[4]李军，邓力，龚Y，Haeb-Umbach R .抗噪声自动语音识别综述.IEEE/ACM音频、语音和语言处理汇刊。2014年2月5日；22(4):745-77.[5]于冬，李征。分析深度学习：语音识别实践。电子工业出版社。2016.[6]韩记青，章雷，郑铁然。语音信号处理。清华大学出版社。2005.[7]王栋。语音识别技术的现状和未来。2017.[8]https://developer . Amazon . com/zh/blogs/Alexa/post/92bb 9391-e930-464 b-8 ECE-10 Amazon-scientist-outlines-multi layer-system-for-smart-speaker-echo-cancellation-and-voice-enhancement[9]https://venturebeat.com/2019/04/01/Alexa-researchers-develop-2-mic-speech-recognition-system-that-beats-7-mic-array/[10]https://yq . aliyun . com/articles/7041770
(*本文为AI技术大本营原创文章，转载请联系微信1092722531)
福利时刻
入群参与每周抽奖~
扫码添加助手，回复：大会，加入福利群，参与抽奖，送礼物！
AI ProCon 2019在大会前一天(9月5日)邀请亚马逊首席科学家@李牧教授“深度学习训练营”，通过动手实践帮助开发者全面了解深度学习的基础知识和开发技巧。还有9场技术论坛，60场主题分享，百余家公司，千余名开发者齐聚2019 AI ProCon！距离五折票结束还有4天！

{{userData.name}}已认证

从不温不火到炙手可热：语音识别技术简史

新手做影视剪辑一定不能犯的5个(做影视剪辑的几点建议)

AE导出视频的方法有几种？