思必驰-上海交大实验室14篇 ICASSP 2018入选论文解读

　　原标题：思必驰-上海交大实验室14篇 ICASSP 2018入选论文解读雷锋网 AI 科技评论按：

　　噪声下的语音识别一直是一个巨大挑战。在我们实验室之前开发的极深卷积神经网络 VDCNN 基础上，通过引入残差学习得到 VDCRN 模型以进一步提升模型鲁棒性，同时在 VDCRN 模型上开发聚类自适应训练方法来减少模型在噪声下的训练和测试间失配。此外，还使用基于未来信息预测向量的新型 LSTM-RNNLM 来改善系统性能。最终所开发的抗噪语音识别系统，在噪声标准数据集 Aurora4 上达到了 3.09%的词错误率，也是目前在此任务道的最好结果。经过分析对比，这个错误率已经非常接近真实人类在这个任务上的性能，在抗噪鲁棒语音识别研究上具有里程碑意义。

　　如上图，我们的 5-gram+LSTM+FV-LSTM 的错词率已经与人类真实情况非常接近。

　　本篇获得 IEEE N.Ramaswamy MemorialStudent Travel Grant 项，今年仅 2 篇论文获得该项。在 2017 年 9 月，思必驰曾两次登上大型人工智能科普类节目《机智过人》，其中一期展示的是声纹识别技术，而这一片论文，则是对该技术的详细剖析。

　　单通道多说话人识别目的在于识别出一段有语音重叠的所有说话人，这也是著名的「鸡尾酒问题」的一个子问题。我们针对基于神经网络的单通道多说话人识别框架进行了多种改进：

　　3）提出了一种后处理方法来将帧级别的预测汇总为句子级别的预测。实验结果表明我们提出的系统相对于基线系统取得了明显的性能提升，在两个说线%的正确率，三个说线%。

　　图5：基于RSR 数据库的人工混合的单信道多说线.用于自适应波束成形的结合神经网络与聚类方法的鲁棒隐蔽值估计

　　思必驰拥有国内非常领先的前端声学处理能力，在多麦阵列和前端信号处理、asr方面均有不错的表现。在前端做了说话人自适应，后端辅以声学模型的自适应，在不同下不同说话人的识别结果有提高。目前思必驰阵列方案包括线性四麦、双麦等方案，成为联想电视、熊猫电视、阿里天猫精灵、腾讯听听等智能终端设备的共同选择。

　　基于隐蔽值（mask-based）的波束形成（beamforming）方法现在在多通道噪声鲁棒自动语音识别研究中受到了广泛的关注。在已有的 mask 估计模型中，基于神经网络 mask 估计方法有较好的性能，但是这种方法由于需要仿真的数据进行训练，因此在真实应用场景下存在着训练与测试不匹配的问题。本文针对这个问题，提出了一个新的非监督框架，利用复数混合高斯模型（CGMM，Complex Gaussian mixture model），估计真实无标签数据的软标签，使得真实数据可以用于mask 神经网络的训练；除此以外，利用复数混合高斯模型，本文将说话人自适应技术从后端的声学模型建模引入到基于 mask 估计的波束形成技术，实现了一个说话人相关的波束形成技术。我们提出的方法在 CHIME-4 数据集上进行了验证，实验结果可以发现，在真实带噪的测试条件下，语音识别性能有明显提升，这种基于非监督方法的神经网络 mask 波束形成技术可以显著减小训练与测试的不匹配问题。

　　口语语义理解（Spoken Language Understanding, SLU）通常需要在收集的数据集上进行人工语义标注。为了更好地将无标注数据用于 SLU 任务，我们提出了一种针对 SLU 半监督训练的对抗对任务学习方法，把一个双向语言模型和语义标注模型结合在一起，这就减轻了对标注数据的依赖性。作为第二目标，双向语言模型被用于从大量未标注数据中学习广泛的无监督知识，从而提高语义标注模型在测试数据上的性能。我们为两个任务构建了一个共享空间，并为每个任务分别构建了私有空间。此外，对抗任务判别器也被用于获取更多任务无关的共享信息。在实验中，我们提出的方法在 ATIS 数据集上达到了最好的性能，并在 LARGE 数据集上显著提高了半监督学习性能。我们的模型使得语义标注模型更具一般性，且当标注数据显著多余无标注数据时，半监督学习方法更加有效。

　　如上图，我们提出的 BSPM 和 BSPM+D 始终比其他方法取得更好的性能结果。与传统 STM 相比，我们的方法在全部数据集上显著提高 99.9%。与简单多任务模型 MTLe 相比，我们的方法在5k数据集上提升 99.9%，在 10k 数据集上提升 99.5%。与 PSEUDO 方法相比，在 5k 和 10k 数据集上提升 99.8%，在 15k 数据集上提升 95%。实验表明，当标注数据有限而无标注数据十分充足时，我们的半监督学习模型要更加有效。当语言模型学习无监督知识时，共享-私有框架和对抗训练使得语义标注模型泛化，在未见过的数据上表现更好。

　　对话策略优化是统计对话管理的核心。深度强化学习被成功应用于提前定义好的固定领域中，但是当领域动态发生变化，例如有新的语义槽被添加到当前领域的本体中，或者策略被迁移到其它领域时，对话状态空间和对话动作集合都会发生变化，因而表示对话策略的神经网络结构也会发生变化。这将使得对话策略的自适应变得十分困难。本文提出一种多智能体对话策略 MADP(Multi-AgentDialogue Policy), 相比于普通的基于深度强化学习的对话策略，MADP不仅学习更快，也更适合于领域扩展和迁移。MADP 包括一个语义槽无关的智能体（G-Agent）和一些语义槽相关的智能体（S-Agent）。每个 S-Agent 除了有私有参数外，还有相互之间共享的参数。当策略进行迁移时，S-Agent 中的共享参数和 G-Agent 中的参数可以直接迁移到新领域中。模拟实验表明 MADP 可以显著提升对话策略的学习速度，而且有利于策略自适应。

　　本文提出了一种结合师生训练 TS(teacher-student training)和排列不变性训练 PIT（permutationinvariant training）的单通道多说话人语音识别的框架。通过使用循序渐进的训练的方法将多个教师的知识进行集成用于进一步完善系统，利用没有标注的数据为多说话者语音识别进行领域自适应。实验表明，TS 可以将错词率（WER）相对于基线 PIT 模型降低了相对 20％。我们还在人工混合的 WSJ0 语料库上进行了评估，相对于使用 AMI 训练的 PIT 模型实现了相对 30％的WER降低。

　　本文提出了在之前的 PIT 语音识别模型上利用辅助信息做说话人自适应，提升单声道多说话人语音识别的性能。利用混合语音的音调和 i-vector 做为辅助输入，用说话人组合的性别信息做为辅助任务，使用辅助特征和多任务学习方法对置换不变量训练模型进行训练，让语音分离和识别模型自适应于不同的说话人组合。另外，我们使用了 CNN-BLSTM 模型，结果证明排列不变性训练 (PIT)可以容易地与先进的技术相结合，达到提高性能的目的，俏师母最终系统相对提升 10%。

　　深度神经网络的正则化和自适应比较困难。我们深度混合生成网络，提出更高效的自适应方法：首先采用无监督模式提出自适应均值；提出鉴别性线性回归，当缺乏自适应数据时，能够估算出一个更鲁棒的均值。实验表明，我们提出的方法均比说话人无关的基线要好；此外对深度混合生成网络自适应结果的可视化标明，鉴别性线性回归的确帮助了均值从一个全局的点转换到说话人自身的中心点。

　　利用句法和形态层面的参数共享来解决神经网络语言模型中的集外词问题。每个词的embedding分成两个部分: syntactic embedding 和 morphological embedding, 而集外词的 syntactic 和 morphological 的信息可以通过知识获得，因此可以利用神经网络中已经训练好的参数，而无需重新训练模型。实验表明我们的模型在 PPL 和 CER 指标上均优于基线.基于无监督语音识别错误自适应的鲁棒自然语言理解

　　立足口语对话系统中的语义理解模块，重点解决后端语义理解对于前端语音识别错误的鲁棒性不足的问题。我们利用部分参数共享的 BLSTM 架构，提出无监督的语音识别错误自适应训练方法来提升语义理解的鲁棒性。本文提出的方法不需要对语音识别结果进行语义标注就可以取得与之匹配的性能水平，可以大大减少人工标注的工作量。

　　传统的端到端系统不能使用文本数据进行训练，导致需要大量标注的声学数据进行训练。我们率先提出模块化的端到端模型训练框架。一个音频到音素的声学模型和一个音素到词语的语言模型分别基于声学和语言数据进行训练，然后进行基于音素同步解码的声学和语言模型联合训练。实验显示，这一框架下训练得到的端到端模型在取得传统系统相似准确率的情况下，大幅降低了推测复杂度。

　　鸡尾酒会问题的解决需要声学模型具有强大的序列建模能力。我们在训练阶段为 PIT 模型添加了显式的序列依赖性，将语言模型信息融入 PIT 模型的组合决策过程中。实验结果显示，这两项技术的加入能够显著提升现有系统的准确率，与序列鉴别性训练和迁移学习相结合，能使最终系统的准确率提升 30%以上。

　　本文由 325游戏（m.325games.com）整理发布

大众论文网

思必驰-上海交大实验室14篇 ICASSP 2018入选论文解读