品玩5月28日讯,据 Analytics indiamag报道,苹果公司近日推出降噪语音模型 DLM,这是一种使用大量合成数据训练的按比例纠错模型实现了 SOTA 自动语音识别 (ASR) 性能。 单个 DLM 可应用于不同的 ASR,其性能大大优于传统的基于 LM 的波束搜索重排。这些结果表明,设计良好的纠错模型有可能取代传统的 LM,从而将 ASR 系统的准确性提高到一个新的水平。 纠错模型面临的一个重大挑战是需要大量有监督的训练示例,而典型的 ASR 数据集中的训练示例数量有限。DLM 通过使用 TTS 系统生成合成音频来解决这一问题,然后将合成音频输入 ASR 系统,创建与原始文本配对的假设,形成训练数据集。这种方法允许使用更大的语言语料库来扩展训练数据。