品玩5月28日讯,据 Analytics indiamag报道,苹果公司近日推出降噪语音模型 DLM,这是一种使用大量合成数据训练的按比例纠错模型实现了 SOTA 自动语音识别 (ASR) 性能。 单个 DLM 可应用于不同的 ASR,其性能大大优于传统的基于 LM 的波束搜索重排。这些结果表明,设计良好的纠错模型有可能取代传统的 LM,从而将 ASR 系统的准确性提高到一个新的水平。 纠错模型面临的一个重大挑战是需要大量有监督的训练示例,而典型的 ASR 数据集中的训练示例数量有限。DLM 通过使用 TTS 系统生成合成音频来解决这一问题,然后将合成音频输入 ASR 系统,创建与原始文本配对的假设,形成训练数据集。这种方法允许使用更大的语言语料库来扩展训练数据。

点赞(0) 打赏

联系编辑

微信二维码

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部