您的位置:首页>人工智能>正文

具有神经架构搜索功能的轻量级快速文本到语音转换

摘要文本转语音(TTS)模型广泛用于音频导航或旅游口译等领域。但是,当前的模型体积大、速度慢且耗电量大。最近,一组研究人员提出了LightSpeech

文本转语音(TTS)模型广泛用于音频导航或旅游口译等领域。但是,当前的模型体积大、速度慢且耗电量大。最近,一组研究人员提出了LightSpeech,这是一种利用神经架构搜索轻量级和快速文本到语音模型的方法。

首先,对当前使用的Fast-Speech2模型的组件进行概要分析,以确定内存和推理速度的瓶颈。然后,创建由一系列轻量级模型组成的新颖搜索空间。最后,最近一种基于准确度预测的方法可以选择最佳架构。

实验表明,与Fast-Speech2相比,新型TTS模型实现了6.5倍的推理加速、15倍的压缩比和16倍的MAC(乘法累加操作,一种显示计算成本的度量)。

文本转语音(TTS)已被广泛用于合成不同场景中的自然和可理解的语音。在各种终端设备(如手机或嵌入式设备)中部署TTS需要极小的内存使用和推理延迟。尽管FastSpeech等非自回归TTS模型的推理速度明显快于自回归模型,但它们的模型大小和推理延迟对于在资源受限设备中的部署来说仍然很大。在本文中,我们提出了LightSpeech,它利用神经架构搜索~(NAS)基于FastSpeech自动设计更轻量级和高效的模型。我们首先分析当前FastSpeech模型的组件,并精心设计一个包含各种轻量级和潜在有效架构的新颖搜索空间。然后利用NAS自动发现搜索空间内性能良好的架构。实验表明,我们的方法发现的模型在CPU上实现了15倍的模型压缩比和6.5倍的推理加速,语音质量相当。音频演示在这个https网址。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢。