这些句子设计包含具有挑战性的任务——BASE TTS没有被明确训练来执行这些任务。在10万小时音频上训练的9 8亿参数版本的模型并未表现出超越4亿参数版本的新能力。

亚马逊的研究人员训练了一种新的大型语言模型(LLM)用于文本到语音转换,并声称其表现出“突现”能力。这个名为BASE TTS的模型拥有9.8亿个参数,是迄今为止最大的文本到语音转换模型。研究人员在最多10万小时的公共领域语音数据上训练了不同规模的模型,以观察这些模型是否会像自然语言处理模型那样,在超过某个规模后表现出显著的性能提升。

他们发现,中等规模的4亿参数模型——在1万小时的音频上训练的——在应对复杂测试句子时表现出显著的多样性和稳健性提升。

这些测试句子包含复杂的词汇、句法和副语言特征,如复合名词、情感、外语词汇和标点符号,这些通常是文本到语音系统的难点。虽然BASE TTS并未完美处理这些句子,但在重音、语调和发音上所犯错误明显少于现有模型。

研究人员解释说:“这些句子设计包含具有挑战性的任务——BASE TTS没有被明确训练来执行这些任务。”在10万小时音频上训练的9.8亿参数版本的模型并未表现出超越4亿参数版本的新能力。

尽管这是一个实验过程,BASE TTS的创建表明,这些模型在扩展时能够达到新的多样性门槛——这是对对话式人工智能的一个鼓舞性信号。研究人员计划进一步工作以确定突现能力的最佳模型规模。该模型还被设计为轻量级和可流式传输,情感和韵律数据分别封装。这可能允许自然听起来的语音音频在低带宽连接上传输。

© 版权声明

相关文章

返回顶部