亚马逊发布了BASE TTS的模型拥有9.8亿个参数

AI资讯 2024-06-21

来源：www.aifind.com.cn

这些句子设计包含具有挑战性的任务——BASE TTS没有被明确训练来执行这些任务。在10万小时音频上训练的9 8亿参数版本的模型并未表现出超越4亿参数版本的新能力。

亚马逊的研究人员训练了一种新的大型语言模型（LLM）用于文本到语音转换，并声称其表现出“突现”能力。这个名为BASE TTS的模型拥有9.8亿个参数，是迄今为止最大的文本到语音转换模型。研究人员在最多10万小时的公共领域语音数据上训练了不同规模的模型，以观察这些模型是否会像自然语言处理模型那样，在超过某个规模后表现出显著的性能提升。

他们发现，中等规模的4亿参数模型——在1万小时的音频上训练的——在应对复杂测试句子时表现出显著的多样性和稳健性提升。

这些测试句子包含复杂的词汇、句法和副语言特征，如复合名词、情感、外语词汇和标点符号，这些通常是文本到语音系统的难点。虽然BASE TTS并未完美处理这些句子，但在重音、语调和发音上所犯错误明显少于现有模型。

研究人员解释说：“这些句子设计包含具有挑战性的任务——BASE TTS没有被明确训练来执行这些任务。”在10万小时音频上训练的9.8亿参数版本的模型并未表现出超越4亿参数版本的新能力。

尽管这是一个实验过程，BASE TTS的创建表明，这些模型在扩展时能够达到新的多样性门槛——这是对对话式人工智能的一个鼓舞性信号。研究人员计划进一步工作以确定突现能力的最佳模型规模。该模型还被设计为轻量级和可流式传输，情感和韵律数据分别封装。这可能允许自然听起来的语音音频在低带宽连接上传输。

# 亚马逊 # BASE # TTS

文章版权归作者所有，未经允许请勿转载。

亚马逊发布了BASE TTS的模型拥有9.8亿个参数

亚马逊CEO Jeff Bezos计划出售价值近50亿美元的公司股票

致力打造国内好用的AI产品导航平台

亚马逊发布了BASE TTS的模型拥有9.8亿个参数

英伟达展示视觉人工智能的最新进展

Nvidia将在美国限制向中东地区出口AI之际在中东推出产品

相关文章

乙太夏瓴

致力打造国内好用的AI产品导航平台

亚马逊发布了BASE TTS的模型拥有9.8亿个参数

英伟达展示视觉人工智能的最新进展

Nvidia将在美国限制向中东地区出口AI之际在中东推出产品

相关文章

返回首页

QQ:454412999

021-51185995

微信扫一扫

返回顶部