首页AI工具

MOSS-TTSD – 清华实验室开源的口语对话语音生成模型

芊芊下载2025-07-06 20:22:126次浏览

MOSS-TTSD是什么

MOSS-TTSD(Text to Spoken Dialogue)是开源的口语对话语音生成模型,由清华大学语音与语言实验室(Tencent AI Lab)开发。能将文本对话脚本转化为自然流畅、富有表现力的对话语音,支持中英文双语生成。模型基于先进的语义-音学神经网络音频编解码器和大规模预训练语言模型,结合了超过100万小时的单人语音数据和40万小时的对话语音数据进行训练。支持零样本语音克隆,能根据对话脚本生成准确的对话者切换语音,适用于AI播客、访谈、新闻报道等多种场景。 MOSS-TTSD

MOSS-TTSD的主要功能

  • 高表现力对话语音生成:能将对话脚本转换为自然、富有表现力的对话语音,准确捕捉对话中的韵律、语调等特性。
  • 零样本多说话人音色克隆:支持根据对话脚本生成准确的对话者切换语音,无需额外样本即可实现两位对话者的音色克隆。
  • 中英双语支持:可在中文和英文两种语言中生成高质量的对话语音。
  • 长篇语音生成:基于低比特率编解码器和优化的训练框架,能一次性生成超长语音,避免拼接语音片段的不自然过渡。
  • 完全开源且商业就绪:模型权重、推理代码和API接口均已开源,支持免费商业使用。

MOSS-TTSD的技术原理

  • 基础模型架构:MOSS-TTSD 基于 Qwen3-1.7B-base 模型进行续训练,采用离散化语音序列建模方法。模型通过八层 RVQ(Residual Vector Quantization)码本对语音进行离散化处理,将连续的语音信号转换为离散的 token 序列。这些 token 序列通过自回归加 Delay Pattern 的方式生成,最后通过 Tokenizer 的解码器将 token 还原为语音。
  • 语音离散化与编码器创新:核心创新之一是 XY-Tokenizer,是专门设计的语音离散化编码器。XY-Tokenizer 采用双阶段多任务学习方式训练:
    • 第一阶段:训练自动语音识别(ASR)任务和重建任务,让编码器在编码语义信息的同时保留粗粒度的声学信息。
    • 第二阶段:固定编码器和量化层,仅训练解码器部分,通过重建损失和 GAN 损失补充细粒度声学信息。 XY-Tokenizer 在 1kbps 的比特率和 12.5Hz 的帧率下,能同时建模语义和声学信息,性能优于其他同类 Codec。
  • 数据处理与预训练:MOSS-TTSD 使用了约 100 万小时的单说话人语音数据和 40 万小时的对话语音数据进行训练。团队设计了高效的数据处理流水线,从海量原始音频中筛选出高质量的单人语音和多人对话语音,进行标注。模型进行了 TTS 预训练,使用 110 万小时的中英文 TTS 数据显著增强了语音韵律和表现力。
  • 长语音生成能力:基于超低比特率的 Codec,MOSS-TTSD 支持最长 960 秒的音频生成,能一次性生成超长语音,避免了拼接语音片段之间的不自然过渡。

MOSS-TTSD的项目地址

  • 项目官网:https://www.open-moss.com/en/moss-ttsd/
  • Github仓库:https://github.com/OpenMOSS/MOSS-TTSD
  • HuggingFace模型库:https://huggingface.co/fnlp/MOSS-TTSD-v0.5
  • 在线体验Demo:https://huggingface.co/spaces/fnlp/MOSS-TTSD

MOSS-TTSD的应用场景

  • AI 播客制作:MOSS-TTSD 能生成自然流畅的对话语音,特别适合用于 AI 播客的制作。可以模拟真实的对话场景,生成高质量的播客内容。
  • 影视配音:模型支持中英双语的高表现力对话语音生成,能进行零样本音色克隆,适用于影视作品中的对话配音。
  • 长篇访谈:MOSS-TTSD 支持最长 960 秒的音频生成,能一次性生成超长语音,避免了拼接语音片段之间的不自然过渡,非常适合长篇访谈的语音生成。
  • 新闻报道:在新闻报道中,MOSS-TTSD 可以生成自然的对话式语音,用于播报新闻内容,提升新闻的吸引力。
  • 电商直播:模型可以用于数字人对话带货等电商直播场景,通过生成自然的对话语音来吸引观众。
《撞车嘉年华2》v344716原版英文 FlashDocs – AI演示文稿生成工具,根据动态数据生成内容
随机内容