一款基于流匹配的全非自回归文本到语音转换系统,零样本,支持声音克隆、速度控制、控制语音情感表现、长文本合成、中 英文 多 语言 合成,并支持商用。
不需要复杂的 设计 如持续 时间 模型、文本编码器和音素对齐,能够快速训练并实现实时因素(RTF)0.15 的 推理 速度,显著优于当前基于扩散的 TTS 模型。
F5-TTS 在公共的 100K 小时 多语言数据集上进行训练,展现出高 自然 性和表现力的零样本能力、无缝代码切换能力和速度控制 效率 。
开源地址:https:// github .com/SWivid/F5-TTS
评论列表
发表评论