MY Blog
友情链接
往期整理
  •   历史归档
  •   文章分类
  •   文章标签
关于我
ZZB
Article
213
Category
4
Tags
580
友情链接
往期整理
历史归档
文章分类
文章标签
关于我
extract
🚀MaskGCT: 新一代大规模声音克隆TTS模型
Post on: 2024-11-6
Last edited: 2024-11-6
Views
人工智能
语音合成
机器学习
TTS
MaskGCT
type
status
date
slug
summary
tags
category
icon
password
🔖标签✨概述📄摘要🔗原文链接

🔖标签

人工智能、语音合成、机器学习、TTS、MaskGCT

✨概述

港中大(深圳)与趣丸科技联合推出的MaskGCT模型,通过全非自回归掩码生成编解码器Transformer,实现了高质量的语音克隆、风格迁移和跨语言生成。

📄摘要

港中大(深圳)与趣丸科技合作推出了新一代大规模声音克隆TTS模型——MaskGCT。该模型在包含10万小时多语言数据的Emilia数据集上训练,展现出超自然的语音克隆、风格迁移和跨语言生成能力。MaskGCT采用全非自回归掩码生成编解码器Transformer架构,消除了文本与语音监督之间的显式对齐需求和音素级持续时间预测。模型分为两阶段:第一阶段使用文本预测语义标记,第二阶段基于语义标记预测声学标记。实验结果表明,MaskGCT在语音质量、相似度和可理解性方面优于当前最先进的零样本TTS系统,并在风格迁移、跨语言生成等任务中表现出色。MaskGCT已在香港中文大学(深圳)与上海人工智能实验室联合开发的开源系统Amphion发布,并应用于短剧出海、智能助手、有声读物等领域。

🔗原文链接

https://mp.weixin.qq.com/s/7QZi0IpILyl3R8wpHXSbtA
  • Author:ZZB
  • URL:https://project-servers.com/article/136e5c82-ebbd-8184-baf6-fbde7125d383
  • Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!
Relate Posts
🚀FlowiseAI:快速构建自定义LLM应用的低代码工具
🚀OmniParse - 非结构化数据解析与转换平台
🚀ESP-SparkBot: 基于ESP32-S3的AI桌面机器人
🚀Fish Speech 1.5: 新一代语音合成工具的突破与创新
🚀LobeChat:开源AI工具的多功能集成平台
🚀GitHub开源项目介绍:机器人运动规划库OMPL
🚀NodeRed与UIOTOS结合搭建物联网应用🚀10倍工程师的高效编码工具:Cursor x SiliconCloud x DeepSeek v2.5
Loading...
ZZB
ZZB
A Coder 🤖
Article
213
Category
4
Tags
580
Latest posts
✨Github热门榜: 2025-12-12
✨Github热门榜: 2025-12-12
2025-12-12
✨Github热门榜: 2025-12-11
✨Github热门榜: 2025-12-11
2025-12-11
✨Github热门榜: 2025-12-10
✨Github热门榜: 2025-12-10
2025-12-10
✨Github热门榜: 2025-12-09
✨Github热门榜: 2025-12-09
2025-12-9
✨Github热门榜: 2025-12-08
✨Github热门榜: 2025-12-08
2025-12-8
✨Github热门榜: 2025-12-07
✨Github热门榜: 2025-12-07
2025-12-7
Announcement
🎉欢迎来到我的博客🎉
-- 感谢您的支持 ---
👏Welcome to my blog👏
联系我们
 
2024-2025 ZZB.
赣ICP备2024046115号

MY Blog | A Coder 🤖