TTS开源新王炸!Ming-omni-tts:一个模型搞定语音/音乐/音效kobai9小时前更新关注私信010 项目介绍 Ming-omni-tts是一款高性能的统一音频生成模型,能够在单通道中实现语音、环境音和音乐的协同合成,并支持对语音属性的精细化控制。其核心创新在于将多种音频模态统一建模,同时保持高效的推理速度与专业的文本处理能力。 项目截图 项目特点 1️⃣ 精细化语音控制 支持通过简单指令精确调控语速、音量、音高、情绪、方言等属性 粤语方言控制准确率达93%,情绪控制准确率达46.7%,优于 CosyVoice3 2️⃣ 智能语音设计 内置100+ 高品质预设音色 支持通过自然语言描述实现Zero-shot 语音设计 在 Instruct-TTS-Eval-zh 基准测试中表现媲美 Qwen3-TTS 3️⃣ 沉浸式统一生成 行业首个基于自回归架构,单模型联合生成语音/环境音/音乐 采用自定义12.5Hz 连续 Tokenizer+DiT Head 架构,实现”场景化”听觉体验 4️⃣ 高效推理优化 创新”Patch-by-Patch” 压缩策略,将 LLM 推理帧率降至3.1Hz 显著降低延迟,支持播客风格长音频生成,同时保留音频细节与自然度 5️⃣ 专业文本归一化(TN) 精准解析并朗读数学公式、化学方程式等复杂格式 在专业测试集上 CER 达1.97%,接近 Gemini-2.5 Pro 水平 🧠 技术架构亮点 模块技术特点价值统一连续音频 Tokenizer基于 VAE 的 12.5Hz 连续编码器,将语音/音乐/音效映射到统一潜空间高保真重建,跨模态兼容性强统一音频语言模型单 LLM 骨干 + Diffusion Head,支持端到端多模态音频生成架构简洁,生成质量与可控性兼顾Patch-by-Patch 生成策略Patch size=4,look-back history=32,平衡局部细节与长程连贯性降低计算开销,提升长音频生成稳定性 📊 关键评测表现 🔹 零样本语音合成(Zero-shot TTS) Seed-TTS-Eval-ZH 测试集:WER 0.83%,相似度 0.75,优于 SeedTTS、GLM-TTS 等主流方案 🔹 语音属性控制 指令成功率平均92.33%(语速/音量/音高),显著高于对比模型 🔹 情绪表达控制 CV3-Eval 情绪测试集平均准确率76.7%,中性情绪集达45.0%,达到 SOTA 水平 🔹 方言生成能力 WSYue-TTS-Eval 粤语测试集准确率96.3%,WSC-TTS-Eval 普通话测试集88.44% 🔹 播客风格 TTS ZipVoice-Dia-zh 测试集:CER 1.84%,UTMOS 主观质量分 2.19,适合长内容播报场景 🔹 语音设计(Voice Design) InstructTTSEval-ZH 综合得分76.20,指令跟随能力与 Qwen3-TTS 相当 🔹 背景音乐/音效生成 在 Ming-BGM-Eval 与 AudioCaps 基准上,多项指标接近或优于专业音频生成模型 🎯 典型应用场景 🎙️智能语音助手:支持方言、情绪、语速的个性化语音交互 🎧有声内容创作:一键生成播客、有声书、广播剧等多角色音频 🎬影视游戏音效:同步生成对白、环境音与背景音乐的沉浸式音轨 📚专业内容朗读:精准处理公式、代码、化学式等复杂文本的语音合成 🎨创意语音设计:通过自然语言描述快速定制虚拟角色音色 整合包说明: 最低英伟达6G显卡+16G内存就可以愉快玩耍 根据官方的示例,二次开发了web界面。 个人觉得这是一款非常不错的语音生成工具 下载链接 inclusionAI/Ming-omni-tts: Ming-omni-tts: Simple and Efficient Unified Generation of Speech, Music, and Sound with Precise Control © 版权声明 版权声明 1 本网站名称:星空知 2 本站永久网址:https://www.xkzhi.cn/ 3 本网站的文章部分内容可能来源于网络,仅供大家学习与参考,如有侵权,请联系站长 QQ1397403557进行删除处理。 4 本站一切资源不代表本站立场,并不代表本站赞同其观点和对其真实性负责。 5 本站一律禁止以任何方式发布或转载任何违法的相关信息,访客发现请向站长举报 6 本站资源大多存储在云盘,如发现链接失效,请联系我们我们会第一时间更新。 THE END电脑软件资源分享资源分享# WP# 软件# 工具# windows# WEB 喜欢就支持一下吧点赞0 分享QQ空间微博QQ好友海报分享复制链接收藏