微软AI发布VibeVoice-Realtime轻量实时语音合成模型

微软近期发布了全新的实时文本转语音模型——VibeVoice-Realtime-0.5B，该模型能够以极低的延迟生成长篇语音，并支持流式文本输入，从而将应用场景扩展至语音代理和实时数据解说。其核心优势在于能够以约300毫秒的延迟生成首段语音内容，为实时交互提供了可靠的技术支持。

VibeVoice-Realtime-0.5B是VibeVoice框架的一部分，该框架基于连续语音令牌的扩散方法，旨在实现长篇、多语者语音生成，如播客制作。研究团队展示了VibeVoice的核心模型能够处理长度达90分钟的语音，并支持最多4位发言者的64k上下文窗口，生成频率为7.5 Hz。相比之下，VibeVoice-Realtime-0.5B是该系统的低延迟分支，专注于实时与单语者音频的生成。根据技术报告，该模型支持8k上下文长度以及约10分钟的典型生成时间，这完全符合语音代理、系统播报和实时数据仪表盘的需求。

此外，VibeVoice还提供大容量版本，如VibeVoice-1.5B和VibeVoice Large，专注于更长上下文窗口（32k和64k）和更复杂的多语者音频生成。

VibeVoice-Realtime采用交错窗口设计来实现流式输入与输出。具体而言，流式文本分为多个小块，模型会对新文本块进行编码，同时并行生成音频令牌。这种文本与音频处理流程的交叠是其能够在适配硬件下实现300毫秒语音输出延迟的重要原因。

与VibeVoice的长篇版本相比，VibeVoice-Realtime简化了令牌系统。它弃用了语义令牌，只使用基于声学令牌的解码器（以7.5Hz运行），并通过σ VAE变体的镜像对称编码器-解码器结构操作。这种设计可以将24kHz音频降采样3200倍，同时使用基于扩散的头部预测声学VAE特征。扩散头结构拥有40M参数，并通过Denoising Diffusion Probabilistic Models（DDPM）与无分类指导相结合，提升了长篇文本生成的效率。

模型训练分为两阶段：首先对声学解码器进行预训练，然后冻结解码器参数，以课程学习的方式逐步提升序列长度，从4k至8,192令牌，使语言模型与扩散头能够稳定地将文本映射到音频令牌。

在LibriSpeech测试集“clean”测评中，VibeVoice-Realtime-0.5B报告了2.00%的字错误率（WER）和0.695的说话者相似度。相比之下，VALL-E 2的WER为2.40，相似度为0.643；而Voicebox表现为WER 1.90，相似度0.662。

同样，在短句子领域的SEED测试基准上，该模型报告WER 2.05%和说话者相似度0.633。虽然SparkTTS的WER略低（1.98%），但其相似度低于VibeVoice-Realtime-0.5B（0.584）。比如Seed TTS的WER为2.25%但相似度达到0.762。研究团队强调，尽管短句性能具有一定参考性，但该模型主要针对长篇语音生成进行优化。

通过声学令牌的低频率运行及基于下一个令牌的扩散方法，该模型在减少每秒音频处理步骤数量的同时，仍保持了竞争性误差率和说话者相似度。

VibeVoice-Realtime-0.5B主要推荐用于与流式语言模型（LLM）整合。典型设置为：LLM生成的文本块直接传递给VibeVoice服务器，该服务器并行生成音频，并以流式方式返回客户端。这通常被设置为一个微服务，用于语音代理、支持型客户端呼叫以及监测仪表盘等场景。

该模型仅生成语音，不包括背景音效或音乐，因此更适合用于语音接口、助理类产品和程序化解说，而非媒体制作。在低延迟实时语音生成方面，它能达到约300毫秒的首音频帧输出，特别适合需要即时反馈的交互环境。

微软的VibeVoice-Realtime-0.5B不仅突破了实时文本转语音的技术瓶颈，更在长篇生成的多角色和多场景需求中展示出独特的竞争力。无论是语音代理、数据解说还是语音辅助工具，该模型都将为行业带来积极影响，为实时交互体验的提升创造了强有力的技术基础。

您的浏览器不支持视频标签。https://www.aistar.news/wp-content/uploads/2025/12/3683_300.mp4

[AI之星网出品] [实时文本转语音] [低延迟语音生成] [长篇语音生成技术] [语音代理解决方案] [刘智勇频道] [RoboPony(真机智能)] [AiPitch.Top] [PixStock.online 设计智能体图库] [ZhenMeta.com] [机器姬永生人] [机器洞察网] [AI之星网] [风投高科网] [猛虎财经网] [硅基科学网] [人形纪元网] [超维智策] [语料雨林] [高能判官] [片场狂徒] [暴徒外放] [Cognition OS] [Embodied OS] [黄金广告位]

📚 【精品资源】添加关注『AI之星网微信公众号』，即可免费获取完整版《刘智勇频道第五卷》

_Quant-umBlade. December 7, 2025 At 6:47 am

生成语音但不包含背景音，看来以后AI都能自带录音间效果，简直高端大气！

_黑洞Dark- December 7, 2025 At 7:01 am

微软的VibeVoice简直是未来语音领域的点睛之笔，期待实际应用能早日普及！

_星.辰Aurora* December 7, 2025 At 7:28 am

科技的进步真是让人惊叹！VibeVoice带来的语言能力突破，说不定以后和AI聊天更接地气了！

霜_月光速 December 7, 2025 At 7:43 am

训练模型的分阶段策略好像在说人生，先积累，再爆发，好一个励志故事！

光速海潮 December 7, 2025 At 8:10 am

LibriSpeech测试成绩也太厉害了吧，不得不感叹一句，AI正在奔跑我们要加速！

银.狐Phoenix December 7, 2025 At 8:23 am

低频率声学亮点也太硬核了，看来未来我们的耳朵能享受顶级音效！

光速Nig_ht December 7, 2025 At 8:51 am

新技术来了就是不一样！最后狠狠爱了一下这波科技浪潮，抓住时代的尾巴飞吧！

Please enter your comment!

Please enter your name here

You have entered an incorrect email address!

Please enter your email address here

LEAVE A REPLY

Robbyant开源LingBotWorld实时交互模拟与智能体AI模型

FireblocksCEO称朝鲜关联招聘骗局瞄准LinkedIn用户

AI行业超级政治行动委员会2025年筹资1.25亿美元

Sandisk股价大涨7AI需求强劲推动业绩

使用PyKEEN实现知识图谱嵌入的训练优化与评估

FireblocksCEO称朝鲜关联招聘骗局瞄准LinkedIn用户

AI2发布SERA用监督训练实现代码库自动化工作流

AI行业超级政治行动委员会2025年筹资1.25亿美元

揭秘定制AI深度伪造真人女性的市场

特斯拉2025年向马斯克xAI出售4.3亿美元Megapack电池

亚马逊或将于数周内投资OpenAI最高达500亿美元

蚂蚁集团发布LingBot-VLA视觉语言行动机器人模型

英伟达AI热潮离不开荷兰芯片设备商ASML

谷歌DeepMind发布AlphaGenome利用混合模型解码人类基因组

SK海力士年利润首超三星AI重塑竞争格局

这家中国初创公司欲打造无需植入的脑机接口

Meta创始人扎克伯格获华尔街支持继续投资AI

马斯克称特斯拉将停产ModelS和X转产Optimus机器人

芯片巨头ASML股价涨7AI热潮推动订单创新高

韩国SK海力士将在美国设立AI专门公司

SK海力士因AI内存短缺推高盈利2025年利润翻倍

UniRG利用多模态强化学习扩展医学影像报告生成

Meta与康宁达成协议斥资最高60亿美元购买光纤用于AI数据中心

TikTok将和解社交媒体成瘾案涉Meta与YouTube继续推进

DarioAmodei警告AI或将严重冲击就业

Mozilla组建AI联盟挑战OpenAI和Anthropic

更多相关文章

友情链接

内部链接

特别关注

订阅新闻