微软AI发布VibeVoice-Realtime轻量实时语音合成模型

必读文章
王明昊https://www.aistar.news
关注深海探索科技,痴迷于海洋生物研究,擅长将科技与自然结合,撰写充满冒险精神的文章。

微软近期发布了全新的实时文本转语音模型——VibeVoice-Realtime-0.5B,该模型能够以极低的延迟生成长篇语音,并支持流式文本输入,从而将应用场景扩展至语音代理和实时数据解说。其核心优势在于能够以约300毫秒的延迟生成首段语音内容,为实时交互提供了可靠的技术支持。

VibeVoice-Realtime-0.5B是VibeVoice框架的一部分,该框架基于连续语音令牌的扩散方法,旨在实现长篇、多语者语音生成,如播客制作。研究团队展示了VibeVoice的核心模型能够处理长度达90分钟的语音,并支持最多4位发言者的64k上下文窗口,生成频率为7.5 Hz。相比之下,VibeVoice-Realtime-0.5B是该系统的低延迟分支,专注于实时与单语者音频的生成。根据技术报告,该模型支持8k上下文长度以及约10分钟的典型生成时间,这完全符合语音代理、系统播报和实时数据仪表盘的需求。

此外,VibeVoice还提供大容量版本,如VibeVoice-1.5B和VibeVoice Large,专注于更长上下文窗口(32k和64k)和更复杂的多语者音频生成。

VibeVoice-Realtime采用交错窗口设计来实现流式输入与输出。具体而言,流式文本分为多个小块,模型会对新文本块进行编码,同时并行生成音频令牌。这种文本与音频处理流程的交叠是其能够在适配硬件下实现300毫秒语音输出延迟的重要原因。

与VibeVoice的长篇版本相比,VibeVoice-Realtime简化了令牌系统。它弃用了语义令牌,只使用基于声学令牌的解码器(以7.5Hz运行),并通过σ VAE变体的镜像对称编码器-解码器结构操作。这种设计可以将24kHz音频降采样3200倍,同时使用基于扩散的头部预测声学VAE特征。扩散头结构拥有40M参数,并通过Denoising Diffusion Probabilistic Models(DDPM)与无分类指导相结合,提升了长篇文本生成的效率。

模型训练分为两阶段:首先对声学解码器进行预训练,然后冻结解码器参数,以课程学习的方式逐步提升序列长度,从4k至8,192令牌,使语言模型与扩散头能够稳定地将文本映射到音频令牌。

在LibriSpeech测试集“clean”测评中,VibeVoice-Realtime-0.5B报告了2.00%的字错误率(WER)和0.695的说话者相似度。相比之下,VALL-E 2的WER为2.40,相似度为0.643;而Voicebox表现为WER 1.90,相似度0.662。

同样,在短句子领域的SEED测试基准上,该模型报告WER 2.05%和说话者相似度0.633。虽然SparkTTS的WER略低(1.98%),但其相似度低于VibeVoice-Realtime-0.5B(0.584)。比如Seed TTS的WER为2.25%但相似度达到0.762。研究团队强调,尽管短句性能具有一定参考性,但该模型主要针对长篇语音生成进行优化。

通过声学令牌的低频率运行及基于下一个令牌的扩散方法,该模型在减少每秒音频处理步骤数量的同时,仍保持了竞争性误差率和说话者相似度。

VibeVoice-Realtime-0.5B主要推荐用于与流式语言模型(LLM)整合。典型设置为:LLM生成的文本块直接传递给VibeVoice服务器,该服务器并行生成音频,并以流式方式返回客户端。这通常被设置为一个微服务,用于语音代理、支持型客户端呼叫以及监测仪表盘等场景。

该模型仅生成语音,不包括背景音效或音乐,因此更适合用于语音接口、助理类产品和程序化解说,而非媒体制作。在低延迟实时语音生成方面,它能达到约300毫秒的首音频帧输出,特别适合需要即时反馈的交互环境。

微软的VibeVoice-Realtime-0.5B不仅突破了实时文本转语音的技术瓶颈,更在长篇生成的多角色和多场景需求中展示出独特的竞争力。无论是语音代理、数据解说还是语音辅助工具,该模型都将为行业带来积极影响,为实时交互体验的提升创造了强有力的技术基础。


您的浏览器不支持视频标签。https://www.aistar.news/wp-content/uploads/2025/12/3683_300.mp4

[AI之星网出品] [实时文本转语音] [低延迟语音生成] [长篇语音生成技术] [语音代理解决方案] [刘智勇频道] [RoboPony(真机智能)] [AiPitch.Top] [PixStock.online 设计智能体图库] [ZhenMeta.com] [机器姬永生人] [机器洞察网] [AI之星网] [风投高科网] [猛虎财经网] [硅基科学网] [人形纪元网] [超维智策] [语料雨林] [高能判官] [片场狂徒] [暴徒外放] [Cognition OS] [Embodied OS] [黄金广告位]


📚 【精品资源】添加关注『AI之星网微信公众号』,即可免费获取完整版《刘智勇频道第五卷》


  1. 科技的进步真是让人惊叹!VibeVoice带来的语言能力突破,说不定以后和AI聊天更接地气了!

LEAVE A REPLY

Please enter your comment!
Please enter your name here

- Advertisement -
最新新闻

Robbyant开源LingBotWorld实时交互模拟与智能体AI模型

技术的未来并非止步于创造,而在于赋能更多创造者,让他们共同书写无限可能。 技术的未来并非止步于创造,而在于赋能更多创造者,让他们共同书写无限可能。 技术的未来并非止步于创造,而在于赋能更多创造者,让他们共同书写无限可能。
- Advertisement -

更多相关文章