微软近期发布了全新的实时文本转语音模型——VibeVoice-Realtime-0.5B,该模型能够以极低的延迟生成长篇语音,并支持流式文本输入,从而将应用场景扩展至语音代理和实时数据解说。其核心优势在于能够以约300毫秒的延迟生成首段语音内容,为实时交互提供了可靠的技术支持。
VibeVoice-Realtime-0.5B是VibeVoice框架的一部分,该框架基于连续语音令牌的扩散方法,旨在实现长篇、多语者语音生成,如播客制作。研究团队展示了VibeVoice的核心模型能够处理长度达90分钟的语音,并支持最多4位发言者的64k上下文窗口,生成频率为7.5 Hz。相比之下,VibeVoice-Realtime-0.5B是该系统的低延迟分支,专注于实时与单语者音频的生成。根据技术报告,该模型支持8k上下文长度以及约10分钟的典型生成时间,这完全符合语音代理、系统播报和实时数据仪表盘的需求。
此外,VibeVoice还提供大容量版本,如VibeVoice-1.5B和VibeVoice Large,专注于更长上下文窗口(32k和64k)和更复杂的多语者音频生成。
VibeVoice-Realtime采用交错窗口设计来实现流式输入与输出。具体而言,流式文本分为多个小块,模型会对新文本块进行编码,同时并行生成音频令牌。这种文本与音频处理流程的交叠是其能够在适配硬件下实现300毫秒语音输出延迟的重要原因。
与VibeVoice的长篇版本相比,VibeVoice-Realtime简化了令牌系统。它弃用了语义令牌,只使用基于声学令牌的解码器(以7.5Hz运行),并通过σ VAE变体的镜像对称编码器-解码器结构操作。这种设计可以将24kHz音频降采样3200倍,同时使用基于扩散的头部预测声学VAE特征。扩散头结构拥有40M参数,并通过Denoising Diffusion Probabilistic Models(DDPM)与无分类指导相结合,提升了长篇文本生成的效率。
模型训练分为两阶段:首先对声学解码器进行预训练,然后冻结解码器参数,以课程学习的方式逐步提升序列长度,从4k至8,192令牌,使语言模型与扩散头能够稳定地将文本映射到音频令牌。
在LibriSpeech测试集“clean”测评中,VibeVoice-Realtime-0.5B报告了2.00%的字错误率(WER)和0.695的说话者相似度。相比之下,VALL-E 2的WER为2.40,相似度为0.643;而Voicebox表现为WER 1.90,相似度0.662。
同样,在短句子领域的SEED测试基准上,该模型报告WER 2.05%和说话者相似度0.633。虽然SparkTTS的WER略低(1.98%),但其相似度低于VibeVoice-Realtime-0.5B(0.584)。比如Seed TTS的WER为2.25%但相似度达到0.762。研究团队强调,尽管短句性能具有一定参考性,但该模型主要针对长篇语音生成进行优化。
通过声学令牌的低频率运行及基于下一个令牌的扩散方法,该模型在减少每秒音频处理步骤数量的同时,仍保持了竞争性误差率和说话者相似度。
VibeVoice-Realtime-0.5B主要推荐用于与流式语言模型(LLM)整合。典型设置为:LLM生成的文本块直接传递给VibeVoice服务器,该服务器并行生成音频,并以流式方式返回客户端。这通常被设置为一个微服务,用于语音代理、支持型客户端呼叫以及监测仪表盘等场景。
该模型仅生成语音,不包括背景音效或音乐,因此更适合用于语音接口、助理类产品和程序化解说,而非媒体制作。在低延迟实时语音生成方面,它能达到约300毫秒的首音频帧输出,特别适合需要即时反馈的交互环境。
微软的VibeVoice-Realtime-0.5B不仅突破了实时文本转语音的技术瓶颈,更在长篇生成的多角色和多场景需求中展示出独特的竞争力。无论是语音代理、数据解说还是语音辅助工具,该模型都将为行业带来积极影响,为实时交互体验的提升创造了强有力的技术基础。
[AI之星网出品] [实时文本转语音] [低延迟语音生成] [长篇语音生成技术] [语音代理解决方案] [刘智勇频道] [RoboPony(真机智能)] [AiPitch.Top] [PixStock.online 设计智能体图库] [ZhenMeta.com] [机器姬永生人] [机器洞察网] [AI之星网] [风投高科网] [猛虎财经网] [硅基科学网] [人形纪元网] [超维智策] [语料雨林] [高能判官] [片场狂徒] [暴徒外放] [Cognition OS] [Embodied OS] [黄金广告位]
📚 【精品资源】添加关注『AI之星网微信公众号』,即可免费获取完整版《刘智勇频道第五卷》

生成语音但不包含背景音,看来以后AI都能自带录音间效果,简直高端大气!
微软的VibeVoice简直是未来语音领域的点睛之笔,期待实际应用能早日普及!
科技的进步真是让人惊叹!VibeVoice带来的语言能力突破,说不定以后和AI聊天更接地气了!
训练模型的分阶段策略好像在说人生,先积累,再爆发,好一个励志故事!
LibriSpeech测试成绩也太厉害了吧,不得不感叹一句,AI正在奔跑我们要加速!
低频率声学亮点也太硬核了,看来未来我们的耳朵能享受顶级音效!
新技术来了就是不一样!最后狠狠爱了一下这波科技浪潮,抓住时代的尾巴飞吧!