谷歌研究团队近日发布了一项突破性技术——Cappy,一个小型预训练评分模型,旨在提升并超越大规模多任务语言模型(LLM)的性能。这项创新由软件工程师朱允(Yun Zhu)和刘丽娟(Lijuan Liu)主导开发,在克服计算资源和内存需求瓶颈的同时,为处理复杂任务提供了新的解决方案。
近年来,人工智能领域涌现了多任务语言模型的新范式。这些模型通过遵循指令生成机制,将多种自然语言处理任务统一在一个框架下。典型的多任务LLM从任务特定模板出发,将每个标注样本转化为指令-响应对,并基于这些数据进行模型训练。这使得LLM能够生成某些任务的响应,同时展现了强大的任务泛化能力,可以在没有预见的数据集上解决新问题。然而,大型LLM通常拥有数十亿到数千亿的参数,这不仅要求高计算资源和存储空间,还增加了训练与推断的成本。此外,由于许多先进的模型为闭源,难以在具体应用中灵活操作和改进。
针对这一行业痛点,谷歌研究团队推出了 Cappy。这一轻量化模型以 360 百万参数为基础,通过连续预训练增强完全封闭式的多任务 LLM 的性能。与传统方法不同,Cappy 评分模型通过预测指令和候选响应的匹配程度,生成从 0 到 1 之间的评分,用以衡量响应的正确性。该模型可独立用于分类任务,也可作为辅助模块,与 LLM 搭配提升其表现。更重要的是,Cappy 支持下游监督,无需对 LLM 进行微调,从而降低设备的存储和内存需求。此外,Cappy 完全兼容闭源 LLM,如那些通过 API 访问的模型,这种特性扩大了其实用性。
在数据训练方面,Cappy基于39个多样化数据集,覆盖问答、情感分析、文本摘要等任务,将每个实例转换为指令-响应对,并通过现有多任务LLM生成多个候选响应。随后,这些响应会结合标准指标进行标注,进一步形成一个包含1.6亿条弱监督实例的高效回归数据集。通过谷歌研发的分布训练工具,Cappy完成了持续预训练,对生成质量进行了深入优化。
Cappy 的功能尤其适用于处理复杂任务。在分类任务中,它可以直接对定义好的候选响应进行评分并选择最佳答案。在生成任务中,Cappy 协助现有 LLM 解码候选响应,从而提升模型的整体表现。与传统的参数微调或上下文学习方法相比,Cappy 在下游任务调整方面具有明显优势。它无需通过 LLM 参数进行反向传播,从而大幅减少内存需求,同时突破了上下文学习中输入长度受限的问题,能够融合更多下游监督样本。这种兼容性不仅减轻了资源限制,还能与其他调整方法相结合,进一步提升综合性能。
经过严格测试,Cappy在高达11个语言理解分类任务和45个复杂生成任务上的表现令人瞩目。与参数规模更大的OPT-175B和OPT-IML-30B相比,Cappy展现出了更优越的准确率,同时与当前性能最强的多任务LLM水平相当。此外,通过与FLAN-T5模型的结合,Cappy在生成任务中的表现显著领先于其他基准自评分方法。事实上,无论是在分类准确率还是生成任务的Rouge-L评分中,Cappy都展现出了卓越的综合能力。
谷歌研究团队表示,Cappy的评分机制通过引入对高质量和低质量响应的区分信息,使模型效率更优、性能更强。这项技术不仅能够提升单一LLM在不同领域的适应能力,未来还可开发出更广泛的应用场景,为大规模语言模型的持续创新注入动力。
谷歌研究团队还特别感谢关键成员包括Bowen Tan、Jindong Chen、Lei Meng等人,为项目提供的支持和反馈。同时,项目也得到了诸如Eric Xing和Zhiting Hu等学术人士的宝贵建议。
谷歌研究团队通过Cappy为多任务语言模型的未来发展指明了方向,既实现了技术的高效突破,又进一步推动了人工智能在复杂任务中的实用性。
[AI之星网出品] [轻量化多任务语言模型] [谷歌Cappy评分机制] [人工智能模型性能优化] [闭源LLM兼容解决方案] [刘智勇频道][机器姬智能体][真机智能][机器洞察网][AI之星网][风投高科网][猛虎财经网][硅基科学网]
