Deep Cogito发布多款领先的大型语言模型,开创通用超智能的新纪元
来自旧金山的人工智能公司Deep Cogito近日宣布其最新研发成果:多款开放大型语言模型(LLMs),凭借创新技术展现出超越竞品的卓越性能。这些模型参数规模覆盖3B、8B、14B、32B和70B,均以出色表现超越市面上同规模的开源模型,包括LLAMA、DeepSeek和Qwen等知名竞争对手。值得注意的是,其重量级70B模型更击败了当前备受关注的Llama 4 109B多专家模型(Mixture-of-Experts),这一成就引起业界广泛关注。
开创性训练方法:迭代蒸馏与放大(IDA)
此次发布的核心技术之一为全新的迭代蒸馏与放大(Iterated Distillation and Amplification,IDA)训练策略。Deep Cogito表示,IDA赋予模型不断自我优化的能力,可有效突破传统LLM训练范式的局限性。现有方法往往受限于更大规模的监督模型或人类专家的能力,而IDA通过迭代改进实现了智能的循环提升。
IDA包含两个关键步骤并持续循环推进:
1. 放大(Amplification):利用更强大的计算能力帮助模型推导先进的解决方案或能力,例如复杂推理技巧。
2. 蒸馏(Distillation):将这些放大的能力逐步内化至模型参数中。
这一过程形成了与计算资源直接挂钩的正反馈循环,使开发效率和智能提升更具可扩展性,而非直接受限于监督者智慧。Deep Cogito提出,这种方法结合了“先进推理”和“迭代自我优化”两大实现超智能的关键因素,让IDA在LLM训练领域占据技术领先地位。
根据公司介绍,通过 IDA,一个小型团队仅耗时约 75 天便开发出新模型,并且效率远超传统的人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF)或大规模模型蒸馏方法。这在业内无疑是一项重要突破。
性能突破:超越行业标杆
此次发布的Cogito系列模型不仅优化了编码、函数调用及代理型应用功能,还具备双模式回答能力:既能直接回答问题,也能够实现类似自我反思的深度互动后再做出回复。这一特点使其功能比肩Claude 3.5等高性能对话模型。
在多项业内基准测试中,Cogito模型展现了显著的性能优势。例如,其旗舰70B模型在MMLU测试中的标准模式得分达到91.73分,思维模式得分为91.00分,均优于竞品Llama系列。此外,各参数规模的Cogito模型在推理模式和直接回答模式下均优于同类最先进开源模型,包括Llama 3.3、3.13及Qwen 2.5。
尽管Deep Cogito承认基准测试无法完全体现真实世界中的应用效能,但他们对其模型的实践性能充满信心。同时,公司已计划进一步优化现有模型参数,并在未来数月内推出更大规模的模型。此外,所有未来的模型也将保持开源,继续推动AI行业的技术创新。
展望未来:迈向通用超智能的愿景
作为一家致力于开发通用超智能的公司,Deep Cogito以IDA作为通向这一目标的桥梁,展现出其创新能力与技术雄心。新模型的推出标志着该公司迈入重要的技术增长周期,并将在未来持续优化模型性能和规模,进一步巩固其在人工智能领域的领先地位。
Deep Cogito的成功不仅激发了各界对通用超智能的期待,也树立了行业技术开发的新标杆。从研发效率到模型性能,这一成果无疑将推动大规模语言模型的演变,同时为更多场景的智能化应用带来可能。
[AI之星网出品] [人工智能模型训练] [大型语言模型性能对比] [迭代蒸馏与放大技术] [通用超智能技术突破] [刘智勇频道] [真机智能] [机器姬智能体] [机器洞察网] [AI之星网] [风投高科网] [猛虎财经网] [硅基科学网]
📚 更多资源分享:刘智勇频道第四卷
💾 百度网盘链接:
https://pan.baidu.com/s/1aFcvND80IXSO_GHlsI1R0w?pwd=qwer
🔑 提取码: qwer