JinaAI发布Jina-VLM24亿参数多语言视觉语言模型

Jina AI 最近推出了其最新的 2.4B 参数视觉语言模型（视觉语言模型，简称 VLM）——Jina-VLM，旨在实现多语言视觉问答和文档理解，即便在资源受限的硬件上仍能表现优异。通过结合 SigLIP2 视觉编码器与 Qwen3 语言骨干网络，并通过注意力池化连接器优化视觉信息处理，该模型在多语言基准测试中表现出色，创下了开放 2B 规模 VLM 的顶尖水平。

Jina-VLM采用标准视觉语言模型架构，但在视觉处理部分进行了重大优化，使其能够应对任意分辨率图像并降低视觉令牌数量。它使用SigLIP2 So400M/14 384作为视觉编码器，该视觉Transformer拥有27层，约400M参数，可将378×378像素的作物处理为27×27网格，覆盖14×14的图像块。每个图像块生成729个视觉令牌，通过12个重叠砖块和整体缩略图处理高分辨率的图像，最终实现视觉令牌的高效压缩。

核心设计是对视觉语言连接器的改进。与传统方法不同，该连接器结合了第24层与第18层的特征，使高层语义信息与中层空间细节得以融合。之后，连接器对2×2图像块应用注意力池化，将每块的729个视觉令牌减少为182个，从而实现4倍的压缩。最终，这种方案显著降低了语言模型的计算量，同时保留了空间结构信息，预填充FLOPs减少约3.9倍，总的推理效率提升2.3倍。

Jina-VLM 的训练过程分为两个阶段，并结合多语言语料库进行了优化。模型数据涵盖了超过 30 种语言的 5M 多模态样本与 12B 文本令牌，其中英文占据一半，其余则包括诸如中文、阿拉伯语、德语、西班牙语、法语、意大利语、日语和韩语等高、中资源语言。

第一阶段为对齐训练，旨在实现跨语言视觉定位，而非指令跟随。使用PixmoCap和PangeaIns等数据集作为核心，其中数据覆盖了自然图像、文档、图表以及信息图示。此外，还加入了15%的纯文本语料以保持语言任务性能。第二阶段是指令微调，通过LLaVA OneVision、Cauldron、Cambrian、PangeaIns和FineVision等混合的多语言指令集，优化模型在视觉问答方面的表现。两阶段训练过程中总计涉及约47B文本令牌与约1300个GPU小时。

在英文视觉问答（VQA）基准测试中，Jina-VLM在8个数据集中平均得分达到72.3，包括AI2D、ChartQA、TextVQA、DocVQA等。这一成绩在2B规模的模型中居于领先地位。

此外，该模型在多模态理解和实际场景任务中取得了卓越成绩。例如，它在实际场景任务组中的得分达到61.9，包括RealWorldQA、MME RealWorld和R Bench；其中，该模型在RealWorldQA上的准确率达到68.2，是所评估基线模型中的最佳表现。在多语言基准测试中，Jina-VLM分别在MMMB和Multilingual MMBench多语言任务组中实现了78.8和74.3的平均分，创造了开放2B规模VLM中的最佳纪录。

虽然模型在多图像推理方面表现稍弱，但在控制幻觉方面表现优异，POPE基准测试中的得分高达90.3。此外，对于数学和结构化推理任务，Jina-VLM也展现了其能力，与领先的模型水平相当。

Jina-VLM通过创新架构与高效训练流程，显著提升了视觉与语言任务的性能。在多语言多模态领域，这项研究标志着技术进步的重要里程碑，为更广泛的应用场景提供了精准的解决方案。Jina-VLM不仅推动了视觉语言模型的能力边界，还展现了多语言理解与问答的巨大潜力。

您的浏览器不支持视频标签。https://www.aistar.news/wp-content/uploads/2025/12/3709_300.mp4

[AI之星网出品] [多语言视觉问答] [视觉语言模型优化] [Jina-VLM架构创新] [视觉与文本任务性能提升] [刘智勇频道] [RoboPony(真机智能)] [AiPitch.Top] [PixStock.online 设计智能体图库] [ZhenMeta.com] [机器姬永生人] [机器洞察网] [AI之星网] [风投高科网] [猛虎财经网] [硅基科学网] [人形纪元网] [超维智策] [语料雨林] [高能判官] [片场狂徒] [暴徒外放] [Cognition OS] [Embodied OS] [黄金广告位]

📚 【精品资源】添加关注『AI之星网微信公众号』，即可免费获取完整版《刘智勇频道第五卷》

_苍穹Circui.t_ December 9, 2025 At 7:52 am

技术创新让我们的想象力插上了翅膀，期待Jina AI将科技带到更多领域！

_Glare~ December 9, 2025 At 10:25 am

Jina-VLM的训练方式如同健身，比模型更聪明的是科学训练手段！

CyberWolf December 9, 2025 At 10:35 am

多模态理解横空出世，不得不感叹AI的进步速度，未来或许刷个图就能解决所有问题！

.零度暮雪_ December 9, 2025 At 10:42 am

将视觉与语言连接起来，才是真正的好设计，让沟通的艺术超越工具！

Please enter your comment!

Please enter your name here

You have entered an incorrect email address!

Please enter your email address here

LEAVE A REPLY

英伟达股价上涨8黄仁勋称6600亿美元资本支出可持续

改变2026冬奥会观赛方式的技术

英伟达股价涨8黄仁勋称6600亿美元资本支出可持续

NVIDIA发布C-RADIOv4整合多模型应对大规模视觉任务

英伟达股价上涨8黄仁勋称6600亿美元资本支出可持续

NVIDIA发布C-RADIOv4视觉骨干整合SigLIP2等支持大规模任务

如何构建具备混合检索和情景记忆的生产级AI系统

谷歌与微软提供高额合作推广AI50万美元难打动部分创作者

Waymo推出WaymoWorldModel自动驾驶新模拟器

英伟达股价上涨8黄仁勋称6600亿美元资本支出可持续

NVIDIA发布C-RADIOv4视觉骨干整合SigLIP2DINOv3SAM3

如何构建高质量AgenticAI系统实现混合检索与循环修复

美国电动车退缩加剧中国对全球市场控制

谷歌微软砸重金推广AI50万美元难打动部分创作者

高盛采用Anthropic的Claude自动化会计与合规岗位

英伟达支持的AI语音公司ElevenLabs融资后估值达110亿美元拟IPO

微软提拔销售高管以推动AI增长

微软称正打造AI内容授权应用商店

如何用Qrisp构建高级量子算法结合Grover搜索等

Qwen团队发布Qwen3-Coder-Next专为编程代理和本地开发设计

英伟达黄仁勋否认与OpenAI交易传闻称无任何戏剧性

微软提拔销售高管推动AI业务增长

Robbyant开源LingBotWorld实时交互模拟与智能体AI模型

FireblocksCEO称朝鲜关联招聘骗局瞄准LinkedIn用户

AI行业超级政治行动委员会2025年筹资1.25亿美元

Sandisk股价大涨7AI需求强劲推动业绩

更多相关文章

友情链接

内部链接

特别关注

订阅新闻

JinaAI发布Jina-VLM24亿参数多语言视觉语言模型

LEAVE A REPLY Cancel reply

更多相关文章

友情链接

内部链接

特别关注

订阅新闻

LEAVE A REPLY