Jina AI 最近推出了其最新的 2.4B 参数视觉语言模型(视觉语言模型,简称 VLM)——Jina-VLM,旨在实现多语言视觉问答和文档理解,即便在资源受限的硬件上仍能表现优异。通过结合 SigLIP2 视觉编码器与 Qwen3 语言骨干网络,并通过注意力池化连接器优化视觉信息处理,该模型在多语言基准测试中表现出色,创下了开放 2B 规模 VLM 的顶尖水平。
Jina-VLM采用标准视觉语言模型架构,但在视觉处理部分进行了重大优化,使其能够应对任意分辨率图像并降低视觉令牌数量。它使用SigLIP2 So400M/14 384作为视觉编码器,该视觉Transformer拥有27层,约400M参数,可将378×378像素的作物处理为27×27网格,覆盖14×14的图像块。每个图像块生成729个视觉令牌,通过12个重叠砖块和整体缩略图处理高分辨率的图像,最终实现视觉令牌的高效压缩。
核心设计是对视觉语言连接器的改进。与传统方法不同,该连接器结合了第24层与第18层的特征,使高层语义信息与中层空间细节得以融合。之后,连接器对2×2图像块应用注意力池化,将每块的729个视觉令牌减少为182个,从而实现4倍的压缩。最终,这种方案显著降低了语言模型的计算量,同时保留了空间结构信息,预填充FLOPs减少约3.9倍,总的推理效率提升2.3倍。
Jina-VLM 的训练过程分为两个阶段,并结合多语言语料库进行了优化。模型数据涵盖了超过 30 种语言的 5M 多模态样本与 12B 文本令牌,其中英文占据一半,其余则包括诸如中文、阿拉伯语、德语、西班牙语、法语、意大利语、日语和韩语等高、中资源语言。
第一阶段为对齐训练,旨在实现跨语言视觉定位,而非指令跟随。使用PixmoCap和PangeaIns等数据集作为核心,其中数据覆盖了自然图像、文档、图表以及信息图示。此外,还加入了15%的纯文本语料以保持语言任务性能。第二阶段是指令微调,通过LLaVA OneVision、Cauldron、Cambrian、PangeaIns和FineVision等混合的多语言指令集,优化模型在视觉问答方面的表现。两阶段训练过程中总计涉及约47B文本令牌与约1300个GPU小时。
在英文视觉问答(VQA)基准测试中,Jina-VLM在8个数据集中平均得分达到72.3,包括AI2D、ChartQA、TextVQA、DocVQA等。这一成绩在2B规模的模型中居于领先地位。
此外,该模型在多模态理解和实际场景任务中取得了卓越成绩。例如,它在实际场景任务组中的得分达到61.9,包括RealWorldQA、MME RealWorld和R Bench;其中,该模型在RealWorldQA上的准确率达到68.2,是所评估基线模型中的最佳表现。在多语言基准测试中,Jina-VLM分别在MMMB和Multilingual MMBench多语言任务组中实现了78.8和74.3的平均分,创造了开放2B规模VLM中的最佳纪录。
虽然模型在多图像推理方面表现稍弱,但在控制幻觉方面表现优异,POPE基准测试中的得分高达90.3。此外,对于数学和结构化推理任务,Jina-VLM也展现了其能力,与领先的模型水平相当。
Jina-VLM通过创新架构与高效训练流程,显著提升了视觉与语言任务的性能。在多语言多模态领域,这项研究标志着技术进步的重要里程碑,为更广泛的应用场景提供了精准的解决方案。Jina-VLM不仅推动了视觉语言模型的能力边界,还展现了多语言理解与问答的巨大潜力。
[AI之星网出品] [多语言视觉问答] [视觉语言模型优化] [Jina-VLM架构创新] [视觉与文本任务性能提升] [刘智勇频道] [RoboPony(真机智能)] [AiPitch.Top] [PixStock.online 设计智能体图库] [ZhenMeta.com] [机器姬永生人] [机器洞察网] [AI之星网] [风投高科网] [猛虎财经网] [硅基科学网] [人形纪元网] [超维智策] [语料雨林] [高能判官] [片场狂徒] [暴徒外放] [Cognition OS] [Embodied OS] [黄金广告位]
📚 【精品资源】添加关注『AI之星网微信公众号』,即可免费获取完整版《刘智勇频道第五卷》

技术创新让我们的想象力插上了翅膀,期待Jina AI将科技带到更多领域!
Jina-VLM的训练方式如同健身,比模型更聪明的是科学训练手段!
多模态理解横空出世,不得不感叹AI的进步速度,未来或许刷个图就能解决所有问题!
将视觉与语言连接起来,才是真正的好设计,让沟通的艺术超越工具!