JinaAI发布Jina-VLM24亿参数多语言视觉语言模型

必读文章
王明昊https://www.aistar.news
关注深海探索科技,痴迷于海洋生物研究,擅长将科技与自然结合,撰写充满冒险精神的文章。

Jina AI 最近推出了其最新的 2.4B 参数视觉语言模型(视觉语言模型,简称 VLM)——Jina-VLM,旨在实现多语言视觉问答和文档理解,即便在资源受限的硬件上仍能表现优异。通过结合 SigLIP2 视觉编码器与 Qwen3 语言骨干网络,并通过注意力池化连接器优化视觉信息处理,该模型在多语言基准测试中表现出色,创下了开放 2B 规模 VLM 的顶尖水平。


Jina-VLM采用标准视觉语言模型架构,但在视觉处理部分进行了重大优化,使其能够应对任意分辨率图像并降低视觉令牌数量。它使用SigLIP2 So400M/14 384作为视觉编码器,该视觉Transformer拥有27层,约400M参数,可将378×378像素的作物处理为27×27网格,覆盖14×14的图像块。每个图像块生成729个视觉令牌,通过12个重叠砖块和整体缩略图处理高分辨率的图像,最终实现视觉令牌的高效压缩。

核心设计是对视觉语言连接器的改进。与传统方法不同,该连接器结合了第24层与第18层的特征,使高层语义信息与中层空间细节得以融合。之后,连接器对2×2图像块应用注意力池化,将每块的729个视觉令牌减少为182个,从而实现4倍的压缩。最终,这种方案显著降低了语言模型的计算量,同时保留了空间结构信息,预填充FLOPs减少约3.9倍,总的推理效率提升2.3倍。


Jina-VLM 的训练过程分为两个阶段,并结合多语言语料库进行了优化。模型数据涵盖了超过 30 种语言的 5M 多模态样本与 12B 文本令牌,其中英文占据一半,其余则包括诸如中文、阿拉伯语、德语、西班牙语、法语、意大利语、日语和韩语等高、中资源语言。

第一阶段为对齐训练,旨在实现跨语言视觉定位,而非指令跟随。使用PixmoCap和PangeaIns等数据集作为核心,其中数据覆盖了自然图像、文档、图表以及信息图示。此外,还加入了15%的纯文本语料以保持语言任务性能。第二阶段是指令微调,通过LLaVA OneVision、Cauldron、Cambrian、PangeaIns和FineVision等混合的多语言指令集,优化模型在视觉问答方面的表现。两阶段训练过程中总计涉及约47B文本令牌与约1300个GPU小时。


在英文视觉问答(VQA)基准测试中,Jina-VLM在8个数据集中平均得分达到72.3,包括AI2D、ChartQA、TextVQA、DocVQA等。这一成绩在2B规模的模型中居于领先地位。

此外,该模型在多模态理解和实际场景任务中取得了卓越成绩。例如,它在实际场景任务组中的得分达到61.9,包括RealWorldQA、MME RealWorld和R Bench;其中,该模型在RealWorldQA上的准确率达到68.2,是所评估基线模型中的最佳表现。在多语言基准测试中,Jina-VLM分别在MMMB和Multilingual MMBench多语言任务组中实现了78.8和74.3的平均分,创造了开放2B规模VLM中的最佳纪录。

虽然模型在多图像推理方面表现稍弱,但在控制幻觉方面表现优异,POPE基准测试中的得分高达90.3。此外,对于数学和结构化推理任务,Jina-VLM也展现了其能力,与领先的模型水平相当。


Jina-VLM通过创新架构与高效训练流程,显著提升了视觉与语言任务的性能。在多语言多模态领域,这项研究标志着技术进步的重要里程碑,为更广泛的应用场景提供了精准的解决方案。Jina-VLM不仅推动了视觉语言模型的能力边界,还展现了多语言理解与问答的巨大潜力。


您的浏览器不支持视频标签。https://www.aistar.news/wp-content/uploads/2025/12/3709_300.mp4

[AI之星网出品] [多语言视觉问答] [视觉语言模型优化] [Jina-VLM架构创新] [视觉与文本任务性能提升] [刘智勇频道] [RoboPony(真机智能)] [AiPitch.Top] [PixStock.online 设计智能体图库] [ZhenMeta.com] [机器姬永生人] [机器洞察网] [AI之星网] [风投高科网] [猛虎财经网] [硅基科学网] [人形纪元网] [超维智策] [语料雨林] [高能判官] [片场狂徒] [暴徒外放] [Cognition OS] [Embodied OS] [黄金广告位]


📚 【精品资源】添加关注『AI之星网微信公众号』,即可免费获取完整版《刘智勇频道第五卷》


LEAVE A REPLY

Please enter your comment!
Please enter your name here

- Advertisement -
最新新闻

英伟达股价上涨8黄仁勋称6600亿美元资本支出可持续

“在人类历史上,从未有过一种技术,其增长能以‘翻倍再翻倍’的速度持续,并重塑经济与未来——人工智能正是这样的革命。” “在人类历史上,从未有过一种技术,其增长能以‘翻倍再翻倍’的速度持续,并重塑经济与未来——人工智能正是这样的革命。”
- Advertisement -

更多相关文章