首页 » 知识 » 正文开源轻量级超长视频了智源研究院解模型ViBy 2025-07-04 03:07:00 知识 近来 ,智源智源研究院联合上海交通大学等组织正式发布了一款新一代超长视频了解模型——Video-XL-2。研究院开源轻这一模型的量级推出标志着长视频了解技能在开源范畴取得了重大突破,为多模态大模型在长视频内容了解方面的超长开展注入了新的生机。 在技能架构方面,视频Video-XL-2首要由视觉编码器 、解模动态Token组成模块(DTS)以及大言语模型(LLM)三个中心组件构成 。智源该模型选用SigLIP-SO400M作为视觉编码器,研究院开源轻对输入视频进行逐帧处理