• 李想汽车研究院教AI"换眼看世界",小模型也能读懂图片

      发布时间:2026-04-28 10:31:28   作者:玩站小弟   我要评论
           谢贤与coco的相遇发生在2005年。当时co。

    这项由李想汽车(Li Auto Inc.)研究团队完成的研究,以预印本形式发布�𻂌�日,论文编号为arXiv:2604.14629,有兴趣深入了解的读者可以通过该编号查询完整论文。

    手机拍下一张路边招牌,问AI上面写的是什么字、是什么风格的餐厅、门口停的车是什么型号——这类"看图说话"的任务,现在的大型视觉语言模型(可以理解图片又能用文字回答的AI)已经做得相当不错了。但这类强大的AI有个让人头疼的问题:它们太"重"了。运行一个顶尖的视觉语言模型,需要大量的内存和算力,放在云端服务器上还好说,一旦要装进手机、车载系统或者其他资源有限的设备里,就像把一台工业级冰箱搬进宿舍,根本塞不下。

    于是工程师们想了一个办法——"知识蒸馏"。简单来说,就是让一个能力强大的"老师模型"把自己的知识传授给一个体型小巧的"学生模型",让小模型在不增加自身重量的前提下,尽可能地"聪明"起来。这个思路在纯文字AI领域已经被验证得相当成熟,但一旦涉及既要看图又要说话的视觉语言模型,事情就复杂多了。

    李想汽车研究团队正是盯上了这个复杂性。他们提出了一套名为Switch-KD的蒸馏框架,核心思路非常有意思:与其让老师和学生各自在图像世界和文字世界里分头学习,不如把两个世界的知识统一到同一个"语言"里来传递。这套框架让一个只񀙟亿参数的迷你学生模型,从一�亿参数的老师模型那里汲取知识,�个权威测试基准上平均提升𱄿.6分,而且完全不需要改动学生模型的结构。

    一、为什么"看图"和"说话"的知识很难同时传递

    要理解这个研究解决了什么问题,得先弄清楚视觉语言模型是怎么工作的。

    可以把一个视觉语言模型想象成一位翻译兼评论员。他的工作流程是这样的:先由一双训练有素的"眼睛"(视觉编码器,通常是一种叫做ViT的图像处理网络)把输入的图片转化成一串数字信号;这串信号随后经过一个"翻译接口"(投影器)被转换成语言模型能够理解的格式;最后由语言模型(LLM)这个"大脑"综合图像信息和文字提问,生成回答。整个流程就像是:眼睛看到图→翻译接口把图像信息转成大脑语言→大脑思考后用文字作答。

    在这个流程里,图像信息最终是以"语言大脑"能理解的方式流通的——也就是说,所有信息最终都汇聚在文字概率空间里。当语言大脑输出答案时,它实际上是在所有可能的词汇里给每个词分配一个概率,然后选出最可能的词一个一个输出。

    现有的蒸馏方法大多聚焦在这个输出阶段:老师模型说完一句话,学生模型也说一句,然后比较两者对每个词的概率分布有多接近,差距越小就说明学生学得越好。这个方法对"语言侧"的监督相当充分,但对"视觉侧"的监督就有些力不从心了——毕竟,学生模型的"眼睛"(视觉编码器)看到的东西,并没有被直接放到老师的语言大脑里去检验。

    为了补足视觉侧的监督,有研究者尝试直接比较老师和学生的图像特征向量,或者约束两者的注意力图谱要相似。但问题在于,这类方法把视觉监督和语言监督分开处理,就像两条独立的考核标准,没有形成一个统一的评判体系。结果是视觉知识传递和语言知识传递各自为政,缺乏内在的一致性。

    二、"换眼看世界":Switch-KD的核心创意

    Switch-KD的核心设计思路,可以用一个生动的场景来理解。

    假设你在培训一名新摄影师(学生模型)。老师摄影师(老师模型)有一双经验丰富的眼睛和一个见多识广的大脑。传统的培训方式是:让学生拍一张照片,让老师也拍一张,然后比较两张照片的相似程度,以及两人最终写出的图片说明是否一致。视觉侧和语言侧分别考核。

    Switch-KD提出的方式则更为巧妙:把学生的眼睛临时"接"到老师的大脑上,让老师的大脑通过学生的眼睛看世界,然后看看老师的大脑对这个"学生视角"的解读,和老师用自己眼睛看到的解读差多远。如果差距很大,说明学生的眼睛还没练好,还不能给老师的大脑提供足够高质量的图像信息;如果差距越来越小,说明学生的眼睛已经在接近老师的水平了。

    在技术实现上,这个"换眼"操作是这样进行的。学生模型正常处理一张图片,它的视觉编码器会输出一串图像特征。在正常的蒸馏流程之外,这串图像特征被"切换"送入老师模型的投影器和语言大脑,走一遍老师的语言通路,生成一组"视觉切换逻辑值"——也就是老师的大脑在接收学生眼睛信号时对各个词汇的概率预测。这组概率预测随后与老师用自己眼睛看到的正常输出进行比较,差距就是视觉侧知识传递的损失信号。

    这个设计的精妙之处在于,视觉侧的监督完全是在语言概率空间里完成的,和语言侧的监督使用同一套度量标准,实现了真正意义上的统一。无需额外引入特征对齐损失或者注意力对齐损失,整个框架干净利落。

    研究团队把整个训练目标写成了一个公式:总损失等于语言建模损失加上标准对齐蒸馏损失加上视觉切换蒸馏损失,后两项分别由两个权重系数控制,在所有实验中均被设置𰹅.0,保持平衡。

    三、"动态裁剪":DBiLD损失函数的设计逻辑

    Switch-KD的另一根支柱是一个叫做DBiLD(动态双向逻辑差异损失)的损失函数。要理解它,得先聊聊语言模型输出的一个普遍特征。

    语言大脑在输出每一个词之前,会给词汇表里的几万个词分配概率。通常情况下,最可能的几个词会占据绝大部分概率质量,而剩下的成千上万个词加起来的概率微乎其微。打个比方,如果问"天空是什么颜色","蓝色"可能�%的概率,"灰色"�%,"白色"𴇅%,其余几万个词加起来才𴇅%。这种分布就是典型的"长尾分布"——头部信息丰富,尾部噪声居多。

    对于知识蒸馏而言,那条漫长的尾巴其实是噪声,强行让学生去模仿老师对冷僻词的细微概率差异,不仅没什么意义,还会干扰学习效果。所以很多研究会只取老师输出里概率最高的k个词来做对齐。但问题是,k取多少合适?固定值显然不够灵活——不同的问题、不同的图片,语言模型的输出分布差异很大,对于某些问题老师非常确定(分布很尖锐),k应该小一点;对于另一些问题老师比较模糊(分布比较平坦),k就应该大一点。

    DBiLD的解法是让k自适应变化。具体方法借用了工程领域一个叫做"Kneedle算法"的技术——该算法专门用于在曲线上找到"拐点",也就是曲线从陡峭变为平缓的那个临界位置。把排好序并归一化的词汇概率值画成一条曲线,这条曲线的拐点就是从"高价值信息区"过渡到"低价值噪声区"的边界。DBiLD把这个拐点对应的排名位置定为动态k值,每个样本、每次前向传播都独立计算一次,确保只聚焦在真正有信息量的部分。

    找到了动态k值之后,DBiLD并不直接比较老师和学生的概率值本身,而是比较它们的内部相对差异。具体来说,取出老师排名前k的词的逻辑值,计算所有配对之间的差值(比如񌾹名和񌾺名的差、񌾹名和񌾻名的差……以此类推),形成一个差值向量;同时取出学生在这些相同词汇上的逻辑值,也计算同样的配对差值。然后把这两组差值向量分别归一化成概率分布,用反向KL散度来衡量它们的差距。

    为什么要比较"差值"而不是直接比较概率?因为差值反映的是模型内部的相对排序关系,这种关系比绝对概率更稳定、更具代表性。老师觉得"蓝色比绿色可能性高多少",这个相对判断比"蓝色的概率绝对值是多少"更能传递知识的本质。

    这个过程还是双向的。除了以老师的top-k为基准来约束学生(老师引导分支),DBiLD还以学生自己的top-k为基准,把学生最有把握的那些词拿出来,检验学生对它们的相对排序判断和老师是否一致(学生引导分支)。两个方向加在一起,形成一个互相验证的闭环:老师告诉学生"哪些词最重要、它们之间的优先级是怎样的",学生则用自己最有把握的判断和老师比对,看看自己的自信是否站得住脚。

    四、实验结果:数字背后的真实含义

    研究团队�个权威的多模态测试基准上评估了Switch-KD,这些测试覆盖了感知与理解、认知与推理、文字识别、幻觉抵抗以及特定领域鲁棒性五大能力维度。

    在最受关注的小模型组别(低�亿参数)中,Switch-KD驱动񊄭亿参数学生模型,Avg10综合评分达�.1分,比同规模的LLaVA-KD基线高𳏅.3分,比未经蒸馏的TinyLLaVA基线高𳏇.6分。在VizWiz这个专门测试"盲人用户拍摄的模糊照片"理解能力的基准上,Switch-KD提升幅度尤为突出,比纯标准对齐蒸馏高𳏇.4分——这意味着学生的"眼睛"经过换眼训练后,对低光、运动模糊等恶劣视觉条件的适应能力显著增强。

    在中等规模组别(�亿参数)中,Switch-KD�亿参数模型在Avg7评分上比LLaVA-MoD高𳏈.4分,比LLaVA-KD高𳏄.4分,同时所用训练数据只�万条,远少于LLaVA-MoD�万条。用更少的数据、相近的模型规模,取得更好的结果,这在工程实践中意味着相当可观的成本节省。

    研究团队还与另一个对比方法Align-KD做了跨架构测试。在使用更轻量的Qwen2.5-1.5B语言骨干、�万条训练样本的条件下,Switch-KD相比MobileVLM V2基线提升𱄿.5分,而Align-KD在使用MobileLLaMA-1.7B骨干�万条短样本数据的条件下只提升𱄾.0分。Switch-KD用三分之一的数据,配合更轻的骨干,取得了更大的提升幅度。

    注意力图的可视化结果也印证了定量评分背后的机制。研究团队展示了六张注意力热力图的对比:老师模型的注意力精准聚焦在一张风景照的语义核心区域(木桥与远山的交汇处);SFT基线的注意力大致接近老师,但细节对齐不足;LLaVA-KD的注意力几乎均匀铺满全图,缺乏语义焦点;Align-KD(由于视觉编码器在训练中被冻结)只激活了部分语义区域;Switch-KD则最为接近老师的注意力模式,忠实地捕捉到了同样的语义核心区域。

    五、消融实验:拆解每个设计决策的贡献

    一项严谨的研究不仅要展示最终结果,还要通过控制变量的消融实验证明每个设计选择都是必要的。

    关于视觉切换机制本身:在相同的DBiLD损失函数下,加入视觉切换路径的版本(Avg10�.1)比不加(Avg10�.8)高𳏅.3分。񙹻.3分的差距来自VQAv2、GQA、TextVQA等多个测试点上的一致性提升,尤其VizWiz񊄫.4分提升最为显著,证明换眼机制确实为视觉侧知识传递带来了实质增益。

    关于损失函数的设计选择:研究团队系统比较了六种损失函数组合。单独使用前向KL散度或反向KL散度都得�.3分;引入双向差异结构但保留前向KL得�.4分;把前向KL替换为反向KL提升�.6分;加入动态top-k选择后进一步提升�.8分。这个逐步递进的结果清晰地说明,双向结构、反向KL以及动态k值选择三个设计各自都有贡献,缺一不可。

    关于蒸馏在哪个训练阶段进行:标准的预训练+监督微调方案(PT-SFT)得到Avg10 56.5分;在预训练阶段加蒸馏(DPT-SFT)只提升�.4分,说明早期阶段的蒸馏监督效果有限;在微调阶段加蒸馏(PT-DFT)则跳升�.8分,提升幅度远大于预训练阶段;而在两个阶段都加蒸馏(DPT-DFT)反而略微下滑�.7分,没有产生累加效果。研究团队据此选择了最简洁有效的两阶段方案:普通预训练加蒸馏微调,既避免了额外的训练成本,又最大化了蒸馏效果。

    关于老师模型规模的影响:当学生𿷛亿参数模型时,30亿参数的老师带�.1分,换�亿参数的老师反而略微下滑�.8分。但当学生�亿参数模型时,70亿参数的老师(65.3分)确实优�亿参数的老师(64.8分)。这个结果揭示了一个规律:学生的容量决定了它能从更强老师那里汲取多少知识。过于庞大的老师和过于迷你的学生之间存在能力鸿沟,超出学生消化能力的知识反而会造成干扰。

    六、当前局限与未来方向

    Switch-KD并非没有局限。研究团队在论文结尾坦诚地指出,这套框架目前要求老师模型和学生模型共享同样的特征空间和词汇表。换句话说,老师的语言大脑和学生的语言大脑得"说同一种内部语言",切换后的信号才能被正确解读。这个要求限制了Switch-KD在异构架构之间的应用——比如,如果老师用的是一种语言大脑,学生用的是完全不同体系的另一种,这套切换机制就无法直接套用。

    研究团队提出的解决方向是开发不依赖架构同质性的蒸馏方法,或者引入适配器层来搭建不同架构之间的桥梁,让知识切换在更广泛的模型组合之间成为可能。这也意味着Switch-KD目前更适合在同一模型家族内(比如Qwen2.5系列)进行大小模型之间的蒸馏,跨家族的蒸馏还有待后续工作。

    说到底,Switch-KD做的事情可以用一句话来概括:它找到了一种更聪明的方式,让小模型通过"借用老师的大脑检验自己的眼睛"来学会更好地看世界。视觉知识和语言知识不再是两条平行的考核赛道,而是被统一到同一个评判标准下,形成互相印证的闭环。这个思路在概念上的清晰度,和它在实验上取得的一致性提升,共同构成了这项工作的说服力所在。

    对于每天依赖手机AI助手、车载语音系统或各类智能设备的普通用户而言,这类研究的长远意义在于:更强的小模型意味着更多功能可以在设备本地运行,响应更快、隐私更安全、不依赖网络连接。一个经过Switch-KD训练񊄭亿参数模型,在理解图片内容方面的能力已经接近甚至在某些任务上超越了几倍大的未蒸馏模型——这正是让AI真正"轻装上阵"走进每个人日常生活的必经之路。

    有兴趣深入研究技术细节的读者,可以通过论文编号arXiv:2604.14629查阅完整原文。

    Q&A

    Q1:Switch-KD的"视觉切换"机制具体是怎么操作的?

    A:Switch-KD在训练时会把学生模型的视觉编码器输出的图像特征,切换送入老师模型的投影器和语言大脑,让老师的大脑通过学生的"眼睛"生成输出概率分布。这个分布再和老师用自己眼睛生成的正常输出做比较,差距越小说明学生的视觉编码器越接近老师的水平,从而实现在语言概率空间内统一完成视觉侧知识传递,无需单独设计视觉特征对齐模块。

    Q2:DBiLD损失函数里的动态k值是怎么确定的?

    A:DBiLD借用了工程领域的Kneedle算法来寻找"拐点"。具体做法是把排好序并归一化的词汇逻辑值画成一条曲线,找到曲线从陡峭变为平缓的临界位置,这个位置对应的排名序号就是动态k值。不同样本、不同模型的输出分布不同,k值会随之自动调整,确保每次只聚焦在真正富含信息的高概率词汇区域,而不会被低概率的噪声词汇干扰蒸馏效果。

    Q3:Switch-KD为什么只在微调阶段做蒸馏而不在预训练阶段做?

    A:消融实验显示,在预训练阶段加入蒸馏(DPT-SFT方案)相比标准预训练只带񀧲.9分的Avg10提升,而在微调阶段加入蒸馏(PT-DFT方案)则带񀧴.3分的提升,效果远更显著。同时,在两个阶段都加蒸馏(DPT-DFT)并没有产生累加收益,反而略微下降。因此,为了在训练效率和蒸馏效果之间取得最优平衡,研究团队选择了只在微调阶段进行蒸馏的两阶段方案。