北大彭宇新教学团队开源细粒度多模态大模子Finedefics

作者: [db:作者] 分类: 科技 发布时间: 2025-02-19 08:33
AIxiv专栏是呆板之心宣布学术、技巧内容的栏目。从前数年,呆板之心AIxiv专栏接受报道了2000多篇内容,笼罩寰球各年夜高校与企业的顶级试验室,无效增进了学术交换与传布。假如你有优良的任务想要分享,欢送投稿或许接洽报道。投稿邮箱:[email protected][email protected]本文是北京年夜学彭宇新教学团队在细粒度多模态年夜模子范畴的最新研讨结果,相干论文已被 ICLR 2025 接受,并已开源。只管多模态年夜模子在通用视觉懂得义务中表示杰出,但不具有细粒度视觉辨认才能,这极年夜制约了多模态年夜模子的利用与开展。细粒度视觉辨认旨在辨别统一粗粒度年夜类下的差别细粒度子种别,如将鸟类(粗粒度年夜类)图像辨别为西美鸥、灰背鸥、银鸥等(细粒度子种别);将车辨别为宝马、奔跑、奥迪等,奥迪辨别为 A4、A6、A8 等;将飞机辨别为波音 737、波音 747、波音 777、空客 320、空客 380 等。实现对视觉工具的细粒度辨认,在事实出产跟生涯中存在主要的研讨跟利用代价。针对这一成绩,北京年夜学彭宇新教学团队体系地剖析了多模态年夜模子在细粒度视觉辨认上所需的 3 项才能:工具信息提取才能、种别常识贮备才能、工具 - 种别对齐才能,发明了「视觉工具与细粒度子种别未对齐」是限度多模态年夜模子的细粒度视觉辨认才能的要害成绩,并提出了细粒度多模态年夜模子 Finedefics。起首,Finedefics 经由过程提醒年夜言语模子构建视觉工具的细粒度属性常识;而后,经由过程对照进修将细粒度属性常识分辨与视觉工具的图像与文本对齐,实现数据 - 常识协同练习。Finedefics 在 6 个威望细粒度图像分类数据集 Stanford Dog-120、Bird-200、FGVC-Aircraft、Flower-102、Oxford-IIIT Pet-37、Stanford Car-196 上的均匀正确率到达了 76.84%,比拟 Hugging Face 2024 年 4 月宣布的 Idefics2 年夜模子进步了 10.89%。论文题目:Analyzing and Boosting the Power of Fine-Grained Visual Recognition for Multi-modal Large Language Models论文链接:https://openreview.net/forum?id=p3NKpom1VL开源代码:https://github.com/PKU-ICST-MIPL/Finedefics_ICLR2025模子地点:https://huggingface.co/StevenHH2000/Finedefics试验室网址:https://www.wict.pku.edu.cn/mipl配景与念头多模态年夜模子是指提取并融会文本、图像、视频等多模态数据表征,经由过程年夜言语模子停止推理,经由微调后适配到多种卑鄙义务的基本模子。只管现有多模态年夜模子在视觉问答、推理等多种义务上表示杰出,但存在辨认粒度粗的范围性:由于多模态年夜模子的视觉辨认才能依附大批练习数据,因为练习数据的细粒度子种别的标注本钱宏大,现实也是无奈细粒度标注的,招致现有多模态年夜模子缺少细粒度视觉辨认才能。图 1. 多模态年夜模子在细粒度视觉辨认上所需的 3 项才能本文体系地剖析了多模态年夜模子在细粒度视觉辨认上所需的 3 项才能,如图 1 所示,包含:1. 工具信息提取才能:视觉编码器可能从图像中正确并片面地提取辨别差别细粒度子种别的辨识性信息;2. 种别常识贮备才能:年夜言语模子可能贮备充足的细粒度子种别常识;3. 工具 - 种别对齐才能:基于提取的辨识性视觉信息与贮备的细粒度子种别常识,在年夜言语模子的表征空间中对齐视觉工具与细粒度子种别,以树立输入图像到子种别称号的细粒度映射关联。试验成果标明,「视觉工具与细粒度子种别未对齐」是限度多模态年夜模子具有细粒度视觉辨认才能的要害成绩。技巧计划为处理视觉工具与细粒度子种别未对齐的成绩,本文提出了细粒度多模态年夜模子 Finedefics。如图 2 所示,Finedefics 构建进程包括 2 个重要步调:1. 起首经由过程属性描写构建,应用辨识属性发掘取得辨别细粒度子种别的要害特点,比方辨别猫的种类的辨识性属性「毛色」、「毛型」、「毛皮质地」等,并应用视觉属性提取取得图像工具的辨识性属性对,比方「毛色:棕褐色」、「毛型:带有花纹」、「毛皮质地:质地柔嫩」等,再应用属性描写总结将属性对转化为天然言语情势的工具属性描写,比方「图中小猫的毛为棕褐色,带有花纹,质地柔嫩」;2. 而后经由过程属性加强对齐,将构建的工具属性描写作为视觉工具与细粒度子种别的独特对齐目的,经由过程工具 - 属性、属性 - 种别、种别 - 种别对照进修充足树立视觉工具与细粒度子种别的细粒度对应关联,再应用以辨认为核心的指令微调增进模子遵守细粒度视觉辨认的义务指令。详细地,包括如下两个练习阶段:阶段 I:属性加强的对照进修起首,针对每个「工具 - 属性 - 种别」三元组与可进修的模态衔接层 将转化为工具表征序列,应用视觉编码器为更好捕获全局表现,将标识符 [EOS] 输入年夜言语模子的嵌入层失掉向量表现,并将其与工具特点序列拼接,失掉新构建的工具表征序列 与种别表征序列。类似地,失掉属性表征序列 而后,分辨将 输入到年夜言语模子中,将序列末端的猜测标记(token)分辨作为 的全局表现。为简化表现,界说练习采取的对照进修丧失包括以下 3 种:工具 - 属性对照:为细粒度视觉辨认数据会合的每个视觉工具 发掘艰苦负样本。详细地,针对每张样本图像,从三个最类似但过错的细粒度子种别数据当选择负样本,并将其属性描写与细粒度子种别称号作为艰苦负样本参加对照进修。因而,引入艰苦负样本后的工具 - 属性对照(Object-Attribute Contrastive, OAC)丧失表现如下:此中,表现工具艰苦负样本的属性表征聚集,Sim (⋅,⋅) 丈量特点空间的余弦类似度。属性 - 种别对照:类似地,引入艰苦负样本后的属性 - 种别对照(Attribute-Category Contrastive, ACC)丧失表现如下:此中,表现工具  艰苦负样本的细粒度子种别表征聚集。种别 - 种别对照:因为难以在年夜言语模子的表征空间中辨别差别细粒度子种别,提出了种别 - 种别对照(Category-Category Contrastive, CCC)丧失如下:别的,为坚持模子的天生才能,将属性描写作为天生目的,采取下一个标志猜测(Next Token Prediction)义务停止模子练习。因而,阶段 I 的优化目的界说如下:此中,表现属性描写天生丧失。阶段 II:以辨认为核心的指令微调将细粒度视觉辨认数据集构建为两种情势的指令微调数据:开集问答数据与闭集多选题数据,应用上述指令微调数据更新模子参数。因而,阶段 II 模子的优化目的界说如下:此中,表现以辨认为核心的指令微调丧失。试验成果表 1. 细粒度多模态年夜模子(Finedefics)试验成果表 1 的试验成果标明,Finedefics 在 6 个威望细粒度图像分类数据集 Stanford Dog-120、Bird-200、FGVC-Aircraft、Flower-102、Oxford-IIIT Pet-37、Stanford Car-196 上的均匀正确率到达了 76.84%,比拟阿里 2024 年 1 月宣布的通义千问年夜模子(Qwen-VL-Chat)进步了 9.43%,比拟 Hugging Face 2024 年 4 月宣布的 Idefics2 年夜模子进步了 10.89%。图 3 的可视化成果标明,(a)仅微调年夜模子,视觉工具与细粒度子种别表征的散布差别年夜;(b)仅引入工具 - 种别对照进修时,上述散布差别依然难以下降;(c)同时引入工具 - 属性、属性 - 种别、种别 - 种别对照进修时,散布差别明显下降,优化了视觉工具与细粒度子种别的对齐后果,晋升了多模态年夜模子的细粒度视觉辨认才能。图 4 的案例展现标明,相较于 Idefics2,本方式 Finedefics 能胜利捕获视觉工具特点的轻微差别,并将其与类似的细粒度子种别工具明显辨别。更多概况,请拜见原论文。

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!