近日,2025年度IEEE 国际计算机视觉与模式识别会议 (IEEE Conference on Computer Vision and Pattern Recognition,简称CVPR) 公布了论文录用结果。实验室共有12篇论文被CVPR 2025录用,第一作者分别是毛莎莎副教授,李硕博士(合作导师:焦李成教授),臧琪博士(导师:王爽教授),赵栋博士(导师:王爽教授),武阿明副教授,杨木李博士(导师:邓成教授),王宇宣博士生(导师:邓成教授),方振轩博士生(导师:董伟生教授),杨州博士生(导师:董伟生教授),杨麒瞳硕士生(导师:冯明涛副教授),卞靖豪硕士生(导师:董伟生教授、冯明涛副教授)及刘少禹博士生(导师:赵光辉教授)。论文简要介绍如下:
论文一
论文题目:Cross-Rejective Open-Set SAR Image Registration
论文作者:毛莎莎,路世明,杜召龙,焦李成(通信作者),缑水平,牟伦田,鲁学权,熊霖,张艺蒙(通信作者)
作者单位:西安电子科技大学,北京工业大学,澳大利亚西澳大学,吉利汽车研究院
论文概述:合成孔径雷达(SAR)图像配准是遥感科学应用中的一项关键上游任务,通常以两幅图像预提取的关键点作为观测对象进行匹配点对搜索。通常,配准被视为一种典型的闭集分类问题,即强制将每个关键点归类到已知类别中,却忽视了大量冗余关键点超出预设类别的本质问题,这不可避免地会导致捕捉到错误的匹配点对。基于此,我们提出了一种跨域拒绝开集SAR图像配准方法,简称CroR-OSIR。在这项工作中,冗余关键点被视为分布外(OOD)样本,将配准问题重新定义为一种特殊的开集任务。该算法主要包含两个模块:监督对比特征提取模块(SupCon)和跨域拒绝开集识别模块(CroR-OSR)。区别于传统开放集识别,CroR-OSR模块中所有样本(包括OOD样本)均可用于训练,并在两幅图像的独立开集域中进行闭集分类,通过设计跨域拒绝机制,利用置信度和一致性对样本点进行评估,有效排除非配准点对的OOD样本。此外,将CroR-OSR模块输出的跨域估计标签反馈至SupCon模块,以增强关键点特征的判别性。实验结果表明,所提出的方法在配准精度上优于当前最先进的方法。

图1:Close-set图像配准和Open-set图像配准示意图

图2: CroR-OSIR算法框架图
论文二
论文题目:Logits DeConfusion with CLIP for Few-Shot Learning
论文作者:李硕,刘芳(通讯作者),郝泽华,王昕怡,李玲玲,刘旭,陈璞花,马文萍
作者单位:西安电子科技大学,人工智能学院,智能感知与图像理解教育部重点实验室
论文概述:凭借强大的视觉语言对齐能力,CLIP在零样本和小样本学习任务中表现良好。然而,我们在实验中发现,CLIP的logits在下游任务中存在严重的类间混淆问题,类别之间的模糊性严重影响准确率。为了解决这一问题,我们提出一种称为Logits去混淆的方法,其通过结合多级适配器融合模块与类间去混淆模块,有效地学习并消除logits 中的类间混淆。首先,多级适配器融合模块从 CLIP图像编码器的不同级别提取特征并融合以增强特征表示。其次,类间去混淆模块将增强后的特征表示作为图像先验,通过残差结构以可学习的方式消除logits中的类间混淆。在多个基准上的实验结果表明,Logits去混淆可以显著提高分类性能并缓解类别混淆问题。

论文三
论文题目:Feature Spectrum Learning for Remote Sensing Change Detection
论文作者:臧琪,赵栋,王爽(通讯作者),权豆,焦李成,钟准
作者单位:西安电子科技大学
论文概述:变化检测(CD)对地球观测具有重要意义,其中由成像环境因素引起的双时相图像之间的伪变化是关键挑战。现有的方法主要将伪变化视为一种风格转移,并通过使用生成对抗网络(GANs)将双时相图像转化为相同风格来缓解这一问题。然而,这些方法的努力受到优化GANs复杂性和缺乏物理属性指导的限制。本文发现,谱变换(ST)有潜力通过在频域中对齐承载风格的信息来减轻伪变化。然而,ST的优势在很大程度上受到两个缺点的制约:1)有限的变换空间和2)低效的参数搜索。为了解决这些限制,我们提出了特征谱学习(FeaSpect),在潜在空间中自适应地消除伪变化。针对缺点1),FeaSpect通过特征谱变换(FST)引导变换走向风格对齐的判别性特征。针对缺点2),FeaSpect使得FST可以训练,从而通过自适应注意力提取框和可学习步幅提取框高效地发现最优参数。大量实验表明,我们的方法显著优于现有方法,并在准确性和效率之间实现了良好的权衡。更重要的是,我们的方法可以轻松地嵌入到其他框架中,获得一致的提升。

论文四
论文题目:FisherTune: Fisher-Guided Robust Tuning of Vision Foundation Models for Domain Generalized Segmentation
论文作者:赵栋,李金龙,王爽(通讯作者),伍梦瑶,臧琪,Nicu Sebe,钟准
作者单位:西安电子科技大学
论文概述:作者提出了一种针对领域泛化语义分割任务的稳健微调方法——FisherTune。该方法通过引入领域相关的Fisher信息矩阵(DR-FIM),在微调视觉基础模型时,能够选择性地更新参数,既保持了大规模预训练模型的优异泛化能力,又提升了其在不同领域中的适应性。FisherTune通过变分推理稳定DR-FIM的估计,采用先验知识来指导微调过程,确保参数更新不至于过度调整,避免了传统方法中可能出现的过拟合问题。大量实验结果表明,FisherTune超越了基于选择性参数更新和适配器的方法,同时在保持模型泛化能力的同时,显著提升了领域适应性。

论文五
论文题目:Percept, Memory, and Imagine: World Feature Simulating for Open-Domain Unknown Object Detection
论文作者:武阿明,邓成(通讯作者)
作者单位:西安电子科技大学,电子工程学院
论文概述:受到未见风格和未知物体的干扰,基于独立同分布假设训练的检测模型往往泛化性很弱。为此,我们首次提出了开放场景未知物体检测任务,同时受到大脑认知的启发,提出了世界特征模拟网络,通过对输入图像进行多视角观察,形成了涉及物体局部特性的记忆;在此基础上,设计特定的想象模块来模拟用于训练的未见物体特征,从而增强了模型的泛化性能。大量的实验结果以及可视化分析证明了所提方法的有效性。

论文六
论文题目:Detecting Open World Objects via Partial Attribute Assignment
论文作者:杨木李,Gabriel James Goenawan,秦怀远,韩锴,彭玺,杨延华,朱宏远
作者单位:新加坡科技研究局、香港大学、四川大学、西安电子科技大学(计算机学院)
论文概述:开放世界目标检测致力于在准确识别已知目标的基础之上有效发现未知目标类别。现有方法通常利用概率分布建模来区分已知和未知目标类别,缺乏可解释性,检测性能难以保证。该论文提出了一种可解释的开放世界目标检测框架,利用类别无关的细粒度语义属性来同时识别已知与未知目标。为此,设计了一种基于局部最优传输理论的在线匹配方法,实现语义属性与目标类别的精准匹配,显著提升已知与未知目标的检测与识别性能。

论文七
论文题目: Reasoning Mamba: Hypergraph-Guided Region Relation Calculating for Weakly Supervised Affordance Grounding
论文作者:王宇宣,杨木李,闵聿宽,朱宜航,武阿明,邓成(通讯作者)
作者单位:西安电子科技大学,电子工程学院
论文概述:弱监督可供性标定任务旨在训练模型使用人与物体交互图像和自我中心图像来识别可供性区域,而无需昂贵的像素级注释。大多数现有方法通常认为可供性区域是孤立的,并直接使用类激活图进行定位,忽略了与其他物体组件的关系。为此,我们首先探索利用超图来发现这些关系,并提出了一个推理曼巴框架。该框架通过从外中心和自我中心图像中提取特征来构建超图,并以此捕捉不同视觉组件之间的上下文局部区域关系。在此基础上,设计了一个超图引导的状态空间块来从全局角度重新组织这些局部关系。实验表明所提方法可以提高可供性区域的定位精度。

论文八
论文题目:Parameterized Blur Kernel Prior Learning for Local Motion Deblurring
论文作者:方振轩,毋芳芳(共同通讯),黄韬,董乐,董伟生(共同通讯),李欣,石光明
作者单位:西安电子科技大学,纽约州立大学奥尔巴尼分校
论文概述:与全局运动模糊不同,局部运动去模糊(LMD)提出了更复杂的挑战,因为它需要在精确恢复模糊区域的同时保持背景的清晰度。现有的LMD方法依赖于手动标注的模糊掩码,并常常忽视模糊核的特性,而这些特性对精确恢复至关重要。为了解决这些问题,我们提出了一种新颖的参数化运动核建模方法,该方法通过三个关键参数——长度、角度和曲率,定义运动模糊核。我们使用网络来估计这些核参数,从而显著提高了模糊核估计的准确性。为了有效地学习运动模糊表示,我们引入了一个共享内存库,用于存储模糊先验信息。此外,我们提出了一个双分支去模糊网络:一个分支利用Mamba捕捉长程依赖,另一个分支则使用掩码引导的CNN聚焦于细化局部模糊区域。通过充分利用估计的模糊先验信息,我们的方法显著提升了去模糊效果。实验表明,我们的方法在定量和视觉效果上均达到了最先进的性能,并显著降低了计算复杂度。

论文九
论文题目:Gain from Neighbors: Boosting Model Robustness in the Wild via Adversarial Perturbations Toward Neighboring Classes
论文作者:杨州,冯明涛,黄韬,毋芳芳,董伟生(通讯作者),李欣,石光明
作者单位:西安电子科技大学,纽约州立大学奥尔巴尼分校
论文概述:数据增强、对抗训练和迁移学习等方法在解决由分布偏移引起的性能退化问题上展现了潜力。然而,这些方法通常需要精心设计数据或模型,并未充分考虑分布偏移的影响。本文观察到,分布偏移引起的分类错误通常集中在真实值附近,表明错误分类往往发生在语义相似的相邻类别之间。此外,稳健的先进视觉基础模型在保持语义一致性的同时,能维持较大的类别间距离,减少对偏移的敏感性。基于这些发现,我们提出了一种新方法——GFN(Gain From Neighbors),该方法通过利用相邻类别的梯度先验扰动输入图像,并结合类别间距离加权损失提高类别分离度。此方法促使模型从易错数据中学习更加鲁棒的特征,增强其在不同环境下对分布偏移的鲁棒性。通过在多种模型架构和基准数据集上的广泛实验,GFN始终表现出优越的性能。

论文十
论文题目:Hierarchical Gaussian Mixture Model Splatting for Efficient and Part Controllable 3D Generation
论文作者:杨麒瞳,冯明涛(通讯作者),武子杰,董伟生,毋芳芳,王耀南,Ajmal Mian
作者单位:西安电子科技大学,湖南大学,西澳大学
论文概述: 3D生成是空间智能的重要环节,尽管当前基于高斯泼溅的方法可以在几秒钟内生成3D物体,但它们仍然受到复杂预处理或低可控性的限制。本文提出新颖的框架,从文本提示或图像中高效且可控地生成高分辨率的3D模型。主要创新:1)层次化高斯混合模型泼溅:提出混合层次化表示方法,从纹理化物体中提取固定数量的细粒度高斯分布,具有多尺度细节,同时建立高斯原语的部分级别表示。2)适应性树状拓扑的Mamba:提出一种具有树状拓扑的扩散Mamba,可以自适应生成具有无序空间结构的高斯分布,且无需复杂预处理,保持线性复杂度的生成。3)可控生成:基于HGMM树,引入级联扩散框架,结合可控的隐式潜在生成,逐步生成条件驱动的潜在变量,以及显式泼溅生成,将潜在变量转换为高质量的高斯原语。大量实验验证了我们方法的高保真度和高效性。

论文十一
论文题目:Feature Information Driven Position Gaussian Distribution Estimation for Tiny Object Detection
论文作者:卞靖豪,冯明涛(通讯作者),董伟生,毋芳芳,罗建桥,王耀南,石光明
作者单位:西安电子科技大学,湖南大学
论文概述:尽管通用检测器取得了成功,但小目标检测仍然具有挑战性。通用检测器在小目标上的性能显著下降,主要是由于其对极其有限的像素所表现出的弱表征能力。为此,本文提出一种即插即用的模块来增强特征弱激活区域。我们首次从像素级信息量的角度挖掘待增强区域,通过最小化信息熵损失,建模整个图像的像素特征信息量,生成信息图,以无监督的方式重点突出弱激活区域。为了引入标签物理先验增强对小目标的关注,提出位置高斯分布图,利用高斯混合分布显式建模,每个高斯成分的参数依赖于物体实例标签的位置和大小,作为进一步特征增强的监督信息。以信息图作为先验知识指导,构建了一个多尺度位置高斯分布图预测模块,在训练过程中同时调节信息图和分布图,以专注于小目标。在多个公开数据集实验表明我们的方法的有效性和通用性。

论文十二
论文题目:EventGPT: Event Stream Understanding with Multimodal Large Language Models
论文作者:刘少禹,李家宁, 赵光辉(通讯作者),张云剑,孟鑫,于非,季向阳,李明(通讯作者)
作者单位:西安电子科技大学,清华大学,北京大学,中国科学院大学,光明实验室
论文概述:事件相机通过记录异步像素变化,在低光照和高动态场景下具备独特优势,然而现有多模态大语言模型(MLLMs)主要针对自然RGB图像,无法有效理解事件流。为解决这一问题,本文提出EventGPT,这是首个专为事件流理解设计的MLLM。通过三阶段训练策略,包括视觉-语言对齐、事件-语言对齐及指令微调,EventGPT逐步弥合事件数据与语言之间的鸿沟。实验结果表明,EventGPT在描述生成、复杂推理和视觉问答任务上超越现有模型,并在目标检测和实例分割等下游任务中展现出卓越潜力,为事件流与大语言模型的结合提供了新基线。

据悉,CVPR是计算机视觉和模式识别领域顶级学术会议之一。今年,共有13008份有效投稿并进入评审流程,其中2878篇被录用,最终录用率为22.1%。