近日,多媒体领域国际顶级会议 ACM International Conference on Multimedia(ACM MM 2025)公布了论文接收结果,实验室共有10篇论文被ACM MM 2025录用,第一作者分别是李硕博士(导师:刘芳教授),王佳豪博士生(导师:刘芳教授),汤可凡博士生(导师:高新波教授),王冠淳博士(导师:张向荣教授),陈翰墨硕士生(导师:邓成教授),方振轩博士生(导师:董伟生教授),刘孟祖博士生(导师:董伟生教授),程伟民本科生(导师:董伟生教授),盛祥非博士生、谢盘古硕士生(导师:李雷达教授)及田丰豪硕士生(导师:冯明涛副教授)。论文简要介绍如下:
论文一
论文题目:Imagining Vision From Language for Few-Shot Class-Incremental Learning
论文作者:李硕,刘星辰,刘芳,焦李成,王佳豪,黄欣研,马彦彪,陈璞花,李玲玲,刘旭,缑雪健
作者单位:西安电子科技大学,人工智能学院,智能感知与图像理解教育部重点实验室
论文概述:小样本类增量学习 (Few-Shot Class-Incremental Learning,FSCIL) 旨在利用有限样本持续学习新类别并保持对旧类别的识别能力。该任务面临两大核心挑战:灾难性遗忘和数据稀缺。现有方法大多依赖微调策略或视觉语言模型的迁移能力,难以从根本上解决图像样本不足的问题。为此,我们提出一种名为“从语言想象视觉”(Imagining Vision From Language,IVFL) 的增量学习方法,其由一个基础会话和多个增量会话组成。在基础会话中,模型通过语言描述生成想象的视觉特征,学习从语言到视觉的映射关系,并估计各类别的特征分布;在增量会话中,模型联合利用旧类别伪图像特征、新类别图像和语言描述,引导模型在保持旧类别知识的同时进行有效的类别扩展。我们的IVFL在新旧知识之间实现了有效的平衡,并在mini-ImageNet、CIFAR100和CUB200等数据集上取得了显著的性能提升。

论文二
论文题目:FA³T: Feature-Aware Adversarial Attacks for Multi-modal Tracking
论文作者:王佳豪,刘芳,焦李成,王浩,李硕,李玲玲,陈璞花,刘旭,王昕怡
作者单位:西安电子科技大学
论文概述:多模态视觉跟踪利用互补的传感器信息,以在具有挑战性的条件下增强鲁棒性。然而,多模态跟踪系统的安全性在很大程度上仍未得到探索。现有的攻击主要针对单模态跟踪器,或独立地破坏每种模态,未能利用定义多模态跟踪的内在特征交互和融合机制。因此,这些方法的攻击效果有限,无法准确评估多模态跟踪系统的漏洞。理解这些安全风险至关重要,因为对抗性威胁可能导致安全关键应用中的严重故障。为应对这些挑战,我们提出了一种特征感知对抗攻击,称为FA³T。它旨在明确破坏特征提取和跨模态对齐,从而削弱多模态跟踪器所依赖的融合过程。为实现这一点,构建了一个频率-空间特征分离模块,以在多个级别上扰动特征表示,削弱多模态跟踪的模态互补优势。此外,设计了一个目标混淆攻击模块来操纵目标-背景-模板关系,使跟踪器越来越难以区分真实目标,显著损害跟踪性能。在多个跨越三种不同模态(RGB - T、RGB - D和RGB - E)的基准数据集进行的大量实验表明,我们的攻击大幅降低了最先进的多模态跟踪器的性能,暴露了它们对对抗性威胁的敏感性。

论文三
论文题目:Boosting Temporal Sentence Grounding via Causal Inference
论文作者:汤可凡,何立火,党吉圣,高新波
作者单位:西安电子科技大学,新加坡国立大学
论文概述:时序语句定位旨在识别未剪辑视频中与给定文本查询语义对应的相关时刻。尽管现有研究已取得实质性进展,但它们往往忽略了视频和文本查询之间的虚假相关性问题。这些虚假相关性主要源于两个因素:(1) 文本数据中的固有偏差,如特定动词或短语的频繁共同出现,以及 (2) 模型对视频内容中突出或重复模式的过度拟合倾向。这些偏差会误导模型将文本线索与不正确的视觉瞬间联系起来,从而导致预测结果不可靠,对分布外示例的泛化能力也很差。为了克服这些局限性,我们提出了一种基于因果干预和反事实推理的框架,利用因果推理消除虚假相关性,增强模型的稳健性。具体来说,我们首先从因果角度出发,利用结构因果模型分析时序语句定位任务。然后,为了解决反映对特定动词或短语的文本偏见的未观察混杂因素,我们提出了一种文本因果干预方法,利用 do-calculus算子估计因果效应。此外,我们还通过构建一个反事实场景来进行视觉反事实推理,该场景只关注视频特征,不包括查询和融合的多模态特征。从整体效果中分离并消除视频的影响,从而对模型进行去伪存真。在公开数据集上的实验证明了所提议方法的优越性。

论文四
论文题目:ACMamba: Fast Unsupervised Anomaly Detection via An Asymmetrical Consensus State Space Model
论文作者:王冠淳,张向荣,张伊菲,彭泽林,张天扬,唐旭,焦李成
作者单位:西安电子科技大学,上海交通大学
论文概述:高光谱图像(HSI)的无监督异常检测旨在从背景中检测未知目标,对地表监测具有重要意义。然而,由于HSI的高维特性和基于密集采样的训练范式导致计算成本高昂,限制了它们的快速部署。本文发现在训练过程中同质区域内的所有样本并非不可或缺,通过巧妙的采样策略可显著降低计算成本。受此启发,本文提出了基于非对称共识学习的高光谱无监督异常检测模型(ACMamba),可以在保持异常检测精度的同时显著提升计算效率。具体而言,设计了一种非对称异常检测范式,采用区域级别实例替代传统密集像素样本作为训练单元。该范式通过引入基于Mamba架构的低成本计算模块,有效捕获HSI重建所需关键区域的全局上下文特征。此外,本文从优化角度提出了共识学习策略,通过同步促进背景重建并抑制异常重建,有效的抑制异常样本对模型重建的干扰。理论分析与八个基准数据集上的广泛实验验证了ACMamba的优越性,展现了相较于现有最先进方法的更快速度和更强性能。

论文五
论文题目:AStF: Motion Style Tranfer via Adaptive Statistics Fusor
论文作者:陈翰墨,徐承昊,闫杰熹,邓成
作者单位:西安电子科技大学
论文概述:人体运动风格迁移技术能够赋予虚拟角色特定的风格特征,从而减少僵硬感并增强真实感。传统的任意图像风格迁移方法通常通过调整均值和方差来实现,这种方法已被证明有效,且类似技术也被应用于运动风格迁移。然而,由于图像与运动数据存在本质差异,仅依赖均值和方差虽然有效,却不足以充分捕捉运动数据中复杂的动态性与时空一致性。因此,我们的核心思路是引入偏度(skewness)和峰度(kurtosis)这两个统计量来增强运动风格分析。具体而言,我们提出了一种新型自Adaptive Statistics Fusor(AStF),由Style Disentanglement Module(SDM)和High-Order Multi-Statistics Attention(HOS-Attn)组成。另外,基于以往方法对判别器的设计过于简单,导致风格迁移效果会出现风格消散的问题,我们设计了Motion Consistency Regularization判别器,增强了动作序列内部的一致性。实验结果表明,通过更全面地建模动态风格中固有的时空统计模式,所提出的AStF在运动风格迁移任务中展现出优于现有技术的性能优势。

论文六
论文题目:Beyond Visual Quality: Fidelity-Oriented Diffusion Model for Real-world Image Super-Resolution
论文作者:方振轩,王帅博,董伟生,徐俊伟,毋芳芳,李欣,石光明
作者单位:西安电子科技大学,纽约州立大学奥尔巴尼分校
论文概述:尽管现有的基于扩散的图像超分辨率方法已经取得了优异的视觉质量,但它们经常面临保真度不足的问题,即保持输出图像与原始输入图像的内容一致性。这个问题的原因是使用低质量图像作为条件输入会在扩散反向去噪过程中引入大量误差,使恢复的特征偏离目标特征,从而降低图像保真度。为了提高噪声估计的准确性,我们提出了一种双记忆模块来增强输入的低质量条件特征,该模块由一个预训练的高质量记忆网络和一个退化记忆网络组成,前者用于丰富结构信息,后者用于去除退化分量。此外,我们提出了一种不确定性感知噪声估计框架,利用去噪网络中的一个额外分支来预测像素级的不确定性值,从而动态调整高不确定性区域的优化权重。这种自适应策略有效地提高了重建区域中噪声估计的准确性。实验结果表明,我们的方法在保持扩散超分辨率的高视觉质量的同时,显著提高了保真度,提高了扩散模型的可靠性。

论文七
论文题目:Exploring Global Correlations via Polarity Memory for Multispectral Demosaicing
论文作者:刘孟祖,董伟生,徐俊伟,黄韬,毋芳芳,董乐,李欣
作者单位:西安电子科技大学,纽约州立大学奥尔巴尼分校
论文概述:多光谱图像去马赛克的目的是从压缩的光谱马赛克图像中重建完整的多光谱图像。尽管现有的基于学习的方法在多光谱图像去马赛克方面取得了一定进展,但由于成像过程中欠采样导致的严重空间信息缺失问题,这些方法仍然存在性能瓶颈。为了解决这一问题,我们提出了具有量化注意力的极性记忆网络以建立全局相关性,从而从压缩的光谱马赛克图像中重建高质量的多光谱图像。我们提出的极性记忆网络能够自适应地封装面向重建的特征表示,然后通过极性感知的方式放大相关特征表示并减少不相关特征表示中的噪声,以更好地适应不同光谱信息的增强,同时保持线性计算复杂度。此外,考虑到现有方法在重建中无法充分补偿长距离相互作用,我们引入了一种量化注意力机制,该机制使用高效的量化操作将相同语义的Tokens分类到同一组用于注意力计算。实验结果表明,我们的方法在各种仿真数据集上实现了最先进的性能,并在真实场景数据集上获得了更好的视觉效果。

论文八
论文题目:Pushing the Limit of Binarized Neural Network for Image Super Resolution with Smooth Information Transmission
论文作者:程伟民,董伟生,汪振宇,黄韬,毋芳芳
作者单位:西安电子科技大学
论文概述:轻量化模型已成为当前图像超分辨研究的核心方向,但其在资源受限设备上的应用仍受到高计算需求的制约。作为提升深度学习模型推理效率的一种高效途径,低比特量化受到了广泛关注。本文强调,低比特图像超分辨并非全精度版本的简单模仿,而是从信息传输的角度探索二值量化在ISR中的潜力,力求突破二值ISR的性能上限。具体而言,我们提出了一种最大熵路由(Maximum Entropy Routing, MER)机制,用于动态调控激活分布,最大化二值特征图的信息熵。此外,我们设计了可学习偏差补偿(Learnable Deviation Compensation, LDC)与自适应步长估计(Adaptive Step-size Estimation, ASE),分别用于在前向和反向传播过程中减少信息损失。通过使二值激活表示更加灵活、信息传输更加顺畅,以及梯度估计更加精确,我们将二值模型与全精度模型之间的性能差距缩小至不足 0.3 dB。大量实验证明,我们提出的二值化方法在所有主流基准上均取得了峰值信噪比(PSNR)方面的先进结果。

论文九
论文题目:InstructCrop: Teaching Multimodal Large Language Models to Crop Aesthetic Images
论文作者:盛祥非,谢盘古,邹未东,陈鹏飞,朱彤,李雷达
作者单位:西安电子科技大学
论文概述:美学图像裁剪(AIC)旨在通过去除冗余内容同时保留吸引人的元素来提高图像的视觉吸引力。尽管基于数据驱动方法取得了令人鼓舞的进展,但大多数现有模型难以理解用户意图,特别是对于具有多个主体的复杂场景。此外,大多数现有的方法只能提供最优裁剪框而无法提供文本解释,进一步限制了裁剪模型在实际场景中的应用。为此,我们提出了一个基于多模态大语言模型的AIC框架InstructCrop,该框架能够理解用户指令并为裁剪结果提供解释性原因。具体而言,我们首先通过一种低成本的范式构建了多模态图像裁剪指令调优数据集,该范式基于现有裁剪数据集生成高质量的指令调优数据。然后,我们通过整合美学评估和构图分类的专家小模型,将裁剪知识嵌入到多模态大模型中。最后,通过微调多模态大模型生成裁剪结果和相应的解释。在三个基准数据集上的定量和定性实验表明,InstructCrop能够实现高效且可解释的图像裁剪,也能生成更符合用户意图的裁剪结果。


论文十
论文题目:Generalizing to New Area: Self-Distillation Curriculum Learning for Fine-Grained Cross View Localization
论文作者:田丰豪,冯明涛,罗建桥,武子杰,梅龙龙,杨理杰,董伟生,王耀南
作者单位:西安电子科技大学,湖南大学
论文概述:机器人细粒度跨视角定位旨在通过匹配其地面感知图像与带有 GPS 信息的卫星地图,预测机器人地面的具体位置。现有方法依赖特定区域的大规模真实标注数据,但在跨区域应用时,由于领域偏移,其性能显著下降,而为每个新区域收集专属标注代价高昂。为此,我们提出一种自蒸馏课程学习框架,用于将预训练的定位模型泛化到未见的新区域。该方法引入基于 Dirichlet 分布的不确定性评估机制,对教师模型生成的伪标签进行质量判定。模型据此开展由易到难的课程学习策略,先利用高质量样本训练学生模型,再逐步引入更具挑战性的样本以提升泛化能力。此外,设计了一种联合优化方案,动态更新学生模型与伪标签,并引入自适应标签平滑技术以缓解伪标签噪声,从而更充分利用新区域数据。在基准测试上的大量实验结果表明,该方法在新区域定位任务中优于现有主流方法,在无需额外监督的情况下实现机器人更高精度的定位。

作为由ACM主办的多媒体领域最具影响力的国际顶级会议之一,ACM MM自1993年首次举办以来,已成为该领域学术界和工业界交流的重要平台,也是中国计算机学会CCF推荐的计算机图形学与多媒体领域A类国际学术会议。此次ACM MM 2025竞争异常激烈,共收到来自全球的4711篇有效投稿,最终仅录用1251篇论文,录用率为26.6%。