2025 年国际计算机视觉大会(International Conference on Computer Vision, ICCV)于 10 月 19 日至 23 日在美国夏威夷檀香山举行。作为计算机视觉领域最具影响力的顶级学术会议之一,ICCV 在全球前沿技术探索中发挥着不可替代的引领作用。会议同期举办的多项国际技术竞赛形成了“学术—产业”双轮驱动格局,有力推动了计算机视觉领域的创新发展与标准化进程。西安电子科技大学人工智能学院参赛队伍在欧洲科学院院士焦李成教授、刘芳教授、马文萍教授、杨淑媛教授、李玲玲副教授、刘旭副教授、陈璞花副教授、李硕博士、杨育婷博士、孙龙博士和马梦茹博士以及团队博士生路小强、张柯欣等共同指导下,在ICCV 2025赛事中累计斩获13项冠亚季军奖(5冠4亚4季)。团队针对多模态理解、图像重建、视频分析及视觉空间推理等核心问题,提出了一系列创新解决方案。所有获奖队伍均收到竞赛主办方的邀请,在大会研讨会上分享并展示获奖方案。本次竞赛所有参赛队伍由国家自然科学基金重点、联合项目,教育部创新团队,国家学科创新引智基地等支持。
竞赛一 “ICCV 2025 HouseCat6D物体姿态估计挑战赛”旨在完成高反射与透明表面物体的6D姿态估计任务,参赛者需针对包含镜面反射、半透明及折射特性的多种家居物体,估计其在三维空间中的旋转、平移及尺度参数。该挑战的官方数据集为 HouseCat6D-Tricky,采集于真实家居环境,涵盖大量具有镜面与透明特性的物体实例,提升了任务的光度复杂性与场景多样性。该竞赛由德国慕尼黑工业大学的Benjamin Busam副教授等人举办。由2024级硕士研究生“贺晶、王一晴”和杨育婷博士组成的队伍获得该赛题冠军奖项。
(贺晶、王一晴、杨育婷)
冠军方案:队伍提出一种融合关键点不确定性感知与类别自适应损失的6D姿态估计方案。该方案以AG-Pose为基础模型,采用更具表征能力的 DINOv2-ViT-B/14 作为视觉骨干,并引入类别加权策略与关键点置信度引导的监督机制,结合关键点不确定性估计,在特征层面实现对高置信关键点的动态加权学习。该方案有效缓解了传统方法在透明或镜面物体上易受噪声干扰、姿态回归不稳定等问题,在复杂光照与多材质场景中显著提升了6D姿态估计的鲁棒性与精度。
竞赛二 “ICCV 2025 MOT挑战赛”聚焦时空视频动作定位(SVAG)任务,要求参赛者根据给定视频和自然语言查询,检测并跟踪所有符合查询的目标对象,并确定其对应的关联时刻,以此解决视频中目标对象检测跟踪与语言查询匹配、复杂场景(如严重遮挡、密集目标)下目标定位的问题。该赛题使用的官方数据集为MOT25-StAG,其基于MOT17、MOT20、OVIS 三个现有基准数据集构建,包含688个存在严重目标遮挡或密集目标的视频、19590 条带注释的自然语言动作描述及903种独特动作。该竞赛由慕尼黑大学(LMU)/ 慕尼黑机器学习中心(MCML)的 Tanveer Hannan、Shuaicong Wu、Thomas Seidl,苏黎世大学(UZH)等机构联合主办。由2024级硕士研究生“徐铭、李昱颖”和博士研究生“路小强”组成的学生队伍获得该赛题冠军奖项; 由2025级硕士研究生“胡进、刘彪、徐金阳”组成的学生队伍获得该赛题季军奖项。

(徐铭、李昱颖、路小强)

(胡进、刘彪、徐金阳)
冠军方案:针对挑战中语言引导视频理解的任务需求,队伍提出一种基于增强型剪辑补全的双阶段时空定位方案,该方案先以 FlashVTG(骨干为 InternVideo2)完成时间定位,通过剪辑补全策略,结合时间统计与跨模态注意力信号推断数据集中缺失的相关窗口、剪辑 ID、显著性分数等监督字段,再将增强后的时间切片输入 TempRMOT(编码器为 ResNet-50)进行空间定位,推理阶段还引入测试时增强(TTA)、模型集成、加权框融合(WBF)后处理技术。此方案突破了现有方法在不完整监督和嘈杂标注下表现不佳的技术瓶颈,解决了单一阶段推理出现的时间漂移、空间误检及复杂场景鲁棒性不足的问题,最终实现了时间定位可靠、空间轨迹精准的效果,兼顾高准确性与高效率的平衡。
竞赛三 “ICCV 2025 多主体图像个性化挑战赛”聚焦生成式AI的核心难题——在单幅画面中精准集成多个个性化概念。赛事提供600组精心设计的测试样例、1,200个独特主体及配对掩码,涵盖人物、动物、物品等多种类别,要求选手利用复合文本提示同时个性化两个目标,生成语义一致、身份保持、构图自然的融合图像。所有数据均附带高分辨率参考图与场景描述,构建跨类别、跨姿态的多主体基准。该挑战赛鼓励探索概念解耦、身份编码与组合生成的前沿技术,推动半监督与多模态学习在个性化创作中的创新应用。该竞赛由弗吉尼亚理工大学、黑森林实验室联合举办,由2024级硕士研究生“卢艺辰、谢兴霖、方静”组成的学生队伍获得该赛题亚军奖项。

(卢艺辰、谢兴霖、方静)
亚军方案:为满足挑战赛中“多主体–多模态”个性化图像生成任务对身份保持与语义一致性的双重要求,队伍提出了统一扩散生成方案 OmniGen-MP。该方案以 OmniGen 的单一 Transformer 为核心骨干,直接加载百万级 X2I 多任务预训练权重,实现端到端的文本–图像交织序列推理,无需依赖 CLIP、ControlNet 等外部模块。针对训练集中“主体多、样本少”的长尾分布问题,队伍在 rectified-flow 目标中引入加权 MSE,对编辑区域赋予更高损失权重,以抑制模型的复制捷径,从而显著增强对稀疏主体特征的学习能力。此外,针对不同参考图像在视角与数量不一致所导致的特征融合难题,队伍设计了自适应混合池化的多视角 token 融合模块:先通过双向注意力聚合单图内部 patch,再以轻量级门控机制动态融合多参考图的视觉 token,实现参考图数量的灵活接入与即插即用。该方案有效解决了文本与图像融合中的关键瓶颈,在多主体个性化图像生成任务中实现了更高的效率与性能。
竞赛四 “AIM2025真实世界RAW图像去噪挑战赛”聚焦真实拍摄场景下的RAW图像降噪难题,要求参赛团队以自我监督、与相机无关的方式,从含噪图像中预测干净的RAW图像。训练集采用SID数据集的Sony子集,测试集则涵盖SonyA7R4、SonyA6700、SonyZVE10M2及Canon70D四款相机采集的数据。赛事对模型参数量和计算量提出严格约束:输入图像为(512,512,4)大小时,计算量不超过150GMacs,参数量不超过15M,对模型的效率与泛化能力均构成考验。该竞赛由索尼AI和维尔茨堡大学计算机视觉实验室联合主办。由2024级硕士研究生“王一晴、贺晶”和博士研究生“张柯欣”组成的学生队伍获得该赛题在感知指标上的冠军奖项。

(王一晴、贺晶、张柯欣)
冠军方案:参赛队伍以频率增强网络(FrENet)为核心框架,适配RAW去噪任务进行优化。编码器通过多级FrEBlock,融合FACM频率处理模块与FFN空间增强模块提取频域特征;解码器借助跳跃连接补充细节并恢复分辨率,最终输出去噪RAW图像。针对赛题模型参数量和计算量的要求,微调AFPM模块以在适配噪声分布的同时优化网络深度满足模型约束。同时,针对超大尺寸测试图像,采用线性插值裁剪—推理—拼接策略,缓解传统拼接的“块效应”,既适配大尺寸处理需求,又避免推理时显存溢出。该方案突破了RAW图像去噪领域“真实场景泛化难”与“超大尺寸图像推理适配性差”两大核心痛点,验证了频域处理技术与线性插值裁剪拼接策略的有效性,为专业影像处理等真实场景RAW图像噪声抑制提供了可落地方案。
竞赛五 “ICCV 2025 多模态不一致推理挑战赛”聚焦多模态语义不一致性推理任务,旨在评估模型在复杂视觉-文本内容中识别与定位语义冲突的能力。参赛者需针对网页、演示文稿、海报等真实布局型多模态文档,检测并选出存在语义不一致的元素。该挑战所用数据集包含534个样本,覆盖五类典型不一致类型。模型需在多选题设定下,从候选元素中精确选出不一致项。该挑战旨在推动多模态大模型向更强的语义一致性理解与错误感知推理方向发展,为构建鲁棒、可信的多模态模型奠定基础。该竞赛由加州大学的Xin Eric Wang副教授和Jackie等人举办。由2024级硕士研究生“贺晶、王一晴”和马梦茹博士组成的队伍获得该赛题冠军,由2025级硕士研究生“李正阳、杜政霖、文怡”组成的学生队伍获得该赛题亚军奖项。

(贺晶、王一晴、马梦茹)

(李正阳、杜政霖、文怡)
冠军方案:针对挑战中多模态语义不一致性推理的需求,队伍提出基于多模态大语言模型Qwen2.5-VL-32B的增强型推理方案。该方案以结构化提示设计为核心,通过构建具备显式逻辑约束与层级语义指令的推理模板,定义并区分多种语义不一致类型,包括事实矛盾、身份误指、语境错配等,引导模型在复杂多模态输入中实现跨模态特征聚合、语义一致性建模与逻辑链式推理。该方案有效解决了多模态大模型在复杂布局文档中易出现的语义偏差与不稳定输出问题,显著提升大模型在复杂版面布局场景下的上下文解析与跨域语义对齐能力。
竞赛六 “ICCV 2025 SF20K竞赛”致力于推进故事级视频理解技术发展,聚焦复杂、长时推理的开放式问答任务。赛事基于SF20K数据集展开,该数据集包含超 20143 部时长5-40分钟(平均约11分钟)的短片,涵盖喜剧、恐怖、科幻等多类型,支持英语、西班牙语等多种语言。测试阶段采用人工精心打造的问答对,用于检验模型对视频内容的长时推理与多模态理解能力。竞赛设置主赛道(无模型规模限制)和特殊赛道(模型参数小于80亿),由英国皇家学会研究教授Andrew Zisserman,以及谷歌人工智能研究院的高级研究科学家Arsha Nagrani 等人联合主办。由2025级硕士研究生“廖朝阳、周晓鹏、宋智龙”组成的学生队伍在该竞赛的主赛道获得亚军奖项。

(廖朝阳、周晓鹏、宋智龙)
亚军方案:队伍整体方案围绕长视频时序信息的高效建模与多模态信息的精确对齐展开,旨在突破长视频理解的关键难题。在数据处理阶段,针对 SF20K 数据集中长视频时长较长、冗余帧较多的特点,队伍设计了智能关键帧提取机制,以保留语义转折和事件变化的关键时刻。在推理阶段,方案通过预定义提示模板融合视觉帧与字幕信息,构建出针对具体问题的上下文提示,从而帮助模型充分理解视频内容及其语言语境,实现跨模态信息的高效整合与对齐。该方案有效缓解了长视频理解中时序信息利用不足和多模态融合困难等技术瓶颈,显著提升了模型在复杂叙事场景下的问答准确率,为故事级长视频理解提供了一条可行且高效的技术路径。
竞赛七 “AIM 2025激流分割挑战赛”聚焦离岸流分割这一关键课题,旨在通过计算机视觉技术实现对离岸流的精准识别与分割,为海滩监测、海洋安全预警提供技术支撑。离岸流场景复杂多变,需应对不同光源、天气、海域环境下的影像差异,对模型的泛化能力与分割精度提出极高要求。赛事提供的数据集涵盖多来源图像与视频,为算法研发提供了丰富素材。如何基于该数据集提升模型对复杂场景的适应性,成为各参赛团队突破的核心方向。由2025级硕士研究生“罗蒲、李玉梅、许琮”组成的队伍获得该赛题的季军奖项。

(罗蒲、李玉梅、许琮)
季军方案:针对复杂海洋场景下的离岸流识别难题,队伍提出从数据增强、模型协同到结果融合的全流程优化方案。在数据层面,采用“基础增强 + 进阶增强”策略:前者通过旋转、缩放等传统操作提升泛化能力,后者引入 Simple Copy-Paste 方法,利用预训练模型筛选空白背景并随机粘贴不超过三个离岸流实例,以增强数据多样性与场景复杂度。在模型层面,构建 SparseInst–RTMDet 双模型协同框架:SparseInst 基于 PVTv2-B2-li 主干捕捉细粒度特征,RTMDet 在 RTMDet-Ins-x 预训练基础上进行多尺度微调并引入动态学习率机制以保证稳定收敛。结果融合阶段采用 IoU 与 Dice 系数双指标筛选高置信度结果,降低单模型偏差。该方案有效提升了离岸流识别精度,为海洋安全预警与生态保护提供了可靠的技术基础。
竞赛八 “ICCV 2025 CLVL - 三维视觉与语言挑战赛”聚焦于3D场景中的参考多目标视觉定位任务,要求参赛者根据自然语言描述,在复杂三维环境中准确识别并定位对应的目标对象。该挑战旨在推动视觉与语言跨模态理解的融合,检验模型在参考语言下的多目标复杂场景推理能力。赛题数据为 Multi3DRefer 与 ViGiL3D 两个公开数据集,其中 Multi3DRefer为单个文本与多个3D目标的关联理解,ViGiL3D主要强调语言表达的多样性与复杂语义解析。该竞赛由西蒙弗雷泽大学的副教授Angel Chang和Yiming Zhang等人举办。由2024级硕士研究生“贺晶、王一晴”和孙龙博士组成的队伍获得该赛题冠军奖项,由2025级硕士研究生“赵振宇、唐颖、曹宇思”组成的学生队伍获得该赛题亚军奖项,由2025级硕士研究生“胡进、刘彪、徐金阳”组成的学生队伍获得该赛题季军奖项。

(贺晶、王一晴、孙龙)

(赵振宇、唐颖、曹宇思)
冠军方案:针对3D视觉语言挑战中多目标视觉定位的复杂场景,队伍提出置信度阈值优化与跨模态特征增强3D理解方案。该方案以 Multi3DRefer为基础模型,将原有视觉主干替换为跨模态预训练模型CLIP ViT-L/14,以增强语言特征与三维视觉特征间的对齐能力。推理阶段采用置信度自适应过滤与提议限制策略,兼顾召回率与精度。该方案有效缓解了复杂场景下参考多目标视觉定位中低置信度预测与语义对齐不足的问题,显著增强了目标定位的准确性与语言理解的稳定性,在复杂三维环境中展现出优异的鲁棒性与泛化能力。
竞赛九 “ICCV 2025 儿童启发式视觉类比挑战赛”受到关于儿童如何理解世界的发展研究的启发,聚焦于视觉空间推理,旨在评估模型理解并应用图像对于抽象视觉变换的能力。赛事提供2752张带完整注释的训练集图片,所有数据包含旋转、反射、调整大小、计数等多种转换方式,构建了三种难度级别的视觉类比推理数据集。该竞赛由隶属于加州大学伯克利分校和Google DeepMind的研究人员举办。由2025级硕士研究生“文怡、杜政霖、李正阳”组成的学生队伍获得该赛题季军奖项。
季军方案:参赛队伍依托Qwen2.5-VL-7B多模态大模型,从数据增强、模型架构设计、语义融合机制与高效微调等多个层面入手,构建了具备强泛化与高解释性的视觉–语言联合推理框架。首先在数据层面,针对原始数据集中样本分布不均与长尾问题,队伍设计了多样化数据增强机制。其次在模型架构设计上,方案基于Qwen2.5-VL-7B的视觉–语言融合能力,采用统一的跨模态注意力机制实现图像语义特征与文本概念信息的深度耦合。队伍创新性地引入了概念–答案融合策略,在模型生成过程中将概念理解与推理结果联合建模,从而实现视觉语义认知与语言逻辑推理的双向增强。最后队伍采用参数高效微调技术,多轮微调实验表明,该方法能有效捕捉视觉变化模式并强化模型的类比推理能力。该方案在多模态视觉类比推理中缓解了视觉特征与语义信息对齐不充分的问题,实现了一种基于语义融合与跨模态注意力的视觉–语言推理解决方案。
西安电子科技大学人工智能学院焦李成院士团队在遥感领域深耕三十余载,积累了扎实的理论基础与丰富的实践经验,并在计算机视觉与遥感领域的多项顶级国际会议上取得了系列重要突破。团队长期指导学生参与国内外高水平专业竞赛,屡创佳绩。针对计算机视觉与模式识别领域的前沿挑战,团队提出了一系列创新解决方案,在关键技术层面实现了突破性进展。与此同时,通过“以赛促学”的培养机制,学生得以在实践中快速提升科研素养、加强学术交流能力,这也是学院创新人才培养体系中的重要一环。该模式不仅帮助学生深入掌握领域知识、激发科研热情,更有效锻炼了团队协作精神与攻坚克难的综合素质。近年来,在IGARSS、CVPR、ICCV、ECCV等国际顶级赛事中,团队指导学生累计获得百余项冠、亚、季军奖项,展现了卓越的人才培养成效与学科建设水平。

2024级硕士研究生合照

2025级硕士研究生合照
通讯员(张柯欣、杨育婷、马梦茹、黄思婧、张丹)