逐梦前沿|智能学子荣获CVPR 2025国际竞赛16项冠亚季军

作者:时间:2025-06-13点击数:

2025 IEEE国际计算机视觉与模式识别会议(IEEE Conference on Computer Vision and Pattern Recognition, CVPR)于今年6月11日至6月15日在美国田纳西州纳什维尔进行。作为计算机视觉领域的年度顶级学术盛会,本届会议吸引了全球研究者的广泛关注,多项竞赛大奖也在紧张激烈的学术氛围中揭晓。西安电子科技大学人工智能学院参赛队伍在欧洲科学院院士焦李成教授、刘芳教授、马文萍教授、杨淑媛教授、李玲玲副教授、刘旭副教授、陈璞花副教授、李硕博士、杨育婷博士、孙龙博士和马梦茹博士以及团队博士生张柯欣、路小强、赵嘉璇等共同指导下,在CVPR2025赛事中已斩获16项冠亚季军奖(6冠6亚4季)。团队针对图像分类与识别、视频理解和跨模态检索等挑战提出了一系列创新性的解决方案。获奖队伍均收到竞赛主办方的邀请,在大会研讨会上分享展示获奖方案。本次竞赛由国家自然科学基金重点、联合项目,教育部创新团队,国家学科创新引智基地等项目支持。

01

竞赛一 “CVPR 2025 农业视觉奖挑战赛: 农业模式解析"聚焦于基于遥感航拍影像数据,研发高效且鲁棒的农业模式解析算法,实现对干旱、洪涝、营养不良、多株竞争、杂草等8 类农作物受灾类型的精准检测。赛事提供超 90K 密集标注样本与100K + 原始样本,所有数据均包含配对的光学与红外模态信息,构建了跨光谱、多尺度的农业场景数据集。挑战鼓励探索半监督学习与多模态学习在可持续农业实践中的开创性应用。该竞赛由蓝河科技的ML总监Chris Padwick和伊利诺伊大学的Naira Hovakimyan教授等人联合主办。由博士研究生“路小强”和2023级硕士研究生“车晨悦、刘欣雨”组成的学生队伍获得该赛题冠军;由2023级硕士研究生“祖岩岩、柴金铭、张延昭”组成的学生队伍获得同赛题季军。

冠军方案:参赛队伍依托焦李成院士团队自主研发的“悟瞳”遥感多任务基础模型框架,从数据处理、模型设计、知识嵌入与高效训练等多个层面系统实验先进算法并提出自研方案。首先在数据端,“悟瞳” 针对数据集中长尾分布问题引入类自适应重均衡采样策略,根据结构特点提议适配优化损失。其次,在模型架构设计上,“悟瞳”提供灵活的 Encoder-Decoder 模型组合能力。团队采用统一的孪生多模态编码器,对异构模态数据进行联合建模与特征融合,随后分别引入卷积解码器、Transformer 解码器与 Mamba 解码器,实现对多模态特征的语义解码与上下文互补。随后,“悟瞳”在设计好的模型上进行大规模的半监督多模态预训练学习,构建具备广泛农业场景理解能力的基础模型。最后,团队采用参数高效微调技术,结合轻量级多尺度混合专家模块,实现了灾害场景下的细粒度知识迁移与识别,取得了本届大赛最优性能。该方案突破了遥感大场景下的稀疏目标多粒度识别挑战难点,实现了复杂农业灾害监测领域下的可扩展化智能解决方案。

“悟瞳”遥感基础模型识别结果展示

农业作为国家发展的根基,遥感技术正逐步成为推动农业信息化、智能化转型的核心驱动力。西电团队在CVPR 2025 Agriculture-Vision大赛中的优异表现,充分验证了 “悟瞳” 遥感基础模型在农业灾害检测、农情监测、精准农业等方向上的实际落地效能与应用潜力。未来,“悟瞳”将进一步完善农业、城市管理、环境监测、自然灾害预警等场景的全链条、高精度的智能解译服务,助力智慧遥感技术发展。

02

竞赛二 “CVPR 2025 VizWiz 零样本图像分类挑战”聚焦于提升图像分类模型在零样本场景下的泛化能力,要求模型在面对由盲人拍摄的、视角独特且质量多变的VizWiz数据集时,仍能准确识别200个目标类别。核心挑战在于克服数据稀缺性、图像质量差以及非常规拍摄视角带来的巨大语义鸿沟。该竞赛由科罗拉多大学博尔德分校的Reza Akbarian Bafghi博士、Danna Gurari教授等人联合主办。由2024级硕士研究生“杨蘅、卢连平”和杨育婷博士组成的参赛队伍获得该赛题冠军。

冠军方案:队伍深入分析发现,DFNSB-CLIP模型擅长细粒度语义解析,能通过多模板提示显著增强文本特征表达;而SigLIP-v1模型在处理模糊、低质量图像方面具有突出的抗噪能力。基于两者的互补优势,队伍提出了一种融合异构文本-视觉大模型的解决方案。具体而言,该方案采用动态权重投票策略,实现两模型间的优势互补;通过特征空间对齐机制,缓解图像质量差异带来的语义偏移;同时引入基于温度缩放的对数融合方法,以优化模型输出的置信度分布。最终,该方案在VizWiz测试集上取得了 67.48% 的准确率,较官方基线显著提升 24.63%。该方案有效应对了语义偏移、数据稀缺性及图像质量劣化等关键挑战,充分展示了其在应对真实盲人拍摄图像任务中的强大能力和实际应用潜力。

03

竞赛三 “CVPR 2025 复杂场景视频目标分割挑战(MOSE)”聚焦于视频场景下的像素级场景理解问题,旨在推动模型对动态视觉内容中像素级目标类别、掩码及语义的精准识别。该赛道以MOSE数据集为基础,其包含2,149个视频片段、36个类别的5,200个对象及431,725个高质量对象分割蒙版。赛道通过模拟真实动态视觉环境,着重考察模型在连续帧中处理遮挡、消失-重现等复杂情况的鲁棒性,为视频分割技术向实际应用场景的迁移提供关键验证平台。该竞赛由复旦大学的丁恒辉教授和META AI的Nikhila Ravi博士等共同主办。由2024级硕士研究生“宋克欢、谢兴霖”和孙龙博士组成的参赛队伍获得该赛题冠军;由2024级硕士研究生“赵霖楠、曹旭强”组成的参赛队伍获得该赛题亚军;由博士研究生“王梦娇、张君沛”组成的参赛队伍获得该赛题季军。

冠军方案:队伍在深入分析数据集后发现,单一模型难以在复杂多变的场景中持续保持优异性能。为此,队伍构建了自适应伪标签引导的模型优化流程(Adaptive Pseudo-labels Guided Model Refinement Pipeline, PGMR),并针对 MOSE 数据集对 SAM2 以及无监督模型 TMO 进行了定向微调。具体技术路线包括:首先通过多模型对视频进行独立推理,融合多个模型的输出生成全局伪标签;在推理阶段引入 PGMR 流程,为每个视频动态选择最优模型。该方案有效突破了单一模型在全场景适配性不足以及多模型协同效率低的技术瓶颈,显著提升了复杂视频分割与目标跟踪任务的处理精度。

04

竞赛四 “CVPR 2025 EPIC-KITCHENS-100 多实例检索挑战”聚焦于跨模态检索技术,旨在评估视频与文本之间的语义关联建模能力,包含视频检索文本(V→T)和文本检索视频(T→V)两项核心任务。赛事基于EPIC-Kitchens-100数据集展开,该数据集收录约70,000个第一人称视角视频片段,每个片段均配备简短英文语义描述。比赛要求模型在完全禁止利用测试集已知配对关系的条件下,实现跨模态实例的精准匹配。评估体系采用平均准确率(mAP)与归一化折损累积增益(nDCG)双指标,最终成绩为两项任务在上述指标上的均值,以全面衡量模型的跨模态检索鲁棒性。该竞赛由布里斯托大学和卡塔尼亚大学的计算机视觉研究团队联合主办。由2024级硕士研究生“贺晶、王一晴”和马梦茹博士组成的参赛队伍获得该赛题冠军。

冠军方案:队伍提出了基于双编码器架构 AVION 的多模态模型 ContextRefine-CLIP(CR-CLIP),通过设计跨模态注意力流模块,实现视觉与文本特征间的双向动态交互与上下文感知增强,有效缓解了相似性计算前模态间上下文对齐不足的问题。同时,引入 EPIC-KITCHENS-100 数据集中构建的软标签相关矩阵,并结合对称多相似度损失,进一步提升了语义对齐的精度。该方案在不依赖集成学习的情况下,成功突破多模态检索中上下文对齐难的技术瓶颈,在 EPIC-KITCHENS-100 测试集上实现了 66.78% 的 mAP 和 82.08% 的 nDCG,展现出优异的性能表现。

05

竞赛五 “CVPR 2025 EPIC-SOUNDS 基于音频的交互检测挑战”聚焦于音频驱动的动作实例预测任务,要求模型基于给定视频输出所有音频关联动作的完整信息,包括动作开始时间、结束时间及类别。核心挑战在于音频信号中长时依赖关系的高复杂度建模,以及传统方法对动作时序因果关系捕捉的局限性,这导致长视频场景下音频交互行为的定位与分类精度难以提升。赛事采用的EPIC-SOUNDS数据集基于EPIC-Kitchens100数据集扩展构建,包含7.9万条音频标注,覆盖44个交互类别及223种自由形式描述。数据源自全球4个城市45个厨房的第一人称视角视频,原始素材累计时长达100小时,构建了跨地域、多场景的真实厨房音频交互场景。该竞赛由布里斯托大学和卡塔尼亚大学的计算机视觉研究团队联合主办。由2024级硕士研究生“尉思琪、卢艺辰”和博士研究生“赵嘉璇”组成的参赛队伍获得该赛题冠军。

冠军方案:队伍以 CausalTAD 为基线模型,采用预训练的 Auditory-SlowFast 网络提取高语义视频特征,并通过滑动窗口将未裁剪视频划分为短片段,结合时空平均池化生成密集特征表示。在此基础上,构建融合因果注意力与因果 Mamba 模块的混合因果建模模块。其中,因果 Mamba 模块基于结构化状态空间模型,采用双向 Mamba 架构以捕捉长距离时序依赖;因果注意力模块则利用双向多头自注意力机制,显式建模全局长时依赖与因果关系。两类模块的输出经拼接后通过线性层降维,用于最终事件检测。该方案有效突破了传统方法在长时音频序列中因果关系建模能力有限的瓶颈,在 EPIC-SOUNDS 数据集上实现了 14.87% 的平均 mAP,显著提升了模型对音频交互行为的时序建模与理解能力。

06

竞赛六 “CVPR 2025 EPIC-SOUNDS 基于音频的交互识别挑战”聚焦于日常厨房场景中的音频交互理解,要求模型基于 EPIC-KITCHENS-100 数据集,对物体间交互或佩戴摄像头者活动产生的音频信号进行分类,涵盖人与物体、物体与物体之间的多元交互类型。赛事以Top-1 准确率为核心评估指标,通过构建包含复杂环境噪声、多源交互音频的真实场景数据,着重考察模型对时序音频特征的语义解析能力。该竞赛由布里斯托大学和卡塔尼亚大学的计算机视觉研究团队联合主办。由2024级硕士研究生“谢兴霖、宋克欢”和“贺晶、王一晴”组成的参赛队伍分别获得该赛题冠军与亚军。

冠军方案:队伍提出了一种融合AudioInceptionNeXt 精细化调参能力与 UniRepLKNet 大核建模能力的创新方案。通过设计并行多分支的深度可分离卷积结构,实现对音频信号中长时全局语义与短时局部细节的解耦建模;其中,AudioInceptionNeXt 采用倒置瓶颈结构,在提升特征表达能力的同时,有效降低大卷积核带来的计算与内存开销。方案进一步引入动态权重分配策略,跨模型集成多种结构的特征优势,从而更精准地学习音频样本与其对应动作标签之间的映射关系。该方案有效突破了传统音频分类模型在复杂场景下的泛化性能瓶颈,显著提升了音频交互行为的时序建模精度,为多模态环境感知提供了关键技术支撑。

07

竞赛七 “CVPR-SoccerNet 2025 多视角犯规识别挑战”聚焦于自动化视频助理裁判系统(VARS)的研发,旨在通过多视角视频分析技术解决足球裁判短缺和传统 VAR 成本高的问题。赛事要求对多视角足球视频进行多任务分类,包括判断是否犯规及严重程度、识别具体犯规动作类型,并基于专业裁判标注的 SoccerNet-MVFoul 数据集(含双标签标注体系)开发智能系统,以支持或取代传统 VAR。该挑战赛推动自动化裁判技术发展,力求将职业联赛级判罚能力扩展至更广泛赛事,提升足球比赛的公平性与可及性,同时为智能体育裁判领域的技术创新提供重要实践平台。该竞赛由丹麦奥尔堡大学的Rikke Gade教授、Thomas Moeslund教授,以及英国BBC的Graham Thomas等人联合主办。由2024级硕士研究生“张超、林家栋”和博士研究生“张柯欣”组成的参赛队伍获得该赛题亚军。

亚军方案:为满足挑战赛对多视角足球视频中犯规动作严重程度及具体类型的同步分类需求,队伍提出多视角特征融合网络(MVFN)。该架构以ViT-L作为视频特征提取主干,加载预训练视频基础模型权重以增强特征表达能力。通过对多视角数据集的深入分析,发现训练集中存在显著的类别分布不均衡问题。针对该长尾分布,优化了损失函数设计以提升模型对稀疏类别的识别效果。针对不同视频样本视角数量差异带来的融合架构设计复杂性,创新设计了自适应混合池化多视角融合模块。该方案有效突破了多视角视频长尾分布和特征融合两大核心难题,显著提升了多视图视频多任务分类的训练效率和性能表现。

08

竞赛八 “CVPR 2025 CVDD 细胞系迁移能力挑战” 聚焦于细胞系研究领域的核心难题 ——数据跨条件迁移能力,旨在解决因细胞系来源、实验处理差异导致的模型泛化瓶颈。赛事通过提供包含多源实验条件的细胞特征数据集,要求参赛者构建能够精准捕捉细胞系数据共性特征与特异性模式的模型,实现跨细胞系的数据高效迁移与表型预测。该竞赛由Ardigen SA的Adriana Borowa博士等人联合主办。由2024级硕士研究生“卢艺辰、尉思琪”组成的学生队伍获得该赛题亚军。

亚军方案:队伍以 DeepProfiler 为基线,构建多尺度特征金字塔网络,结合空洞卷积与跨层融合策略,有效捕捉细胞的细微结构与多层次特征。采用条件归一化层中的实例条件编码机制动态调整网络参数,适应不同细胞系的数据分布;同时引入迁移对齐损失,结合跨域特征正交约束与对比学习,强化特征判别能力。相比于 CellProfiler 的手工特征、ResNet-50 在域适应上的不足及 EfficientNet-B4 特征解耦能力有限,该方案实现了自动特征学习和显式域差异建模,突破了细胞系数据跨域迁移瓶颈。

09

竞赛九 “CVPR 2025 时空实例分割挑战”赛聚焦于事件视觉与传统图像融合的前沿领域,基于 MouseSIS 数据集开展时空实例分割任务。参赛者需构建跨模态模型,融合图像帧的空间细节信息(如物体外观、纹理)与事件流的时间动态特性(如像素级运动变化),实现掩码级别的多实例跟踪。赛事要求模型在复杂场景中精准捕捉实例的时空演化轨迹,尤其针对快速运动、低光照等传统视觉难题,通过多模态信息互补提升分割与跟踪精度。该竞赛由美国宾夕法尼亚大学的Kostas Daniilidis教授等人联合主办。由2024级硕士研究生“贺晶、王一晴”组成的学生队伍获得该赛题亚军。

亚军方案:队伍基于ModelMixSort进行了针对性改进,旨在提升小鼠时空实例分割任务中的跟踪与分割性能。具体措施包括将检测器由YOLOv8升级至性能更优的YOLOv12,替换原始SAM为SAM2以增强特征提取能力。在预处理阶段对灰度帧进行对比度增强,推理阶段引入旋转与翻转等测试时增强策略,以提升模型的鲁棒性与泛化能力。该方案突破了传统方法在小鼠时空实例分割中的性能瓶颈,在MouseSIS测试集上实现了HOTA 56.96%、MOTA 68.89%、IDF1 74.86%的优异成绩,显著提升了小鼠的跟踪稳定性与分割精度。

10

竞赛十 “CVPR-NTIRE 2025 真实场景单图像反射去除挑战”由 OPPO AI 中心主办,聚焦于解决真实世界中单幅图像的反射干扰问题,旨在推动图像恢复技术从学术研究向工业应用的转化。赛事要求参赛者针对包含多种反射强度与复杂场景的真实图像数据,开发并评估高效的反射去除算法。主办方不仅提供了高质量的实拍数据集及多维度评估指标(如结构相似性 SSIM、峰值信噪比 PSNR 等),更搭建了工业界与学术界协同攻关的平台,力求弥合实验室算法与实际摄影场景的性能差距。该竞赛由OPPO AI 中心和维尔茨堡大学联合主办。由2024级硕士研究生“贺晶、王一晴”组成的参赛队伍获得该赛题季军。

季军方案:队伍基于 Reversible Decoupling Network(RDNet)改进单幅图像反射去除方法。RDNet 通过多列可逆编码器、传输率感知提示生成器及层次解码器,实现传输层与反射层特征的灵活分离与动态校准,有效保留高层语义信息并打破传统固定层间交互模式。针对卷积网络对长距离依赖捕捉能力不足的问题,队伍引入增强混合注意力机制,结合通道与空间注意力,并通过可学习门控进行融合,兼顾局部细节保留与全局上下文理解,显著提升反射区域的精准定位与去除效果。该方案有效平衡了长距离依赖建模与细节保留,显著增强了模型对反射区域的感知与去除能力。

11

竞赛十一 “CVPR 2025 EPIC-KITCHENS VISOR 半监督视频对象分割(VOS)挑战”聚焦于厨房场景下的动态目标分割任务,要求模型基于 EPIC-Kitchen VISOR 数据集,对视频子序列首帧标注的M 个对象进行跨帧连续分割。任务允许目标在视频中经历遮挡、消失及重现等复杂情形,但需严格排除初始帧未出现的对象干扰。评估采用 DAVIS 标准协议,通过杰卡德系数(J)与边界 F 值(F)双指标,量化模型在未见厨房场景中的泛化能力,重点考察其对目标时序一致性的追踪能力、遮挡场景下的语义推理能力,以及动态背景中的对象区分能力。该竞赛由布里斯托大学和卡塔尼亚大学的计算机视觉研究团队联合主办。由2024级硕士研究生“王一晴、贺晶”和“谢兴霖、宋克欢”组成的学生队伍分别获得该赛题亚军与季军。

亚军方案:队伍基于SAM2模型,借助流式记忆架构和大规模数据驱动,攻克时空维度交互式视觉分割难题。通过MAE预训练的分层图像编码器、记忆注意力模块及带遮挡预测头的掩码解码器,实现多尺度特征解码与跨帧优化。记忆机制采用FIFO队列管理历史帧信息,支持单帧提示生成全视频掩码序列。队伍将EPIC-KITCHENS VISOR数据集转换为DAVIS格式并切分子序列,针对四种尺度配置完成零样本推理(J&F-Mean超75%),并分阶段微调模型,调整学习率、训练策略及FPN插值策略,最终在测试集上实现J&F-Mean 87.5%。该方案有效解决了视频对象分割中的跨帧时空一致性问题,显著提升了模型在对象遮挡、变形及重现等复杂场景下精准追踪初始帧标注对象并排除无关干扰的能力。

西安电子科技大学人工智能学院焦李成院士团队在遥感领域拥有超过30年的经验积累,并在计算机视觉与遥感领域顶级国际会议上取得了卓越成就。团队带领智能学子在各种专业竞赛中屡获佳绩。针对计算机视觉与模式识别领域的多项挑战,团队提出了一系列创新性的解决方案并取得了突破性进展。同时,通过参与学术竞赛,学生们快速提升了科研能力,加强了学术交流,这也是人工智能学院人才培养的重要措施之一。"赛中学"不仅帮助学生快速掌握相关领域的知识,提高了他们从事科研工作的动力,培养了学生的组织协作能力和抗压能力。在过去几年的IGARSS、CVPR、ICCV、ECCV等国际赛事中,团队已经累计斩获百余项国际冠亚季军奖项,取得了显著的人才培养成果。

西安电子科技大学 智能感知与图像理解教育部重点实验室   版权所有   技术支持:西安聚力