IPIU实验室9篇论文被ACM MM 2024、SIGKDD 2024录用

作者:时间:2024-07-19点击数:

近日,第32届ACM国际多媒体会议(Proceedings of the 32nd ACM International Conference on Multimedia,ACM MM 2024)、第30届国际知识发现与数据挖掘大会 (ACM SIGKDD Conference on Knowledge Discovery and Data Mining,SIGKDD 2024)录用结果公示,据悉,ACM MM 2024、SIGKDD 2024论文录用率均约为20%。实验室共有8篇论文被ACM MM录用,1篇论文被SIGKDD录用,第一作者分别是博士生何佩(导师:焦李成教授),缑水平教授,博士生臧琪、杨瑞及硕士生廖宇(导师:王爽教授),硕士生许文鑫(导师:梁雪峰教授),博士生黄一珀、硕士生杨智超(导师:李雷达教授),博士生沙毓(导师:缑水平教授)。论文简要介绍如下:

ACM MM 2024录用论文

论文一

论文题目:Domain Generalization-Aware Uncertainty Introspective Learning for 3D Point Clouds Segmentation

论文作者:何佩,焦李成,李玲玲,刘旭,刘芳,马文萍,杨淑媛,尚荣华

论文概述:在三维点云分割中,点云数据的分布可能因传感器类型、场景变化等因素而显著不同。域泛化三维分割旨在提升模型在不同数据分布下的泛化性,使其能够在未知域中保持良好的性能。特征增强方法已被证明可以有效提高域泛化。然而,点云信息收集偏差使三维目标域场景中的每个点都包含不确定性,这影响了模型的泛化。为了解决这一问题,本文提出了领域泛化感知不确定性内省学习,包括潜在不确定性建模(PUM)和动量内省学习(MIL),以处理域偏移中的点不确定性。PUM探索了潜在的不确定点云特征,并为每个点生成不同的分布。PUM在自适应范围内增强点特征,为模拟目标域分布提供了多样化信息。MIL学习不确定分布中的泛化特征表示,利用不确定性相关表示衡量知识积累的预测差异,并通过不确定性自省损失仔细判断和理解这种差异。实验结果表明,该方法在处理具有未知分布的点云数据时表现出了显著的优势。

论文二

论文题目:Interpretable Matching of Optical-SAR Image via Dynamically Conditioned Diffusion Models

论文作者:缑水平,王鑫,王新林(通讯作者),陈云志

作者单位:西安电子科技大学,杭州职业技术学院

论文概述:作者提出了一种基于条件扩散模型的光学-合成孔径雷达图像匹配框架,该算法在低维隐空间中进行跨模态图像翻译与像素级匹配,实现了光学-合成孔径雷达跨模态图像的可解释性和鲁棒性匹配。设计了一种具有门控的动态稀疏交互注意力模块,以促进跨模态信息在多粒度特征下的高效长程交互和加速去噪过程,同时滤除了离群匹配区域带来的负面影响。此外,设计了空间位置一致性约束,促进交互注意力感知不同模态下的空间对应关系,提高匹配精度。在三个匹配数据集上的进行了广泛实验,试验结果表明该方法比现有方法具有更高的正确匹配率和可解释性。

论文三

论文题目:Generalized Source-free Domain-adaptive Segmentation via Reliable Knowledge Propagation

论文作者:臧琪,王爽(通讯作者),赵栋,胡杨,权豆,焦李成,Nicu Sebe,钟准

论文概述:不可预见的域偏移会严重降低模型性能,这就需要使用模型自适应技术(即无源域自适应(SFDA)),在无需访问源数据的情况下将模型适应于新领域。然而,现有的SFDA方法通常会牺牲源域的性能来提升目标域的适应性,从而限制了模型整体的能力。在本文中,我们专注于语义分割中更具挑战性的范式——广义SFDA(G-SFDA),旨在实现源域和目标域的稳健性能。为此,我们提出了一个新颖的G-SFDA框架——可靠知识传播(RKP),用于语义分割任务,该框架利用文本到图像扩散模型从分割模型中传播可靠的语义知识。RKP的关键在于将预测出的可靠但分散的片段聚合成完整的语义布局,并使用它们激活扩散模型进行条件生成。随后,可以合成具有多域因子的多样图像,以重新训练分割模型。这使得分割模型能够在多个域中学习域不变知识,提高其对目标域的适应性,同时保持对源域的区分能力,甚至能够处理未见域。我们的模型无关的RKP框架在当前SFDA分割基准上建立了新的最先进水平,显著促进了各种SFDA方法性能。

论文四

论文题目:Accurate and Lightweight Learning for Specific Domain Image-Text Retrieval

论文作者:杨瑞,王爽(通讯作者),陶建伟,韩迎萍,林俏伶,郭岩河,侯彪,焦李成

论文概述:本文主要研究了遥感图像-文本检索和文本-图像行人重识别等特定领域的多模态检索。为了解决现有方法存在的模态级分布一致性弱和测试过程冗余数据流的问题,我们提出了一种针对特定领域的图像文本检索的精确和轻量级学习新框架。该框架不仅提高了特定领域的跨模态检索性能,而且显著降低了测试过程中的计算负荷。理论分析和广泛的实验证明了所提出方法的有效性。

论文五

论文题目:Selection and Reconstruction of Key Locals: A Novel Specific Domain Image-Text Retrieval Method

论文作者:廖宇,章鑫锋,杨瑞,陶建伟,刘柏,胡志鹏,王爽(通讯作者),赵增(通讯作者)

论文概述:本文通过探索视觉语言预训练模型在特定领域图像-文本检索任务中的应用,如文本-图像行人再识别和遥感图像文本检索,研究了特定领域图像-文本检索任务中的局部特征利用问题。主要贡献在于提出了利用有判别性的细粒度局部信息来改善共享空间中图像和文本对齐。所设计的显式关键局部信息选择和重建框架和基于多模态交互的关键局部段重构策略有效的利用了有判别性的细粒度局部信息,从而优化了共享空间中图像和文本对齐。广泛和充分的实验证明了所提出策略的先进性和有效性。

论文六

论文题目:Leveraging Knowledge of Modality Experts for Incomplete Multimodal Learning

论文作者:许文鑫,江河欣,梁雪峰(通讯作者)

论文概述:多模态情感识别模型在实际应用中由于传感器损坏或隐私保护导致部分模态缺失或不可用时性能下降明显。现有的解决方法侧重于学习跨模态的一致的联合表征,然而,作者的研究表明,这类方法往往忽视了对含有模态特定知识的单模态表征的学习,在只有一个模态可用的严重模态场景下依然表现不佳。对此,作者提出了混合模态知识专家(MoMKE)新框架,该框架采用两阶段训练。在单模态专家训练阶段,每个专家从对应的模态中学习单模态知识。在专家混合训练阶段,MoMKE通过利用所有模态专家的知识,学习模态缺失场景下的单模态和联合表征。作者还设计了一个软路由器,可以通过动态融合单模态表征和联合表征来丰富模态表征。在三个基准数据集的各个模拟模态缺失场景上的实验上,MoMKE显著超过了先前最好的方法,在严重模态缺失场景下的提升尤其明显。论文的可视化分析进一步揭示了模态缺失场景下单模态表征和联合表征各自的作用。

论文七

论文题目:AesExpert: Towards Multi-modality Foundation Model for Image Aesthetics Perception

论文作者:黄一珀,盛祥非,杨智超,袁权,段志超,陈鹏飞,李雷达(通讯作者),林维斯,石光明

论文概述:图像美学感知的高度抽象性对当前的多模态大语言模型(MLLM)提出了重大挑战。缺乏人工注释的多模态美学数据进一步加剧了这一困境,导致MLLM的美学感知能力不足。为了解决该挑战,作者率先构建了一个全面注释的美学多模态指令微调数据集(AesMMIT),作为构建多模态美学大模型的基石。该数据集包含两万余张不同风格的多源图像和人类自然语言美学反馈,这些反馈涵盖粗粒度的美学等级和细粒度的美学描述。为了确保MLLM能够满足日常交互需求,作者进一步提出了GPT辅助的指令完善策略,并最终构建了包含40余万条美学调优指令的大规模数据集,从而激活更强大的美学感知能力。在该数据库的基础上,作者对开源的通用基础模型进行了指令调优,获得了多模态美学专家模型(AesExpert)。大量实验表明,作者提出AesExpert在图像美学感知方面明显优于现有的相关模型,包括GPT-4V和Gemini Pro Vision。

论文八

论文题目:Semantics-Aware Image Aesthetics Assessment using Tag Matching and Contrastive Ranking

论文作者:杨智超,李雷达(通讯作者),陈鹏飞,吴金建,董伟生

论文概述:针对图像美学质量评价(Image Aesthetics Assessment, IAA)中语义背景多样化带来的挑战,作者提出一种基于语义感知的图像美学评估方法(TMCR),从美学属性和审美层次两个角度对图像之间的审美差异进行建模。具体而言,提出了标签匹配和对比排序两种策略来提取与图像美学相关的知识。标签匹配基于预定义的标签库识别语义类别和主要审美属性,对比排序旨在揭示不同审美水平但语义背景相似的图像之间的比较关系。此外,该方法引入了对美学长尾问题的考虑,在对比排序过程中,通过平衡抽样和遍历对比来解决美学数据中长尾分布的影响。在多个基准IAA数据库上进行的大量实验和比较表明,所提出的模型在美学评估准确性和缓解长尾效应方面都具有优越的性能。

SIGKDD 2024录用论文

论文题目:Hierarchical Knowledge Guided Fault Intensity Diagnosis of Complex Industrial Systems

论文作者:沙毓,缑水平(通讯作者),刘波,Johannes Faber,刘宁涛,Stefan Schramm,Horst Stoecker,Thomas Steckenreiter,Domagoj Vnucec,Nadine Wetzstein,Andreas Widl,周凯(通讯作者)

作者单位:西安电子科技大学,香港中文大学深圳校区,Frankfurt Institute for Advanced Studies,Xidian-FIAS International Joint Research Center,Goethe University,GSI Helmholtzzentrum für Schwerionenforschung GmbH ,SAMSON AG

论文概述:作者受思维树启发提出了一种分层知识故障诊断框架(HKG),此框架适用于任何表示学习方法。HKH使用图卷积网络将类别特征的分层拓扑图映射为一组相互依存的全局分层分类器,其中每个节点由类别的词嵌入表示。这些全局分层分类器适用于通过表示学习提取的深度特征,进而使整个模型具备端到端的可学习性。此外,作者还开了一种重新加权的分层知识相关矩阵(Re-HKCM)方案,将类别间的分层知识嵌入到数据驱动的统计相关矩阵(SCM)中,从而有效指导图卷积神经网络中节点的信息共享,避免过度平滑问题。同时,Re-HKCM是由SCM通过一系列数学变换得到。在四个来自不同工业领域的真实数据集(SMASON AG的三个空化数据集和一个公开的工业轴承数据集)上进行了广泛的实验,结果优于最先进的故障诊断方法。

ACM国际多媒体会议(ACM MM)是计算机图形学与多媒体领域的顶级国际会议,被广泛认为是该领域的顶级盛会。这一会议由ACM主办,自1993年首次举办以来,已成为该领域内学术界和工业界交流的重要平台。ACM MM会议每年吸引来自全球的科学家和研究人员,提交并讨论关于多媒体视频图像处理、信号处理、多媒体软件及硬件系统、多媒体内容传输等方面的最新研究成果。该会议的论文录用标准极为严格,确保了会议内容的高质量和前沿性。此外,ACM MM会议的论文被中国计算机学会列为A类会议,进一步证明了其在国际学术界的重要地位和影响力。

国际知识发现与数据挖掘大会(SIGKDD)是数据挖掘领域的顶级会议,SIGKDD被广泛认为是知识发现和数据挖掘研究最具影响力的学术会议,是数据挖掘领域中h5 index排名最高的学术会议/期刊,并被中国计算机学会(CCF)评为推荐CCF-A类会议。

西安电子科技大学 智能感知与图像理解教育部重点实验室   版权所有   技术支持:西安聚力